LinguaLibre

Technical board/Reports/2021/Problèmes dans la mise à jour des statistiques

< LinguaLibre:Technical board

Cette page vise à centraliser toutes les informations expliquant le fonctionnement interne de Lingua Libre afin de pouvoir trouver une solution aux problèmes de non-mise à jour des statistiques détecté à la fin de l'année 2020.

Message initial de Michael Barbereau (administrateur système et réseau de WMFr)

Comme certains l'ont remarqué, les statistiques ne sont plus mises à jour, découvrant le projet, je fais appel à vos connaissances pour essayer de corriger le problème. (https://lingualibre.org/wiki/LinguaLibre:Chat_room#Stats_page_November_2020) Je vous poste ce qu’on a pu constater avec Adélaïde, n’hésitez pas à me corriger ;)

Le problème ne semble pas venir de "QueryViz", car j'ai interrogé directement "BlazeGraph" et j'obtiens les mêmes résultats.

Si je prend l'exemple de cet enregistrement du 9-12: https://lingualibre.org/wiki/Q415062 Il est bien sur commons , utilisé sur wikidata mais sans lien référence à lingualibre. Je suppose donc que la partie "CommonsDownloadTools" est fonctionnelle. (petscan semble le confirmer https://petscan.wmflabs.org/?psid=17970278)

Concernant "llbot", le Cron tourne bien tous les jours : Dec 11 02:00:01 lingualibre CRON[10841]: (root) CMD (/usr/bin/python3.5 /home/www/Lingua-Libre-Bot/llbot.py simple --startdate "`date -d "-2 days" --rfc-3339=date`" > /var/log/llbot.log 2>&1 ) code retour 0 dans les log.

Mais le rapport d’activité du bot sur data est nul depuis le 19-11 https://www.wikidata.org/wiki/Special:Contributions/Lingua_Libre_Bot

J’avoue avoir du mal à voir d’où ça peut venir. Si vous avez des retours d’expérience, une base de connaissance sur ce genre de soucis, ou des pistes à me donner, je suis preneur. (Redémarrage de services/scripts par exemple avec les risques/effets de bord à envisager).

Description des briques techniques

Schéma montrant une webrequest dans l'infrastructure de Lingua Libre (en décembre 2018).

Commonsdownloadtools

Dépôt Github : https://github.com/lingua-libre/CommonsDownloadTool/blob/master/commons_download_tool.py

Possible fix submitted. Deploiement par Michael attendu sous 48h du Jeudi 11 Février 2021.

Lingua Libre Bot

Dépôt Github : https://github.com/lingua-libre/Lingua-Libre-Bot

Il s'agit d'un bot extérieur au coeur de Lingua Libre. Il tourne de manière autonome (lancée par une tâche cron) afin d'ajouter les derniers enregistrements effectués sur les différents projets Wikimedia pris en charge (Wikidata, Wiktionnaire francophone et occitanophone).

QueryViz

Dépôt Github : https://github.com/lingua-libre/QueryViz

QueryViz est une simple extension Mediawiki : https://www.mediawiki.org/wiki/Extension:QueryViz. Cette extension a été créée en 2018 par 0x010C et utilisée seulement par LinguaLibre. QueryViz pour simplifier ne fait rien d'autre que de récupérer les infos d'un blazegraph pour l'afficher dans une page Mediawiki.

VIGNERON ne voit aucune différence entre les résultats fournis par l'endpoint SPARQL de Blazegraph et ce qui est affiché sur LinguaLibre par QueryViz, le problème ne semble donc pas venir de QueryViz.

Pamputt, tu dis que queryviz interroge les données de lingualibre. Veux-tu dire qu'il interroge la base de données interne de lingua libre ? Ou plutôt les données concernant lingua libre, qui pourraient être stockées ailleurs ?
D'après ce que j'en comprends (c'est-à-dire pas grand chose), QueryViz utilise les données stockées dans la base de données de Lingua Libre. C'est ce qu'on peut voir à la ligne 320 de LocalSettings.php (https://github.com/lingua-libre/operations/blob/aae72f5d98d1dc8d916a972816490c4a355ed089/mediawiki-config/LocalSettings.php#L320). Ca pointe bien vers quelque part en interne du site de Lingua Libre.

BlazeGraph

Blazegraph est un système de gestion de base de données orientée graphe et un triplestore créée en 2006 et utilisé par des dizaines de milliers de sites à travers le monde.

Blazegraph fonctionne mais sa base de données n'a pas été mise à jour depuis le 19 novembre. Pour vérifier cela il faut d'abord savoir quelle est la base de données qu'il interroge et quel est l'outil qui alimente la base.

Le problème se situe soit au niveau du Blazegraph lui-même, soit entre la Wikibase de LinguaLibre et Blazegraph (mon intuition pencherait pour le second mais ce n'est qu'une intuition).

Relance de l’updater 2021-02-11

Nous avons relancé l’updater. ~ Wiki Valley+VIGNERON 10:46, 11 February 2021 (UTC)

Ligne de commande en root :

nohup ./runUpdate.sh -n wdq -- -s 2020-11-01T00:00:00Z  --wikibaseScheme https --entityNamespaces 0,122 --wikibaseHost lingualibre.org --conceptUri https://lingualibre.org >updater.log 2>updater.err &

Voir la documentation de cette commande sur mw:Wikidata_Query_Service/User_Manual/fr#Options_de_Updater