LinguaLibre
Réunions/2021/14-09
< LinguaLibre:Réunions | 2021Revision as of 11:55, 11 October 2021 by WikiLucas00 (talk | contribs) (→Transcodage automatique sur Commons: développement)
Présent-e-s
- Poslovitch
- Pamputt
- Cédric
- Noé
- Assassas
- WikiLucas
- Ghuillelma
- Adélaïde
Prestation WikiValley
Mise à jour MediaWiki 1.35
- T265136 ? wb_terms est une table de données de la Wikibase, dépréciée parce que ça consomme trop de ressources sur Wikidata. Il faudrait passer au nouveau système plutôt que de continuer à utiliser cette base. Ce sera problématique quand on voudra faire une future mise à jour. Le nouveau système est expliqué ici (T265136)
- Effet de bord : manque l'icône du micro dans le Record Wizard (T281038)
Sonothèque
Approbation pour le nom « explorer la sonothèque »
Voir User:Nicolas_NALLET pour un exemple
Passer « explorer la sonothèque » à la place de datasets dans le menu à onglets. Et mettre datasets accessible depuis un bouton sur la page « explorer la sonothèque ».
Remarques
- tests outil exploration : les requêtes sont sur 100 éléments. Est-il possible d'ajouter des pages (bloquées à 10 pour l'instant) au fur et à mesure qu'on avance dans les pages ?
- + de responsive (ex: https://cloud.floriancuny.fr/s/jGdjQBkf3KEnGH9, écran 1360*780 et des poussières...)
- attention traduction des boutons et tout;
- les champs remplis automatiquement doivent s'effacer quand on change un élément de la requête
- pas ergonomique de devoir effacer le nom -> quand on reclique sur flèche on doit revoir le menu déroulant pour pouvoir en sélectionner un autre.
- demande d'avoir plusieurs colonnes en fonction de la largeur de l'écran. Et pouvoir sélectionner le nombre d'enregistrements par colonnes (exemple sur Wikimedia Commons)
- cliquer sur « 💾 Export this query in csv » ne fait rien (il faut que ça fasse ce que ça dit)
Environnement de développement
Problème : les logiciels de développement ne supportent pas RecordWizard. -> demander à WikiValley s'ils peuvent partager leur solution avec Poslovitch. Ils ont utilisé quel logiciel de dév pour faire fonctionner le record wizard ?
Divers
Des contributeurs de mediawiki ont fait des corrections sur lingua libre pour des méthodes qui avaient été dépréciées et qu'ils ont raccommodées (p.ex: https://github.com/lingua-libre/BlueLL/pull/10).
Liste de souhaits
Outil pour la patrouille
Voir cette ébauche
La page d'exploration de la sonothèque pourrait aussi servir de base
- Niveau de patrouille
double validation ? on aura du mal à trouver assez de patrouilleurs
- Corriger les fichiers défectueux sur les projets Wikimedia
- CommonsDelinker - les fichiers défectueux sont passés à la suppression.
- Apprendre à lingua libre bot à reconnaître les enregistrements défectueux. Partout où il l'a collé, il le retire.
- Problèmes actuels et futurs
Si un locuteur a enregistré un mot dans une langue x, mais a écrit le mot dans une langue y -> sans un patrouilleur qui parle la langue x, impossible à réparer
Autre problème de la patrouille : les différentes langues et systèmes d'écriture : je ne peux pas contrôler qu'un enregistrement est ok si je ne connais pas l'alphabet / les règles d'orthographe de la langue
Comment marquer les défauts ?
Propriété à apposer : P33 sur Lingua Libre. (voir https://lingualibre.org/wiki/Property_talk:P33 pour les valeurs de défauts possibles)
Actions à faire pour résoudre un défaut :
- Mauvaise langue d'enregistrement:
- changer le label de l'enregistrement sur lingua libre (?)
- changer le Q id de la langue sur Lingua Libre
- changer le Q id de la langue de l'enregistrement sur la page de description commons du fichier
- renommer le fichier sur Commons -> il faut que ça lance une réinitialisation du transcodage sur commons. bot qui réinitialise le transcodage automatiquement ?
- Problème d'enregistrement (clic, bruit, parasite ?) :
- notifier le locuteur pour qu'il réenregistre le mot
- si pas de réenregistrement au bout de quelques semaines/mois, on supprime
RecordWizard
Dans le record wizard, utiliser le type of issue (P33) pour afficher un menu ou une alerte avec la liste des mots qu'il doit ré-enregistrer.
Et après ?
Possibilité pour aller plus loin : https://huggingface.co/facebook/wav2vec2-large-xlsr-53-french
Ça permettrait de pointer des « dissonances » entre ce que la personne a enregistré et la transcription dans le nom du fichier.
Voir : https://huggingface.co/transformers/model_doc/wav2vec2.html
Enregistrement hors-ligne
Du stockage en local pour de l'enregistrement hors-ligne
Sons proches
Trouver des sons proches : tu prononces dans ton micro et il te trouve des sons approchants (c'est rigolo, non ?) quel est l'enjeu de cette fonctionalité ?
Datasets
datasets n'est plus mis à jour (T261519). Le problème vient du fait que le script CommonsDownloadTool ne gère pas le fait que Wikimedia Commons impose un ratelimit. Le script récupère tout ce qui est nouveau ce qui fait beaucoup de fichiers à récupérer d'un coup (car il n'a pas été lancé depuis longtemps).
Existe-t-il des outils de dump sur Commons (Commons:Download_tools ?) Ou rendre le script existant plus robuste (attente le temps que le rate-limit passe) et le faire tourner sur les petites langues en priorité.
- Pas de métadonnées dans les datasets, assez dommage
Lien avec des applications mobiles de lecture de livres
Brancher LL dans des dictionnaires pour appli mobile de lecture de bouquins (la lecture c'est une grande cause nationale https://www.education.gouv.fr/ete-2021-ete-2022-la-lecture-grande-cause-nationale-323642 il y a probablement des sous à prendre)
Exploration de la sonothèque
- Rajouter critère "lieu de résidence" dans la page (attention à ce que l'outil gère villes vs pays -> ce lieu et ce qui est en dessous)
Transcodage automatique sur Commons
Problème très propre à Commons (décrit dans un ticket) : quand des fichiers audio ou vidéos sont renommés sans redirection, le fichier devient illisible tant que le transcodage n'a pas été réinitialisé (à la main cela prend 8 opérations et autant de rafraichissement, pour chaque fichier).
Une solution au problème pourrait soit consister en une amélioration de Commons, soit en un développement d'un bot qui passe pour transcoder les fichiers récemment renommés.
--> Cela impacte relativement peu Lingua Libre et ne constitue peut-être pas une priorité : c'est seulement problématique lorsque des fichiers doivent être renommés (mauvaise langue ou mauvaise transcription), ce qui concerne moins de 10% des fichiers de Lingua Libre.
Blazegraph
- Booster le BlazeGraph ou passer à un autre moteur de graph (possible : GraphDB / Neo4J)
RecordWizard
- pouvoir sélectioner un projet wikimédia par défaut
Sujets pour étudiants ou hackathon
Lepticed présente un projet qu'il pourrait soumettre à des étudiants. Avant le 27 il faut soumettre le projet. Le premier dataset est à fournir pour mi octobre.
Language de programmation par outil
- RecordWizard : php et javascript (il utilise aussi des outils en python dans son backend)
- UI gadgets = javascript, CSS, MediaWiki
- Bot , common upload et dataset = Python
- orga doc list = à faire en interne
- file management et queryvizz = ?
Hackathon
- lien vers le compte-rendu du Hackathon Lingua Libre de juillet 2021
- chantier des listes hackathon voir LinguaLibre:Réunions/2020/20-01#Calendrier_2021
Digital Campus
Les étudiants ont-ils vu du sparql et query language ou du sql ?
Tâches possibles
- développer des bot pour envoyer enregistrements sur wiktionnaire ?
- expliciter et cadrer les tâches du phabricator -> à faire en interne
En une semaine
- T284369 (si un environnement de développement est disponible)
Tâches pour digital campus
- Choix 1 : problème d'affichage : T284875
Autre problème d'affichage lié à la typo Lato : ligatures (exemple d'un « f » suivi d'un « i », le point du « i » est lié au « f »), peu lisible
- --> Le problème a lieu avec la typo Lato, utilisée pour le RW, et aussi dans le corps de Lingua Libre
- Choix 2 : T274864 (Prompt users before closing the window when recordings are pending upload -> « petite » modif JS pour empêcher l'utilisateur de perdre tout son travail par inadvertance)
- Choix 3 : T281988 (Pick random elements of a category or list when loading only a part of it into the RW)
- Choix 4 : T218372 (Button to mass-play and review all the recordings)
- Impact : aller plus vite pour déceler une erreur. Un bouton pour lancer ré-écoute massive. arrêter. Probablement besoin de développer davantage l'idée dans le ticket Phabricator
Financeurs
Idées financeurs :
Adaptation depuis https://etherpad.wikimedia.org/p/lingua_libre_besoins_techniques_2025