LinguaLibre
Difference between revisions of "Réunions/2021/14-09"
< LinguaLibre:Réunions | 2021
(Created page with "== Présent-e-s == * Poslovitch * Pamputt * Cédric * Noé * Assassas * WikiLucas * Ghuillelma * Adélaïde == Prestation WikiValley == === Mise à jour MediaWiki 1.35 === *...") |
WikiLucas00 (talk | contribs) |
||
(12 intermediate revisions by 2 users not shown) | |||
Line 73: | Line 73: | ||
==== Et après ? ==== | ==== Et après ? ==== | ||
− | Possibilité pour aller plus loin : https://huggingface.co/facebook/wav2vec2-large-xlsr-53-french | + | Possibilité pour aller plus loin : https://huggingface.co/facebook/wav2vec2-large-xlsr-53-french, [https://huggingface.co/transformers/model_doc/wav2vec2.html la doc ici] |
− | Ça permettrait de | + | --> Moteur de reconnaissance vocale, associant une transcription orthographique à un enregistrement .wav donné. |
− | + | Ça permettrait de repérer les enregistrements ayant une grande différence entre ce que le moteur prédit depuis l'audio et le nom du fichier (à partir d'un certain seuil, on pourrait avertir l'utilisateur/les admins, car il y aurait de fortes chances que l'audio ait un problème/ne corresponde pas au titre donné). | |
− | |||
=== Enregistrement hors-ligne === | === Enregistrement hors-ligne === | ||
Line 84: | Line 83: | ||
=== Sons proches === | === Sons proches === | ||
Trouver des sons proches : tu prononces dans ton micro et il te trouve des sons approchants (c'est rigolo, non ?) quel est l'enjeu de cette fonctionalité ? | Trouver des sons proches : tu prononces dans ton micro et il te trouve des sons approchants (c'est rigolo, non ?) quel est l'enjeu de cette fonctionalité ? | ||
+ | *Pas clair 🤔 | ||
=== ''Datasets'' === | === ''Datasets'' === | ||
''datasets'' n'est plus mis à jour ([[phab:T261519|T261519]]). Le problème vient du fait que le script [https://github.com/lingua-libre/CommonsDownloadTool CommonsDownloadTool] ne gère pas le fait que Wikimedia Commons impose un ''ratelimit''. Le script récupère tout ce qui est nouveau ce qui fait beaucoup de fichiers à récupérer d'un coup (car il n'a pas été lancé depuis longtemps). | ''datasets'' n'est plus mis à jour ([[phab:T261519|T261519]]). Le problème vient du fait que le script [https://github.com/lingua-libre/CommonsDownloadTool CommonsDownloadTool] ne gère pas le fait que Wikimedia Commons impose un ''ratelimit''. Le script récupère tout ce qui est nouveau ce qui fait beaucoup de fichiers à récupérer d'un coup (car il n'a pas été lancé depuis longtemps). | ||
− | Existe-t-il des outils de dump sur Commons ( | + | Existe-t-il des outils de dump sur Commons ([[c:Commons:Download_tools|Commons:Download_tools]] ?) Ou rendre le script existant plus robuste (attente le temps que le rate-limit passe) et le faire tourner sur les petites langues en priorité. |
: Pas de métadonnées dans les ''datasets'', assez dommage | : Pas de métadonnées dans les ''datasets'', assez dommage | ||
Line 94: | Line 94: | ||
=== Lien avec des applications mobiles de lecture de livres === | === Lien avec des applications mobiles de lecture de livres === | ||
Brancher LL dans des dictionnaires pour appli mobile de lecture de bouquins (la lecture c'est une grande cause nationale https://www.education.gouv.fr/ete-2021-ete-2022-la-lecture-grande-cause-nationale-323642 il y a probablement des sous à prendre) | Brancher LL dans des dictionnaires pour appli mobile de lecture de bouquins (la lecture c'est une grande cause nationale https://www.education.gouv.fr/ete-2021-ete-2022-la-lecture-grande-cause-nationale-323642 il y a probablement des sous à prendre) | ||
+ | |||
+ | *Remarque : on enregistre pour l'instant seulement des mots isolés, et les applis préféreront peut-être une synthèse vocale qui au moins peut lire toute une page. | ||
+ | *Plusieurs applis proposent déjà une définition de dictionnaire quand on clique sur un mot, d'ailleurs quelque chose de similaire pourrait être proposé avec le Wiktionnaire (l'avantage du Wiktionnaire est de proposer des définitions sur + de termes, plus à jour, évolutives). Dans le cadre d'un add-on de dictionnaire dans une appli de lecture, les audios de Lingua Libre pour chaque mot auraient tout à fait leur place (mais pas en tant qu'assistant à la lecture). | ||
=== Exploration de la sonothèque === | === Exploration de la sonothèque === | ||
Line 99: | Line 102: | ||
=== Transcodage automatique sur Commons === | === Transcodage automatique sur Commons === | ||
− | + | Problème très propre à Commons ('''[[phabricator:T201911|décrit dans un ticket]]''') : quand des fichiers audio ou vidéos sont renommés sans redirection, le fichier devient illisible tant que le transcodage n'a pas été réinitialisé (à la main cela prend 8 opérations et autant de rafraichissement, pour chaque fichier). | |
+ | |||
+ | Une solution au problème pourrait soit consister en une amélioration de Commons, soit en un développement d'un bot qui passe pour transcoder les fichiers récemment renommés. | ||
+ | |||
+ | --> Cela impacte relativement peu Lingua Libre et ne constitue peut-être pas une priorité : c'est seulement problématique lorsque des fichiers doivent être renommés (mauvaise langue ou mauvaise transcription), ce qui concerne moins de 10% des fichiers de Lingua Libre. | ||
=== Blazegraph === | === Blazegraph === | ||
Line 110: | Line 117: | ||
== Sujets pour étudiants ou hackathon == | == Sujets pour étudiants ou hackathon == | ||
− | + | Lepticed présente un projet qu'il pourrait soumettre à des étudiants. Avant le 27 il faut soumettre le projet. Le premier ''dataset'' est à fournir pour mi octobre. | |
− | |||
− | |||
− | |||
− | |||
=== Language de programmation par outil === | === Language de programmation par outil === | ||
Line 128: | Line 131: | ||
=== Digital Campus === | === Digital Campus === | ||
− | Les étudiants ont-ils vu du | + | Les étudiants ont-ils vu du SPARQL, du SQL ou d'autres langages de requête ? |
=== Tâches possibles === | === Tâches possibles === | ||
− | * développer | + | * développer le code de LLbot pour différents Wiktionaries ? |
* expliciter et cadrer les tâches du phabricator -> à faire en interne | * expliciter et cadrer les tâches du phabricator -> à faire en interne | ||
Line 145: | Line 148: | ||
# Choix 2 : [[phab:T274864|T274864]] (Prompt users before closing the window when recordings are pending upload -> « petite » modif JS pour empêcher l'utilisateur de perdre tout son travail par inadvertance) | # Choix 2 : [[phab:T274864|T274864]] (Prompt users before closing the window when recordings are pending upload -> « petite » modif JS pour empêcher l'utilisateur de perdre tout son travail par inadvertance) | ||
+ | #* Mise à jour du 11/10/2021 : Quasiment fini (c'est déjà effectif, il faut seulement que le code soit intégré au code du Record Wizard, car pour l'instant cela fonctionne avec le fichier [[MediaWiki:Common.js]]). | ||
# Choix 3 : [[phab:T281988|T281988]] (Pick random elements of a category or list when loading only a part of it into the RW) | # Choix 3 : [[phab:T281988|T281988]] (Pick random elements of a category or list when loading only a part of it into the RW) | ||
+ | #*à combiner avec [[phab:T276014|T276014]] (Allow loading only parts of local lists in the Record Wizard (treat local lists the same way than wikimedia categories in the RW)) | ||
# Choix 4 : [[phab:T218372|T218372]] (Button to mass-play and review all the recordings) | # Choix 4 : [[phab:T218372|T218372]] (Button to mass-play and review all the recordings) |
Latest revision as of 12:23, 11 October 2021
Présent-e-s
- Poslovitch
- Pamputt
- Cédric
- Noé
- Assassas
- WikiLucas
- Ghuillelma
- Adélaïde
Prestation WikiValley
Mise à jour MediaWiki 1.35
- T265136 ? wb_terms est une table de données de la Wikibase, dépréciée parce que ça consomme trop de ressources sur Wikidata. Il faudrait passer au nouveau système plutôt que de continuer à utiliser cette base. Ce sera problématique quand on voudra faire une future mise à jour. Le nouveau système est expliqué ici (T265136)
- Effet de bord : manque l'icône du micro dans le Record Wizard (T281038)
Sonothèque
Approbation pour le nom « explorer la sonothèque »
Voir User:Nicolas_NALLET pour un exemple
Passer « explorer la sonothèque » à la place de datasets dans le menu à onglets. Et mettre datasets accessible depuis un bouton sur la page « explorer la sonothèque ».
Remarques
- tests outil exploration : les requêtes sont sur 100 éléments. Est-il possible d'ajouter des pages (bloquées à 10 pour l'instant) au fur et à mesure qu'on avance dans les pages ?
- + de responsive (ex: https://cloud.floriancuny.fr/s/jGdjQBkf3KEnGH9, écran 1360*780 et des poussières...)
- attention traduction des boutons et tout;
- les champs remplis automatiquement doivent s'effacer quand on change un élément de la requête
- pas ergonomique de devoir effacer le nom -> quand on reclique sur flèche on doit revoir le menu déroulant pour pouvoir en sélectionner un autre.
- demande d'avoir plusieurs colonnes en fonction de la largeur de l'écran. Et pouvoir sélectionner le nombre d'enregistrements par colonnes (exemple sur Wikimedia Commons)
- cliquer sur « 💾 Export this query in csv » ne fait rien (il faut que ça fasse ce que ça dit)
Environnement de développement
Problème : les logiciels de développement ne supportent pas RecordWizard. -> demander à WikiValley s'ils peuvent partager leur solution avec Poslovitch. Ils ont utilisé quel logiciel de dév pour faire fonctionner le record wizard ?
Divers
Des contributeurs de mediawiki ont fait des corrections sur lingua libre pour des méthodes qui avaient été dépréciées et qu'ils ont raccommodées (p.ex: https://github.com/lingua-libre/BlueLL/pull/10).
Liste de souhaits
Outil pour la patrouille
Voir cette ébauche
La page d'exploration de la sonothèque pourrait aussi servir de base
- Niveau de patrouille
double validation ? on aura du mal à trouver assez de patrouilleurs
- Corriger les fichiers défectueux sur les projets Wikimedia
- CommonsDelinker - les fichiers défectueux sont passés à la suppression.
- Apprendre à lingua libre bot à reconnaître les enregistrements défectueux. Partout où il l'a collé, il le retire.
- Problèmes actuels et futurs
Si un locuteur a enregistré un mot dans une langue x, mais a écrit le mot dans une langue y -> sans un patrouilleur qui parle la langue x, impossible à réparer
Autre problème de la patrouille : les différentes langues et systèmes d'écriture : je ne peux pas contrôler qu'un enregistrement est ok si je ne connais pas l'alphabet / les règles d'orthographe de la langue
Comment marquer les défauts ?
Propriété à apposer : P33 sur Lingua Libre. (voir https://lingualibre.org/wiki/Property_talk:P33 pour les valeurs de défauts possibles)
Actions à faire pour résoudre un défaut :
- Mauvaise langue d'enregistrement:
- changer le label de l'enregistrement sur lingua libre (?)
- changer le Q id de la langue sur Lingua Libre
- changer le Q id de la langue de l'enregistrement sur la page de description commons du fichier
- renommer le fichier sur Commons -> il faut que ça lance une réinitialisation du transcodage sur commons. bot qui réinitialise le transcodage automatiquement ?
- Problème d'enregistrement (clic, bruit, parasite ?) :
- notifier le locuteur pour qu'il réenregistre le mot
- si pas de réenregistrement au bout de quelques semaines/mois, on supprime
RecordWizard
Dans le record wizard, utiliser le type of issue (P33) pour afficher un menu ou une alerte avec la liste des mots qu'il doit ré-enregistrer.
Et après ?
Possibilité pour aller plus loin : https://huggingface.co/facebook/wav2vec2-large-xlsr-53-french, la doc ici
--> Moteur de reconnaissance vocale, associant une transcription orthographique à un enregistrement .wav donné. Ça permettrait de repérer les enregistrements ayant une grande différence entre ce que le moteur prédit depuis l'audio et le nom du fichier (à partir d'un certain seuil, on pourrait avertir l'utilisateur/les admins, car il y aurait de fortes chances que l'audio ait un problème/ne corresponde pas au titre donné).
Enregistrement hors-ligne
Du stockage en local pour de l'enregistrement hors-ligne
Sons proches
Trouver des sons proches : tu prononces dans ton micro et il te trouve des sons approchants (c'est rigolo, non ?) quel est l'enjeu de cette fonctionalité ?
- Pas clair 🤔
Datasets
datasets n'est plus mis à jour (T261519). Le problème vient du fait que le script CommonsDownloadTool ne gère pas le fait que Wikimedia Commons impose un ratelimit. Le script récupère tout ce qui est nouveau ce qui fait beaucoup de fichiers à récupérer d'un coup (car il n'a pas été lancé depuis longtemps).
Existe-t-il des outils de dump sur Commons (Commons:Download_tools ?) Ou rendre le script existant plus robuste (attente le temps que le rate-limit passe) et le faire tourner sur les petites langues en priorité.
- Pas de métadonnées dans les datasets, assez dommage
Lien avec des applications mobiles de lecture de livres
Brancher LL dans des dictionnaires pour appli mobile de lecture de bouquins (la lecture c'est une grande cause nationale https://www.education.gouv.fr/ete-2021-ete-2022-la-lecture-grande-cause-nationale-323642 il y a probablement des sous à prendre)
- Remarque : on enregistre pour l'instant seulement des mots isolés, et les applis préféreront peut-être une synthèse vocale qui au moins peut lire toute une page.
- Plusieurs applis proposent déjà une définition de dictionnaire quand on clique sur un mot, d'ailleurs quelque chose de similaire pourrait être proposé avec le Wiktionnaire (l'avantage du Wiktionnaire est de proposer des définitions sur + de termes, plus à jour, évolutives). Dans le cadre d'un add-on de dictionnaire dans une appli de lecture, les audios de Lingua Libre pour chaque mot auraient tout à fait leur place (mais pas en tant qu'assistant à la lecture).
Exploration de la sonothèque
- Rajouter critère "lieu de résidence" dans la page (attention à ce que l'outil gère villes vs pays -> ce lieu et ce qui est en dessous)
Transcodage automatique sur Commons
Problème très propre à Commons (décrit dans un ticket) : quand des fichiers audio ou vidéos sont renommés sans redirection, le fichier devient illisible tant que le transcodage n'a pas été réinitialisé (à la main cela prend 8 opérations et autant de rafraichissement, pour chaque fichier).
Une solution au problème pourrait soit consister en une amélioration de Commons, soit en un développement d'un bot qui passe pour transcoder les fichiers récemment renommés.
--> Cela impacte relativement peu Lingua Libre et ne constitue peut-être pas une priorité : c'est seulement problématique lorsque des fichiers doivent être renommés (mauvaise langue ou mauvaise transcription), ce qui concerne moins de 10% des fichiers de Lingua Libre.
Blazegraph
- Booster le BlazeGraph ou passer à un autre moteur de graph (possible : GraphDB / Neo4J)
RecordWizard
- pouvoir sélectioner un projet wikimédia par défaut
Sujets pour étudiants ou hackathon
Lepticed présente un projet qu'il pourrait soumettre à des étudiants. Avant le 27 il faut soumettre le projet. Le premier dataset est à fournir pour mi octobre.
Language de programmation par outil
- RecordWizard : php et javascript (il utilise aussi des outils en python dans son backend)
- UI gadgets = javascript, CSS, MediaWiki
- Bot , common upload et dataset = Python
- orga doc list = à faire en interne
- file management et queryvizz = ?
Hackathon
- lien vers le compte-rendu du Hackathon Lingua Libre de juillet 2021
- chantier des listes hackathon voir LinguaLibre:Réunions/2020/20-01#Calendrier_2021
Digital Campus
Les étudiants ont-ils vu du SPARQL, du SQL ou d'autres langages de requête ?
Tâches possibles
- développer le code de LLbot pour différents Wiktionaries ?
- expliciter et cadrer les tâches du phabricator -> à faire en interne
En une semaine
- T284369 (si un environnement de développement est disponible)
Tâches pour digital campus
- Choix 1 : problème d'affichage : T284875
Autre problème d'affichage lié à la typo Lato : ligatures (exemple d'un « f » suivi d'un « i », le point du « i » est lié au « f »), peu lisible
- --> Le problème a lieu avec la typo Lato, utilisée pour le RW, et aussi dans le corps de Lingua Libre
- Choix 2 : T274864 (Prompt users before closing the window when recordings are pending upload -> « petite » modif JS pour empêcher l'utilisateur de perdre tout son travail par inadvertance)
- Mise à jour du 11/10/2021 : Quasiment fini (c'est déjà effectif, il faut seulement que le code soit intégré au code du Record Wizard, car pour l'instant cela fonctionne avec le fichier MediaWiki:Common.js).
- Choix 3 : T281988 (Pick random elements of a category or list when loading only a part of it into the RW)
- à combiner avec T276014 (Allow loading only parts of local lists in the Record Wizard (treat local lists the same way than wikimedia categories in the RW))
- Choix 4 : T218372 (Button to mass-play and review all the recordings)
- Impact : aller plus vite pour déceler une erreur. Un bouton pour lancer ré-écoute massive. arrêter. Probablement besoin de développer davantage l'idée dans le ticket Phabricator
Financeurs
Idées financeurs :
Adaptation depuis https://etherpad.wikimedia.org/p/lingua_libre_besoins_techniques_2025