LinguaLibre

Difference between revisions of "Réunions/2021/14-09"

< LinguaLibre:Réunions‎ | 2021

(je préfère que tu ajoutes une note indiquant que ça a été résolu après la réunion. Mais comme c'est un compte-rendu, ça montre juste l'état du projet à un instant « t »)
Tag: Undo
m
Line 145: Line 145:
  
 
# Choix 2 : [[phab:T274864|T274864]] (Prompt users before closing the window when recordings are pending upload -> « petite » modif JS pour empêcher l'utilisateur de perdre tout son travail par inadvertance)
 
# Choix 2 : [[phab:T274864|T274864]] (Prompt users before closing the window when recordings are pending upload -> « petite » modif JS pour empêcher l'utilisateur de perdre tout son travail par inadvertance)
#* Quasiment fini (c'est déjà effectif, il faut seulement que le code soit intégré au code du Record Wizard, car pour l'instant cela fonctionne avec le fichier [[MediaWiki:Common.js]]).
+
#* Mise à jour du 11/10/2021 : Quasiment fini (c'est déjà effectif, il faut seulement que le code soit intégré au code du Record Wizard, car pour l'instant cela fonctionne avec le fichier [[MediaWiki:Common.js]]).
  
 
# Choix 3 : [[phab:T281988|T281988]] (Pick random elements of a category or list when loading only a part of it into the RW)
 
# Choix 3 : [[phab:T281988|T281988]] (Pick random elements of a category or list when loading only a part of it into the RW)

Revision as of 12:12, 11 October 2021

Présent-e-s

  • Poslovitch
  • Pamputt
  • Cédric
  • Noé
  • Assassas
  • WikiLucas
  • Ghuillelma
  • Adélaïde

Prestation WikiValley

Mise à jour MediaWiki 1.35

  • T265136 ? wb_terms est une table de données de la Wikibase, dépréciée parce que ça consomme trop de ressources sur Wikidata. Il faudrait passer au nouveau système plutôt que de continuer à utiliser cette base. Ce sera problématique quand on voudra faire une future mise à jour. Le nouveau système est expliqué ici (T265136)
  • Effet de bord : manque l'icône du micro dans le Record Wizard (T281038)

Sonothèque

Approbation pour le nom « explorer la sonothèque »

Voir User:Nicolas_NALLET pour un exemple

Passer « explorer la sonothèque » à la place de datasets dans le menu à onglets. Et mettre datasets accessible depuis un bouton sur la page « explorer la sonothèque ».

Remarques

  • tests outil exploration : les requêtes sont sur 100 éléments. Est-il possible d'ajouter des pages (bloquées à 10 pour l'instant) au fur et à mesure qu'on avance dans les pages ?
  • + de responsive (ex: https://cloud.floriancuny.fr/s/jGdjQBkf3KEnGH9, écran 1360*780 et des poussières...)
  • attention traduction des boutons et tout;
  • les champs remplis automatiquement doivent s'effacer quand on change un élément de la requête
  • pas ergonomique de devoir effacer le nom -> quand on reclique sur flèche on doit revoir le menu déroulant pour pouvoir en sélectionner un autre.
  • demande d'avoir plusieurs colonnes en fonction de la largeur de l'écran. Et pouvoir sélectionner le nombre d'enregistrements par colonnes (exemple sur Wikimedia Commons)
  • cliquer sur « 💾 Export this query in csv » ne fait rien (il faut que ça fasse ce que ça dit)

Environnement de développement

Problème : les logiciels de développement ne supportent pas RecordWizard. -> demander à WikiValley s'ils peuvent partager leur solution avec Poslovitch. Ils ont utilisé quel logiciel de dév pour faire fonctionner le record wizard ?

Divers

Des contributeurs de mediawiki ont fait des corrections sur lingua libre pour des méthodes qui avaient été dépréciées et qu'ils ont raccommodées (p.ex: https://github.com/lingua-libre/BlueLL/pull/10).

Liste de souhaits

Outil pour la patrouille

Voir cette ébauche

La page d'exploration de la sonothèque pourrait aussi servir de base

  1. Niveau de patrouille

double validation ? on aura du mal à trouver assez de patrouilleurs

  1. Corriger les fichiers défectueux sur les projets Wikimedia
  • CommonsDelinker - les fichiers défectueux sont passés à la suppression.
  • Apprendre à lingua libre bot à reconnaître les enregistrements défectueux. Partout où il l'a collé, il le retire.
  1. Problèmes actuels et futurs

Si un locuteur a enregistré un mot dans une langue x, mais a écrit le mot dans une langue y -> sans un patrouilleur qui parle la langue x, impossible à réparer

Autre problème de la patrouille : les différentes langues et systèmes d'écriture : je ne peux pas contrôler qu'un enregistrement est ok si je ne connais pas l'alphabet / les règles d'orthographe de la langue

Comment marquer les défauts ?

Propriété à apposer : P33 sur Lingua Libre. (voir https://lingualibre.org/wiki/Property_talk:P33 pour les valeurs de défauts possibles)

Actions à faire pour résoudre un défaut :

  1. Mauvaise langue d'enregistrement:
    • changer le label de l'enregistrement sur lingua libre (?)
    • changer le Q id de la langue sur Lingua Libre
    • changer le Q id de la langue de l'enregistrement sur la page de description commons du fichier
    • renommer le fichier sur Commons -> il faut que ça lance une réinitialisation du transcodage sur commons. bot qui réinitialise le transcodage automatiquement ?
  2. Problème d'enregistrement (clic, bruit, parasite ?) :
    • notifier le locuteur pour qu'il réenregistre le mot
    • si pas de réenregistrement au bout de quelques semaines/mois, on supprime

RecordWizard

Dans le record wizard, utiliser le type of issue (P33) pour afficher un menu ou une alerte avec la liste des mots qu'il doit ré-enregistrer.

Et après ?

Possibilité pour aller plus loin : https://huggingface.co/facebook/wav2vec2-large-xlsr-53-french

Ça permettrait de pointer des « dissonances » entre ce que la personne a enregistré et la transcription dans le nom du fichier.

Voir : https://huggingface.co/transformers/model_doc/wav2vec2.html

Enregistrement hors-ligne

Du stockage en local pour de l'enregistrement hors-ligne

Sons proches

Trouver des sons proches : tu prononces dans ton micro et il te trouve des sons approchants (c'est rigolo, non ?) quel est l'enjeu de cette fonctionalité ?

Datasets

datasets n'est plus mis à jour (T261519). Le problème vient du fait que le script CommonsDownloadTool ne gère pas le fait que Wikimedia Commons impose un ratelimit. Le script récupère tout ce qui est nouveau ce qui fait beaucoup de fichiers à récupérer d'un coup (car il n'a pas été lancé depuis longtemps).

Existe-t-il des outils de dump sur Commons (Commons:Download_tools ?) Ou rendre le script existant plus robuste (attente le temps que le rate-limit passe) et le faire tourner sur les petites langues en priorité.

Pas de métadonnées dans les datasets, assez dommage

Lien avec des applications mobiles de lecture de livres

Brancher LL dans des dictionnaires pour appli mobile de lecture de bouquins (la lecture c'est une grande cause nationale https://www.education.gouv.fr/ete-2021-ete-2022-la-lecture-grande-cause-nationale-323642 il y a probablement des sous à prendre)

Exploration de la sonothèque

  • Rajouter critère "lieu de résidence" dans la page (attention à ce que l'outil gère villes vs pays -> ce lieu et ce qui est en dessous)

Transcodage automatique sur Commons

Problème très propre à Commons (décrit dans un ticket) : quand des fichiers audio ou vidéos sont renommés sans redirection, le fichier devient illisible tant que le transcodage n'a pas été réinitialisé (à la main cela prend 8 opérations et autant de rafraichissement, pour chaque fichier).

Une solution au problème pourrait soit consister en une amélioration de Commons, soit en un développement d'un bot qui passe pour transcoder les fichiers récemment renommés.

--> Cela impacte relativement peu Lingua Libre et ne constitue peut-être pas une priorité : c'est seulement problématique lorsque des fichiers doivent être renommés (mauvaise langue ou mauvaise transcription), ce qui concerne moins de 10% des fichiers de Lingua Libre.

Blazegraph

  • Booster le BlazeGraph ou passer à un autre moteur de graph (possible : GraphDB / Neo4J)

RecordWizard

  • pouvoir sélectioner un projet wikimédia par défaut


Sujets pour étudiants ou hackathon

Lepticed présente un projet qu'il pourrait soumettre à des étudiants. Avant le 27 il faut soumettre le projet. Le premier dataset est à fournir pour mi octobre.

Language de programmation par outil

  • RecordWizard : php et javascript (il utilise aussi des outils en python dans son backend)
  • UI gadgets = javascript, CSS, MediaWiki
  • Bot , common upload et dataset = Python
  • orga doc list = à faire en interne
  • file management et queryvizz = ?

Hackathon

Digital Campus

Les étudiants ont-ils vu du SPARQL, du SQL ou d'autres langages de requête ?

Tâches possibles

  • développer le code de LLbot pour différents Wiktionaries ?
  • expliciter et cadrer les tâches du phabricator -> à faire en interne

En une semaine

  • T284369 (si un environnement de développement est disponible)

Tâches pour digital campus

  1. Choix 1 : problème d'affichage : T284875

Autre problème d'affichage lié à la typo Lato : ligatures (exemple d'un « f » suivi d'un « i », le point du « i » est lié au « f »), peu lisible

--> Le problème a lieu avec la typo Lato, utilisée pour le RW, et aussi dans le corps de Lingua Libre
  1. Choix 2 : T274864 (Prompt users before closing the window when recordings are pending upload -> « petite » modif JS pour empêcher l'utilisateur de perdre tout son travail par inadvertance)
    • Mise à jour du 11/10/2021 : Quasiment fini (c'est déjà effectif, il faut seulement que le code soit intégré au code du Record Wizard, car pour l'instant cela fonctionne avec le fichier MediaWiki:Common.js).
  1. Choix 3 : T281988 (Pick random elements of a category or list when loading only a part of it into the RW)
    • à combiner avec T276014 (Allow loading only parts of local lists in the Record Wizard (treat local lists the same way than wikimedia categories in the RW))
  1. Choix 4 : T218372 (Button to mass-play and review all the recordings)
    Impact : aller plus vite pour déceler une erreur. Un bouton pour lancer ré-écoute massive. arrêter. Probablement besoin de développer davantage l'idée dans le ticket Phabricator

Financeurs

Idées financeurs :

Adaptation depuis https://etherpad.wikimedia.org/p/lingua_libre_besoins_techniques_2025