LinguaLibre

Réunions/2020/4-12

< LinguaLibre:Réunions‎ | 2020

Présent-e-s

  • Antoine Srun (Assassas77)
  • AdélaIde Calais
  • Eve (Guilhelma)
  • Hugo
  • Nicolas Lopez
  • Noé
  • Sebleouf
  • Nicolas VIGNERON
  • Florian CUNY (Poslovitch)
  • WikiLucas00
  • Lyokoï (arrivé à 20h07)

Ordre du jour

  • Serveurs
  • Lien interwikis
  • Atelier Plateforme Atlas – article de blog
  • Thématiques de travail et moyens
  • Quid de Sign-it ?

Serveurs

Alerte fin novembre car stockage plein à 95 %, mais retombé à 85 % dans la nuit suite à la purge des logs. En fait, il y avait déjà eu des alertes qui étaient passées inaperçues suite au départ de Sylvain, admin réseau de WMFR. Dossier maintenant repris depuis que Michael (remplacant Sylvain) est arrivé à WMFR.

Archives de lingualibre sont stockés sur les serveurs, pourraient être déplacé pour gagner de la place. Ce qui laisse du temps pour acheter plus de stockage sur le serveur (ce qui éviterait d'avoir à faire une migration).

Question : Archive = dataset ?
Réponse : Deux archives :

  • une qui date de la version 1 (dont des enregistrements jamais passé sur la version 2).
  • lors de la refonte graphique, un backup avait été fait "au cas où" ➡ Idem pas besoin de rester sur le serveur actif, à bouger.

Réunion technique à prévoir, Poslovitch intéressé.

SURTOUT : remettre en place les datasets

Liens interwikis

Nous avons maintenant un préfixe pour faire des liens interwikis (demandé sur m:Talk:Interwiki map, demande archivée ici).

Question de Yug: tous les audios sont sur Commons et sur LL il y a juste 25 pages non ?
➡ Non, il y a bien plus : les pages de discussions, d'aide et les éléments, les listes de mots (comme https://lingualibre.org/wiki/List:Fra/Adverbes_en_-ment), etc.

Atelier Plateforme Atlas - article de blog

Article du blog WMFr ici. Atelier avec Plateforme Atlas, par WikiLucas, Emma, avec en support Assassas77 et Nicolas Lopez. Partenariat initié par Emma en lien avec Chady (Atlas). Premier atelier de présentation en octobre. Présence de personnes parlant des langues que l'on avait pas ou très peu sur Lingua Libre jusque là.

Avant le deuxième atelier, modèle de bienvenue créé : Template:Welcome. Piste d'amélioration du modèle : donner des informations de contact aux nouveaux venus, pour qu'ils puissent si besoin poser des question à celui ou celle les ayant accueillis (comme un mentor).

Thématiques de travail et moyens

Liens avec d'autres projets Wikimédia / réseaux / communautés linguistiques

Lister l’existant (bot wiktionnaire / lien interwiki / wikimedia commons / wikidata code langue ?)

Coopération LL+Wiktionnaire=❤

Dresser une carte des liens possibles (discussions avec les communautés d’autres projets / Meta -> joindre autres communautés et garder une trace des finances fondation / wikidata lexeme / adapter Lingua Libre bot pour d'autres wiktionnaires (notamment en bengali). Proposition Poslovitch : développement bénévole pour simplifier le code du bot).

➡ Spell4Wiki, un projet d'Inde d'appli mobile ayant un but similaire (voir vidéo de l'appli). Projet commencé en mai. Vérifient s'ils manque des enregistrements sur le wiktionnaire. Ils ont un systeme de verfication manuel des enregistrements.

Proposition imitation: son stocké sur Lingua Libre en attendant qu'il soit validé . Développement technique possible pour détecter des défauts de son.

➡Mozilla CommonVoice (non exploitable sur Wikimédia)

➡page Meta: https://meta.wikimedia.org/wiki/Lingua_Libre

Établir les priorités

Hackathon pour créer les liens lingua libre - autres projets + demander recommandations. Il y a des archives projets sur Lili.

Réseaux: passer par des chapitres plutôt que par les communautés sur les wiktionnaires (les lieux de discussions sont souvent peu développés ou actifs). Cela permettrait de simplifier les discussions, pour renforcer la collaboration (p. ex: déploiement du bot LL sur d'autres Wiktionaries). Les GLAM peuvent aussi être d'une grande aide.

Rassemblements en ligne: en profiter pour faire des présentations Lingua Libre (ex. du Celtic/Arctic Knot, le 24-25 juin m:Arctic Knot Conference 2021 ).

Surveiller le contenu qui passe sur Wikicommons: projet de développement sur le long-terme pour Lingua Libre.

Problème de l'accélération du son sur LiLi persiste : Tittoduta et Guilhelma rencontrent ce bug fréquemment (ce n'est pas un souci de perso de navigateur). Le bug est soupçonné d'être apparu suite a une modification d'Antoine sur le code javascript en mai. Il fait faire des tests avec quelqun qui ai acces au github, (mais personnes n'y a acces pour le moment, dans ce cas la trouver des administrateurs).

Actions vers Les sans pagEs, George2etexte, Noircir Wikipédia.

Cartographier les zone de couvertures : Wiki oral, Wikitongue, Lingualibre.

Partenariats avec autres associations (connaissance, culture, langue, librisme). Proposer ateliers en ligne aux autres affiliés ? Campagne communication enveloppes micro-financement pour ateliers lingua libre ?

Formation et documentation

  • Tutoriels vidéo lingua libre en français, anglais et espagnol. Dans l'idéal, faire du sous-titrage : Wikimedia Commmons permet de faire du sous-titrage (espace de nom TimedText). format SRT.
  • Ateliers traduction pages d’aide
  • Document « organiser un atelier lingua libre »
  • Proposition : créer des lieux de discussion pours les utilisateurs en différentes langues, plutôt que continuer à utiliser le forum de discussion commun a toutes les langues minoritaires : faire des portails pour chaque langue (page wiki pour chaque communauté par langue). Utiliser Lingua Libre:. Puisqu'on est toujours un petit wiki, nous n'avons pas besoin de faire une distinction entre portail et projet. Besoin de créer un espace entre le portail et le projet: une page ou un.e contributeur va retrouver toutes les informations qui lui sont utiles.
  • Avoir une "Landing page" pour télécharger les datasets: utiliser les audios de LiLi en dehors du cadre Wikimédia. De nombreuses applications d'apprentissage des langues (comme Anki) utilisent les audios de LiLi.
  • Comment remplir la Section "Valoriser" dans "Help:" ? La supprimer ?

Outils

Outils administrateurs

  • Renommer des fichiers massivement ➡ Le problème se pose surtout sur Commons, notamment quand des erreurs sont faites en enregistrant (mauvaise langue choisie etc)
  • Importer des fichiers massivement (15000 v1 et autres offres partenaires)
  • Patrouille de réécoute pour validation (cf Mozilla CommonVoice) ➡possible via ORES ?

Outils contribution

  • Sonothèque consultable (besoin de soutien pour l’imaginer)
    • Visualisation d'un mot sur une carte géographique ? ➡ Il faudrait lier à Lexeme pour récupérer les mots & TOUS les enregistrements liés. ou en récupérant la chaîne de caractères du mot dans les autres audios de la même langues (si jamais travailler avec Lexeme est trop compliqué)?
  • Listes de fréquences thématiques (= listes locales?)
  • Outil basé sur wikiquote ou wikisource pour proposer du texte à lire ? (Pouvoir choisir à l'avance si l'on enregsitre des mots/locutions, ou des phrases, ou des textes, afin d'activer/régler le seuil de silence entre items).
  • Idée des stimuli visuels

A. Sonothèque consultable : faire en sorte que la contribution ne s'arrête pas a l'enregistrement. Approches:

  • Renforcer la contribution et la rendre plus ludique
  • Créer de l'usage pour accroitre la contribution: Flash cards/e-learning
  • Développer des usages en développant des projets externes

Beaucoup de langues n'ont pas de sources écrites/académiques/journalistiques: elles ne peuvent contribuer sur les wikis écrits: documenter une culture.

Contenu

  • Lexicographie à l'oral: définitions de mots
  • Témoignages et reportages (projet wiki oral) : aller plus loin que simplement la sonorité, en enregistrant des articles culturels/historiques.

Comment développer cette interface ?

B. Améliorer les listes :

  • Système de liste qui s'autogénère a partir de mots fréquents / populaires / "intéressants" (récemment ajoutés sur Wikt, pas d'enregistrements en provenance d'un pays X, ...)
  • Outil qui liste les mots qui n'ont pas d'enregistrements, les ajoute dans une liste et les propose a des contributeurs.

Outils de mesure

  • Outil de calcul de réutilisation des fichiers LiLi
  • Des statistiques rapides à charger
  • Peut-être une possibilité de requête SPARQL sur l'horaire du premier enregistrement d'un locuteur/la création du profil de locuteur, pour savoir combien de personnes participent pendant un atelier/une période donnée. Avec une colonne pour le genre ?
  • Les statistiques sont bloquées ➡peut-être lié au mal-fonctionnement des serveurs.

Sur le Wiktionnaire: combien de pages du Wiktionnaire ont un enregistrement ? Actuellement 1 million (sans flexions) de mots sur le Wiktionnaire : faire une jauge qui porte intérêt a Lingua Libre. En récupérant les bases de données, ces statistiques peuvent être obtenues. Lyokoï peut aider pour ces statistiques. Lepticed peut également utiliser le Query pour obtenir ces statistiques. Difficile d'évaluer précisément l'impact des ateliers sur le Wiktionnaire à cause de la latence d'ajout par le bot.

Moyens

  • Projet de Lingua Libriste en résidence pour les mois de mai, juin, juillet, août 2020 : [1].
  • Campagne de développement pour une sonothèque consultable et modifiable: est-ce vraiment au bénéfice du Dictionnaire Des Francophones? À proposer indépendamment de la demande de financement à la DGLFLF. Points communs entre la sonothèque et la création de flashcards ➡ Organiser deux hackathons (1 à Lyon et un autre plus international) (ou des hackathons en ligne?).
  • Autre moyen de financement : la Cité internationale de la francophonie à Villers-Cotterêts. La responsable de l'exposition permanente est Valérie Senghor, directrice générale adjointe du Centre des monuments nationaux. Solliciter peut-être d'abord Thibault Grouas pour la mise en relation. Ils seraient intéressés pour accueillir une présentation des données ainsi que des ateliers d'enregistrement.
  • Campagne de développement outils administrateurs/patrouilleurs : cette proposition bénéficierait à la DGLFLF car servirait directement au projet Dictionnaires des Francophones.
  • Hackathon pour les liens vers et depuis les autres projets Wikimédia
  • Hackathon à Lyon (?) (mai - juin) en collaboration avec le LiListe en Résidence pour lui développer des outils.
  • Recrutement stagiaire 8 mois au sein de WMFr – animation de communautés linguistiques
  • Budget communication au cas où
  • Espace serveurs
  • Appel d'offre lancé en 2020 : maintenance applicative + nouvelles fonctionnalités
  • Fin du support de mediawiki 1.31 >> montée de version en 1.35
  • Tickets à traiter dans Phabricator
  • Stratégie alternative pour le succès de l'appel d'offre : poster l'annonce directement sur des sites spécialisés. Hugo Lopez va contacter Nicolas Vion.
  • Budget pour le développement (à la DGLFLF) : première proposition à 20k (13 pour LiLi) et une deuxième proposition à 30k (22 pour LiLi).
  • Projet Gascon : créer des flashcards branchées sur LiLi et utilisables sur une plateforme extérieure ou même sur LiLi: récupérer cette proposition (déjà rédigée) et la présenter à la DGLFLF

Quid de Sign it?

Améliorer l'app et continuer sur le projet ou bien d'autres priorités ?

Le retour sur investissement est assez rapide en termes d'images et de contenu. Chercher un autre financeur pour continuer sur le projet. Thibault connait une branche de la DGLFLF qui s'appelle Langues de France et Outre-mer: les fonds ne viendraient pas de la même mission mais il proviendraient tout de même de la DGLFLF.

Questions et discussions

Questions par écrit :

  • Comment téléverser un fichier image sur Lingua Libre ? (ex. [2])Je voudrais mettre ce fichier en local pour l’afficher sur la page À propos de Lingua Libre. Avec en lien : [3]
  • ➡Cela se fait via Special:Upload
  • Quels sont les liens exacts entre Lingua Libre et wikidata aujourd’hui ?
    • Quels liens pensez-vous que nous pourrions développer ? Avec wikidata et/ou wikidata lexeme
    • ➡pour info, requête SPARQL des lexèmes utilisant des fichiers dont le nom commence par "LL" : https://w.wiki/pHG (33 638 résultats actuellement, sur un total de 60 543 fichiers son, soit 55% de LL \o/ et sur 5,1 millions de formes dans les Lexèmes, il y a une grosse marge de progression ;) )
  • Pour récolter les metrics de Lingua Libre j’ai besoin d’interroger Lingua Libre Query, comment formuler en SPARQL les demandes suivantes ?
    1. Le nombre de nouveaux comptes enregistrés sur lingua libre sur une période donnée (date de début/ date de fin) ;
    2. Le nombre de comptes ayant fait un edit lingua libre sur une période donnée ;
    3. La proportion de locuteurs hommes / femmes / non-binaires.
  • Serait-il possible d’ajouter une colonne au tableau « Number of records per languages » intitulée « date of first recording » ? Cela permettrait de savoir quand une langue a eu son premier mot enregistré sur Lingua Libre.
  • Contacter Titodutta pour lui demander de l'aide afin d'augmenter la part de femmes dans les contributions et la communauté.
  • Comment peut-on traduire les onglets du menu ?
  • Les etherpads sont-ils archivés ou regroupés quelque part ?
    • L'idéal c'est de copier le contenu sur Meta ou LiLi (et le mettre en forme) une fois la réunion terminée
  • Idée : faire des formations code Lingua Libre pendant le hackathon. = former les contributeurs à coder pour développer Lingua Libre. Les Indiens sont demandeurs en formation pour développer Lingua Libre.
  • Demandes de financement : Hugo Lopez souhaite partir à Taïwan pour faire des enregistrements. Demander a la commission microfi, ou bien l'inscrire en budget bénévole.


Début de réunion à 18h00. Fin de réunion à 20h51