Difference between revisions of "Estrie"

Latest revision as of 18:14, 1 July 2022

Bienvenue !

Welcome

Welcome to Lingua Libre, Estrie!

Lingua Libre is a project which aims to build a collaborative multilingual audiovisual corpus under free licence in order to expand knowledge about languages and help online language communities to develop.
You can help us!
You can visit this page if you want to learn more about the project.

Before starting

You can create your User page by clicking on it. We recommend that you integrate the babel template onto it. It is very useful to indicate to others the languages you speak, and to facilitate finding other persons speaking your languages. If you are not familiar with wikicode, you can go to this demo User page, read the instructions and copy the prepared babel template, and then paste it onto your user page before adapting it to your information. You can then publish your User page!

Where to start?

Follow the steps of the Record Wizard
Think of the words you want to record. You may enter them one by one (live list), use an existing category from a Wiktionary or Wikipedia project, or create your own list.

Do you need help?

You can visit this help page where you will find advice for beginning your contributions on Lingua Libre. If you did not find the answer to your question, please ask it in the Chat room.

Good practice

Try to avoid background noises during the recording
Please listen to the pronunciations before uploading them
Consider using an external microphone

Best regards! Pamputt (talk) 17:38, 16 May 2022 (UTC)

Pamputt, Merci pour le message d'accueil. Estrie (talk) 18:32, 18 May 2022 (UTC)

Langue des descriptions des entrées

Moved to LinguaLibre:Technical board.

I moved this section to a place where it has more chances to be handled. (🗨️ translate) --Yug (talk) 15:45, 27 May 2022 (UTC)

Done Réparé ! Tu peux tester sur Q77678, la correction s'affiche après 1 seconde. Merci pour ce retour. Yug (talk) 17:48, 27 May 2022 (UTC)

Nice

Cool de voir vos anvancées. Ca se passe bien ? Vous avez quel materiel pour enregistrer ? Yug (talk) 21:33, 18 June 2022 (UTC)

Bonjour Yug,

Ça avance bien. (1) J'ai essayé un casque de bon qualité, mais son temps de réponse est trop long selon moi et la qualité audio laisse trop souvent à désirer. J'utilise un portable Dell Inspiron 3000 et un micro Audio Technica AT2020 branché sur un port USB (micro recommandé par un musicien). (2) J'enregistre des mots et des expressions pour soutenir l'apprentissage du français. (3) Je souhaite que ma voix soit plus radiophonique, mais je n'ai pas suffisamment de temps pour éliminer ses aspects les plus irritants : le chuintement (si c'est c'est bien le nom de ce phénomène) lorsque je prononce les s et la difficulté à maintenir l'intensité de ma voix.

(4) Je cherche une façon de « coudre » à la volée des fichiers audio (de la même façon que je peux écrire des phrases en assemblant des mots écrits), avez-vous une suggestion ?

(5) Par ailleurs, existe-t-il un outil pour normaliser en lot l'intensité des fichiers audio ? Estrie (talk) 12:07, 19 June 2022 (UTC)

Salut Estrie, mes excuses pour le délais j'étais en tournée Lingualibre à Toulouse et Marseille (Lingualibre:Events), puis covid. Paf. Et c'est passé.

C'est noté pour 1 et 2.

Pour (3) les S, si ton microphone est face à toi et vers ton visage, tu peux placer ton micronphone sur le coté, comme s'il voulait photographie ta joue. Cela réduit les "pok" des plosives, peut etre que cela réduira les chuintements. User:WikiLucas00 aura peut etre des astuces, il enregistre également avec un migrophone.

(4) Que veux-tu dire par "attacher" : a) créer de multiples audios un fichier audio unique, téléchargeable ? b) enchainer les audios sur une page web pour donner l'impression d'un enchainement rapide de ceci ?

Dans tous les cas, ceci donnera des résultats relativements robotiques.

(4b)Si tu es sur un projet long terme, sans date buttoire dure, je peux te parler du Tacotron 2 de Google. C'est du machine learning bourin mais simple, gérable par un Master 2 en 1 mois de stage. Il lui faut en entrée 5,000 phrases enregistrées, et il peut créer un Text2Speech (lecteur de texte) à ta voix. Exemple pour l'anglais. Il me semble que nous avons une liste de phrases en francais pour ça. C'est un projet qui "pourrait" etre financé "bientot", vu que c'est un stagiaire durant un mois. Mais ce n'est pas encore approuver. Souhaites-tu etre tenu informé ?

(5) Il me semble que le son est déjà normalisé pour chaque audio, afin de ramener tous les audios dans un volume sonore prédéfini. Mais il reste une variation au sein du datasets.

Yug (talk) 17:08, 28 June 2022 (UTC)

(4b) List:Fra/Cisel-expressions-3000 est ce que l'on a de plus proche d'un phrasier pour le moment, mais c'est un mixte "mot + phrase d'exemple incluant ce mot". Si cette exploration t'interesse je peux te faire des listes plus propres, de phrases. Je suis de mon coté également interesser pour explorer cette possibilité, et, peut etre un de ces 4, avoir un générateur de voix basée sur mon dataset. Yug (talk) 17:14, 28 June 2022 (UTC)

Yug, Aucun souci pour le retard. J'espère que vous avez obtenu du succès lors de vos présentations.

C'est bien noté pour la position du micro. Je suis intéressé par Tacotron 2, mais est-ce que le produit final est publié sous CC ou est mis dans le domaine public ? Si oui, je suis prêt à exploiter un phrasier représentatif. Estrie (talk)

On a put contacter beaucoup d'acteurs académique du champs et faire connaitre Lingualibre, c'était tres interessant aussi en terme de revue de l'état de la recherche sur les langues.

Pour Tacotron (2) la license finale serait de notre ressort (Wikimediens / Wikimedia France), donc assurément libre. Soit MIT, soit Creative Commons, selon ce qui conviendra. Cela reste pour l'instant une idée, mais une idée réaliste. Wikimedia France peut tout à fait, pour 500€, prendre un stagiaire Machine Learning en Avril prochain. Il faut pousser, mais cela semble réalisable. Yug (talk) 18:14, 1 July 2022 (UTC)

@@ Line 1: / Line 1: @@
+__TOC__
+== Bienvenue ! ==
 {{Welcome/lang|user=Estrie|welcominguser=Pamputt|1=[[User:Pamputt|Pamputt]] ([[User talk:Pamputt|talk]]) 17:38, 16 May 2022 (UTC)}}
 : [[User:Pamputt|Pamputt]], Merci pour le message d'accueil. [[User:Estrie|Estrie]] ([[User talk:Estrie|talk]]) 18:32, 18 May 2022 (UTC)
 == Langue des descriptions des entrées ==
+:''Moved to [[LinguaLibre:Technical board]].''
+{{GT|I moved this section to a place where it has more chances to be handled.}} --[[User:Yug|Yug]] ([[User talk:Yug|talk]]) 15:45, 27 May 2022 (UTC)
+:{{Done}} Réparé ! Tu peux tester sur [[Q77678]], la correction s'affiche après 1 seconde. Merci pour ce retour. [[User:Yug|Yug]] ([[User talk:Yug|talk]]) 17:48, 27 May 2022 (UTC)
-Bonjour [[User:Pamputt|Pamputt]],
+== Nice ==
+Cool de voir vos anvancées. Ca se passe bien ? Vous avez quel materiel pour enregistrer ? [[User:Yug|Yug]] ([[User talk:Yug|talk]]) 21:33, 18 June 2022 (UTC)
-Pourquoi les descriptions des entrées sont-elles en anglais (exemple: [[Q777898]]]), alors que les mots proviennent de listes en français et que je me déclare francophone ?
+: Bonjour [[User:Yug|Yug]],
-[[File:Lingualibre-item-language bug.png|thumb|500px|Screenshot of Lingualibre quand [[Special:Preferences#mw-prefsection-personal]] = « fr - français ».]]
+: Ça avance bien. (1) J'ai essayé un casque de bon qualité, mais son temps de réponse est trop long selon moi et la qualité audio laisse trop souvent à désirer. J'utilise un portable Dell Inspiron 3000 et un micro Audio Technica AT2020 branché sur un port USB (micro recommandé par un musicien). (2) J'enregistre des mots et des expressions pour soutenir l'apprentissage du français. (3) Je souhaite que ma voix soit plus radiophonique, mais je n'ai pas suffisamment de temps pour éliminer ses aspects les plus irritants : le chuintement (si c'est c'est bien le nom de ce phénomène) lorsque je prononce les s et la difficulté à maintenir l'intensité de ma voix.
-[[User:Estrie|Estrie]] ([[User talk:Estrie|talk]]) 02:33, 25 May 2022 (UTC)
+:(4) Je cherche une façon de « coudre » à la volée des fichiers audio (de la même façon que je peux écrire des phrases en assemblant des mots écrits), avez-vous une suggestion ?
-:Bonjour Estrie, si je comprends bien ta question... ouvres [[Special:Preferences]], et verifies si ta langue pour l'interface est bien "francais" ? [[User:Yug|Yug]] ([[User talk:Yug|talk]]) 09:35, 25 May 2022 (UTC)
+:(5) Par ailleurs, existe-t-il un outil pour normaliser en lot l'intensité des fichiers audio ? [[User:Estrie|Estrie]] ([[User talk:Estrie|talk]]) 12:07, 19 June 2022 (UTC)
-:: [[User:Yug|Yug]], Dans la section Internationalisation de [[Special:Preferences#mw-prefsection-personal|cette page]], je vois « fr - français ». [[User:Estrie|Estrie]] ([[User talk:Estrie|talk]]) 10:29, 25 May 2022 (UTC)
+::Salut Estrie, mes excuses pour le délais j'étais en tournée Lingualibre à Toulouse et Marseille ([[Lingualibre:Events]]), puis covid. Paf. Et c'est passé.
-:::Ah je vois... (cf image à droite). [[User:Yug|Yug]] ([[User talk:Yug|talk]]) 14:11, 25 May 2022 (UTC)
+::C'est noté pour 1 et 2.
-:::J'aurai tendance à dire que c'est correct, mais confusant.
+::Pour (3) les S, si ton microphone est face à toi et vers ton visage, tu peux placer ton micronphone sur le coté, comme s'il voulait photographie ta joue. Cela réduit les "pok" des plosives, peut etre que cela réduira les chuintements. [[User:WikiLucas00]] aura peut etre des astuces, il enregistre également avec un migrophone.
-:::La page wiki [[Q777898]]]...
+::(4) Que veux-tu dire par "attacher" : a) créer de multiples audios un fichier audio unique, téléchargeable ? b) enchainer les audios sur une page web pour donner l'impression d'un enchainement rapide de ceci ?
-:::* a pour titre alternatif "human friendly", en anglais courant (la langue par défaut de Lingualibre.org): "votre".
+::Dans tous les cas, ceci donnera des résultats relativements robotiques.
-:::* a pour titre alternatif "human friendly", en francais courant (votre langue choisie) : "" (pas de valeur)
+::(4b)Si tu es sur un projet long terme, sans date buttoire dure, je peux te parler du [https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html Tacotron 2] de Google. C'est du machine learning bourin mais simple, gérable par un Master 2 en 1 mois de stage. Il lui faut en entrée 5,000 phrases enregistrées, et il peut créer un Text2Speech (lecteur de texte) à ta voix. [https://google.github.io/tacotron/publications/tacotron2/index.html Exemple pour l'anglais]. Il me semble que nous avons une liste de phrases en francais pour ça. C'est un projet qui "pourrait" etre financé "bientot", vu que c'est un stagiaire durant un mois. Mais ce n'est pas encore approuver. Souhaites-tu etre tenu informé ?
-:::En terme programmatif ça se tient. En terme de compréhension spontanée d'un visiteur humain c'est confusant et faux. [[User:Yug|Yug]] ([[User talk:Yug|talk]]) 14:17, 25 May 2022 (UTC)
+::(5) Il me semble que le son est déjà normalisé pour chaque audio, afin de ramener tous les audios dans un volume sonore prédéfini. Mais il reste une variation au sein du datasets.
-:::Voilà, [[Q777898]]]: maintenant que j'ai complété la valeur francaise le francais reprends le dessus. Comme prévu... Il faudrait que l'on face ceci automatiquement lors de la création de l'item. [[User:Yug|Yug]] ([[User talk:Yug|talk]]) 14:20, 25 May 2022 (UTC)
+::[[User:Yug|Yug]] ([[User talk:Yug|talk]]) 17:08, 28 June 2022 (UTC)
-:Bonjour [[User:Estrie|Estrie]], en fait c'est lié à la façon dont le site est codé et ce n'est pas modifiable en l'état. On pourrait ouvrir un ticket sur Phabricator pour demander à ce que le libellé et la description d'un élément soit rempli en anglais et dans la langue du locuteur mais ça me semble assez lourd à mettre en place pour un gain a priori minime. Donc il faudrait d'abord voir quels seraient les avantages à remplir les libellés/descriptions dans une autre langue que l'anglais car normalement ces infos n'ont pas vocation à être consultées directement par des humains, mais plutôt par des machines. [[User:Pamputt|Pamputt]] ([[User talk:Pamputt|talk]]) 14:50, 25 May 2022 (UTC)
+:::(4b) [[List:Fra/Cisel-expressions-3000]] est ce que l'on a de plus proche d'un phrasier pour le moment, mais c'est un mixte "mot + phrase d'exemple incluant ce mot". Si cette exploration t'interesse je peux te faire des listes plus propres, de phrases. Je suis de mon coté également interesser pour explorer cette possibilité, et, peut etre un de ces 4, avoir un générateur de voix basée sur mon dataset. [[User:Yug|Yug]] ([[User talk:Yug|talk]]) 17:14, 28 June 2022 (UTC)
-::::{{Ping|Pamputt}} on peut également faire un hack JS dans Common.js qui masque ce label "anglais" qui n'a pas vraiment lieu d'etre (?) [[User:Yug|Yug]] ([[User talk:Yug|talk]]) 14:58, 25 May 2022 (UTC)
+::::[[User:Yug|Yug]], Aucun souci pour le retard. J'espère que vous avez obtenu du succès lors de vos présentations. {{sourire}} C'est bien noté pour la position du micro. Je suis intéressé par Tacotron 2, mais est-ce que le produit final est publié sous CC ou est mis dans le domaine public ? Si oui, je suis prêt à exploiter un phrasier représentatif. [[User:Estrie|Estrie]] ([[User talk:Estrie|talk]])
+:::::On a put contacter beaucoup d'acteurs académique du champs et faire connaitre Lingualibre, c'était tres interessant aussi en terme de revue de l'état de la recherche sur les langues.
+:::::Pour Tacotron (2) la license finale serait de notre ressort (Wikimediens / Wikimedia France), donc assurément libre. Soit MIT, soit Creative Commons, selon ce qui conviendra. Cela reste pour l'instant une idée, mais une idée réaliste. Wikimedia France peut tout à fait, pour 500€, prendre un stagiaire Machine Learning en Avril prochain. Il faut pousser, mais cela semble réalisable. [[User:Yug|Yug]] ([[User talk:Yug|talk]]) 18:14, 1 July 2022 (UTC)