LinguaLibre

Difference between revisions of "About"

(minor update : numbers. 300 past contributor. Should we count all defined speaker ?)
(20 intermediate revisions by 5 users not shown)
Line 1: Line 1:
<languages/>
+
<div class="section gap-l">
Draft. To improve.
+
<div class="columns v-center padded-m">
<translate>
+
<div>
<!--T:1-->
+
Lingua Libre est un projet de l’association Wikimédia France qui vise à construire un corpus multilingue audiovisuel collaboratif sous licence libre pour :
'''Lingua Libre''' is an audio recording tool as well as a sound library designed by Wikimedians to improve several Wikimedia projects (Wiktionaries, Wikipedias, Wikimedia Commons, Wikidata...).
+
* enrichir le savoir sur les langues et dans les langues de manière audiovisuelle sur le web, sur les projets Wikimédia et en dehors ;
 +
* soutenir le développement de communautés linguistiques en ligne — notamment celles des langues peu dotées, minoritaires, régionales, orales ou signées — afin de faciliter l’accès des communautés à l’information en ligne, et d’assurer la vitalité des langues de ces communautés.
 +
</div>
 +
<div style="text-align: center;">
 +
[[File:Lingua libre illustration - interface.svg|frameless|440px]]
 +
</div>
 +
</div>
 +
</div>
  
'''LinguaLibre.fr''' is a massive open audio recording platform and web application to ease mass recording of wordslists or text into clean, well cut, well named and apps friendly audio files. It is designed from the start to ease the creation of consistent datasets of audio files. We believe it is the best tool available to create dataset from few dozens to several thousands audios files. Recording productivity can reach up to 1000 audio recordings / hour, given a clean words list and an experienced user. Lingua Libre has received kick starter funding from both [https://www.wikimedia.fr/ Wikimedia France], the [https://wikimediafoundation.org/ Wikimedia Foundation]'s Grant projects. Today, it is actively used by the Wikimedia community and maintained by passionate contributors as an open source project.
+
<div class="section section-blue gap-s">
 +
<div class="columns v-center">
 +
<span style="font-size: 35px; line-height: normal;">
 +
Rejoignez les '''300 membres''' et '''240.000 enregistrements''' déjà sur Lingua Libre
 +
</span>
 +
<div style="margin-top: -5px; text-align: center;">
 +
[[Special:RecordWizard|<span class="mw-ui-button mw-ui-neutral" role="button" aria-disabled="false">Enregistrez votre voix</span>]]
 +
</div>
 +
</div>
 +
</div>
  
</translate>
+
<div class="section gap-l">
__NOTOC__
+
<div class="columns v-center padded-m">
== Background ==
+
<div style="text-align: center;">
* '''Shtooka Recorder''' (2010) by Nicolas Vion - a notable desktop software which had a deep impact on the open audio recording ecosystems. Hundreds of applications use data produced by this software.
+
[[File:Music-technology-guitar-microphone-studio-amplifier-846852-pxhere (cropped).jpg|frameless|440px|class=shadow]]
* '''SWAC Recorder''' (2013) by Nicolas Vion - a revamp of the earlier, lesser known but easier to install, with better user experience.
+
</div>
* '''LinguaLibre.fr v1''' (2016) by Nicolas Vion - a cloud variation of the earlier versions, the project was funded by Wikimedia France (Remy Gerbet & [[user:Lyokoï]]), and create with feedbacks from local linguistic academics. The grant is associated with the project to record and preserve dying French minorities languages. In French only, this platform was demoed to the global Wikimedia community, and demonstrated the need for a v2.
+
<div>
* '''LinguaLibre.fr v2''' (2018) by [[user:0x010C|0x010C]] - a full rebuild using Wikibase and Oath login to better integrate with the Wikimedia ecosystem. Can be used by all communities thanks to an user interface available in several macro-languages (EN,FR,ES,...). The clean, sharp, net audio files ease the creation or enhancing of various derivative applications. Both language learning and language preservation are common use cases.
+
== Comment participer ? ==
 +
Vous pouvez utiliser lingua libre en explorant et réutilisant des enregistrements, contribuer au corpus en enregistrant des mots, ou améliorer le site lui-même, en concertation avec la communauté.
  
== Functionalities ==
+
L’onglet Record Wizard permet l’enregistrement, la catégorisation et la publication sur Wikimedia Commons d’enregistrements audio courts (1 mot, 1 locution) à partir d’un ordinateur ou d’un smartphone. Pour cela, il vous faudra vous connecter ou créer un compte d’utilisateur. Le guide d’utilisation est disponible sur la page d’aide.
In order to provide very consistent, app-friendly files, the current functionality are :
 
* [x] easy usage without download nor installation, via LinguaLibre.fr
 
* [x] speakers' profiles, with : language, gender, age, origin and few other data recommended to us by linguists.
 
* [x] wordslist support
 
* [x] intuitive interface with audio curve went speaking
 
* [x] on demand roll-back capability using left arrow key
 
* [x] auto roll-back / do-again when saturation is detected
 
* [x] consistent cut before / after the said words
 
* [x] auto equalization for sound's level
 
* [x] Download all audios by language, by speaker
 
* [x] English User Interface, also in various languages
 
* [x] OAuth login via Wikimedia account
 
* [x] Auto-upload to Wikimedia Commons
 
* [x] Auto-integrations to Wikimedia projects via [[Help:Bots|Bots]]
 
  
Wishlist (secondary) :
+
Pour modifier les pages du site, il vous suffit de vous connecter et de cliquer sur modifier. Pour en ajouter, la manipulation comprend deux étapes : entrez le titre de la page que vous souhaitez créer dans le moteur de recherche, avec le préfix « LinguaLibre: ». Un message vous proposant de créer la page s’affichera. Pour toute modification substantielle, merci de consulter la communauté en amont.
* [ ] Noise reduction [#29](./issues/29)
+
</div>
* [ ] Fade-in / fade-out [#40](./issues/40)
+
</div>
 +
</div>
  
== Equipment (recommendation) ==
+
<div class="section section-grey gap-m">
* Silent room / Recording studio
+
<div class="columns padded-m v-center">
* 1 x [Scarlett2 Solo Studio Pack 2nd Generation](https://www.amazon.com/dp/B01E6T54E2/), comprising portable :
+
<div>
** 1 x microphone
+
==== Échangez avec la communauté ====
** 1 x headset
+
N’hésitez pas à signaler à l’équipe tout élément qui pourrait être amélioré. Pour cela, les discussions ont lieu sur la mailing liste ou sur Discord.
** 1 x external sound card
+
</div>
** 1 x cables
+
<div style="text-align: right;">
* [Microphone's addons](https://www.amazon.com/dp/B01KHMUQ2M/) :
+
[https://discord.gg/hezgwY <span class="mw-ui-button mw-ui-neutral" role="button" aria-disabled="false" style="margin-right: 15px; margin-bottom: 11px;">Discord</span>]
** 1 x Pod / Arm stand
+
[https://meta.wikimedia.org/wiki/Lingua_Libre <span class="mw-ui-button mw-ui-neutral" role="button" aria-disabled="false" style="margin-bottom: 11px;">Projet sur Meta</span>]
** 1 x Anti-pop filter
+
<br>
** 1 x Anti-vibration system
+
[https://phabricator.wikimedia.org/tag/lingua_libre/ <span class="mw-ui-button mw-ui-neutral" role="button" aria-disabled="false" style="margin-right: 15px;">Phabricator</span>]
* 1 x modest PC (audio recording chain is external)
+
[https://github.com/lingua-libre <span class="mw-ui-button mw-ui-neutral" role="button" aria-disabled="false">Github</span>]
* Internet connexion
+
</div>
 +
</div>
 +
</div>
  
'''Cost :''' US$250 for external audio equipments  + US$300 for optional PC  = 250 ~ 550US$.
+
<div class="section section-white gap-l">
<p align="center">
+
== Pourquoi participer ? ==
  <a href="https://www.amazon.com/dp/B01E6T54E2/"><img src="https://i.stack.imgur.com/dvreq.jpg" alt="Audio hardware" style="width:400px;"/></a>
+
Lingua Libre vient du constat de plusieurs manques sur les projets Wikimédia et sur le web en général :
</p>
+
* Manque de diversité : Si le web est en théorie ouvert à tout le monde, son contenu est loin de représenter toutes les langues de manière proportionnelle. Plus de 50% des sites web sont en anglais; seules 301 des plus de 7000 langues du monde possèdent une encyclopédie libre<sup>[https://w3techs.com/technologies/overview/content_language/all <nowiki>[1]</nowiki>]</sup>, au contenu inférieur en qualité et en quantité à ceux des langues plus dotées comme Wikipédia en anglais<sup>[https://w3techs.com/technologies/overview/content_language/all <nowiki>[1]</nowiki>],[https://athenaeum.libs.uga.edu/handle/10724/37877 <nowiki>[2]</nowiki>]</sup>. Ces sites web hébergent en outre des contenus qui reflètent et répondent globalement aux normes et besoins occidentaux par le véhicule de l’écrit, ce qui explique et contribue à perpétuer leur manque de diversité linguistique.
 +
* Manque d’oralité : Si les langues sont avant tout parlées (seules 4000 des 7000 langues du monde possèdent un système d’écriture)<sup>[https://www.ethnologue.com/enterprise-faq/how-many-languages-world-are-unwritten-0 <nowiki>[4]</nowiki>]</sup>, le partage de connaissance et la communication via les nouvelles technologie d’information et de communication (NTIC) se fait surtout à l’écrit notamment sur le web, malgré le format riche en multimédia qu’il permet. Cette médiation de l’oral par l’écrit place de nombreuses barrières à la contribution, telles que l’utilisation des caractères Unicode, la culture de l’écrit, la standardisation orthographique de la langue ou encore le taux l’alphabétisation de la communauté.
 +
* Ces manques de diversité et d’oralité limitent la capacité des internautes à communiquer et à contribuer en ligne sur diverses plateformes web où ils ne trouvent pas de contenu ni de communauté partageant leur langue. Parmi les langues régionales minoritaires orales ou signées, ils menacent en particulier celles peu dotées dont beaucoup se trouvent à l’heure actuelle en voie de disparition et pour qui l’insertion sur le web constitue un enjeu et une opportunité majeurs.
 +
* En effet, des 7000 langues existant à ce jour, on estime que seulement 2500 vont survivre au siècle prochain et seulement 250 (soit moins de 5 % !) vont effectuer leur ascension numérique — c’est-à-dire être employées régulièrement à des fins de communication sur l’espace numérique par des personnes natives à l’aise sur le web — un facteur pourtant essentiel pour leur vitalité<sup>[https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0077056 <nowiki>[5]</nowiki>]</sup>. Les initiatives actuelles de linguistes et de militants pour documenter et partager en ligne des données, ressources et contenus dans les langues à préserver ne contribue pas directement à animer une communauté linguistique d’internautes porteuse d’ascension numérique, et restent ainsi limitées dans leur impact.
 +
* Lingua Libre se veut un outil palliant à ce manque de soutien en se mettant au service des communautés linguistiques souhaitant s’insérer et mettre en avant leur langue dans l’espace numérique en explorant des moyens de communication alternatifs à l’écrit, dans l’espoir que cela libérera la communication en ligne dans un nombre grandissant de langues. Cet objectif favorise par nature les langues minoritaires régionales orales ou signées peu dotées mais bénéficie aussi à celles plus dotées désireuses de mettre en avant leur oralité et visuelle. Pour remplir sa mission, Lingua Libre offre une solution en ligne d’enregistrement de masse, aboutissant à la publication d’un corpus audiovisuel multilingue collaboratif sous licence libre dont la vocation est l’information par la consultation, et la revitalisation par le déclenchement de la contribution de nouvelles communautés linguistiques sur Lingua Libre puis en dehors.
 +
</div>
  
== Working process ==
+
<div class="section gap-m">
# Data gathering : prepare a text file with a list of words/sentences, one by line.  
+
<h2 style="text-align: center;">Partenaires</h2>
# Speaker : find a willing speaker
+
<gallery mode="packed" heights=180>
# Facility : find a calm studio or room 
+
File:dglflf.jpg|link=https://www.culture.gouv.fr/Sites-thematiques/Langue-francaise-et-langues-de-France/La-DGLFLF
# Hardware installation : install the equipment in the room so to work comfortably
+
</gallery>
# Software settings: connect to LinguaLibre.fr's studio, edit the settings according to your needs
+
<gallery mode="packed" heights=125>
# Recording : start your high quality massive audio recording. '''800 items per hour for 2 hours on the row''' is fair.  
+
File:APLP.png|link=http://agencepourlepicard.fr/
# Applications : be creative, invent your apps ! :D
+
File:Eep-oplb.jpg|link=https://www.mintzaira.fr/
 
+
File:Gau un Griis.png|link=https://www.gaugriis.com/
== <translate><!--T:2--> Useful links</translate> ==
+
File:Mdlnc.png|link=http://www.mncparis.fr/
 
+
File:dldp.png|link=http://www.dldp.eu
<translate>
+
File:lo congres.jpg|link=https://locongres.org/
<!--T:3-->
+
File:olca.png|link=http://www.olcalsace.org/
* IRC chan : <code>#lingualibre</code> on Freenode ([https://kiwiirc.com/client/irc.freenode.net/#lingualibre To join with Kiwiirc from a web browser])
+
File:shtooka.png|link=http://shtooka.net/
* Phabricator : https://phabricator.wikimedia.org/project/profile/3393/ for issues/bugs tracking
+
</gallery>
* Code : https://github.com/lingua-libre on Github
+
</div>
* Twitter : https://twitter.com/LingLibre_WMFr (mainly in French)
+
__NOTOC__
</translate>
+
__NOEDITSECTION__
 
 
== License ==
 
* All contents under [https://creativecommons.org/licenses/by-sa/4.0/ Creative Commons CC-BY-SA-4.0]
 

Revision as of 15:35, 30 May 2020

Lingua Libre est un projet de l’association Wikimédia France qui vise à construire un corpus multilingue audiovisuel collaboratif sous licence libre pour :

  • enrichir le savoir sur les langues et dans les langues de manière audiovisuelle sur le web, sur les projets Wikimédia et en dehors ;
  • soutenir le développement de communautés linguistiques en ligne — notamment celles des langues peu dotées, minoritaires, régionales, orales ou signées — afin de faciliter l’accès des communautés à l’information en ligne, et d’assurer la vitalité des langues de ces communautés.

Lingua libre illustration - interface.svg

Rejoignez les 300 membres et 240.000 enregistrements déjà sur Lingua Libre

Music-technology-guitar-microphone-studio-amplifier-846852-pxhere (cropped).jpg

Comment participer ?

Vous pouvez utiliser lingua libre en explorant et réutilisant des enregistrements, contribuer au corpus en enregistrant des mots, ou améliorer le site lui-même, en concertation avec la communauté.

L’onglet Record Wizard permet l’enregistrement, la catégorisation et la publication sur Wikimedia Commons d’enregistrements audio courts (1 mot, 1 locution) à partir d’un ordinateur ou d’un smartphone. Pour cela, il vous faudra vous connecter ou créer un compte d’utilisateur. Le guide d’utilisation est disponible sur la page d’aide.

Pour modifier les pages du site, il vous suffit de vous connecter et de cliquer sur modifier. Pour en ajouter, la manipulation comprend deux étapes : entrez le titre de la page que vous souhaitez créer dans le moteur de recherche, avec le préfix « LinguaLibre: ». Un message vous proposant de créer la page s’affichera. Pour toute modification substantielle, merci de consulter la communauté en amont.

Échangez avec la communauté

N’hésitez pas à signaler à l’équipe tout élément qui pourrait être amélioré. Pour cela, les discussions ont lieu sur la mailing liste ou sur Discord.

Pourquoi participer ?

Lingua Libre vient du constat de plusieurs manques sur les projets Wikimédia et sur le web en général :

  • Manque de diversité : Si le web est en théorie ouvert à tout le monde, son contenu est loin de représenter toutes les langues de manière proportionnelle. Plus de 50% des sites web sont en anglais; seules 301 des plus de 7000 langues du monde possèdent une encyclopédie libre[1], au contenu inférieur en qualité et en quantité à ceux des langues plus dotées comme Wikipédia en anglais[1],[2]. Ces sites web hébergent en outre des contenus qui reflètent et répondent globalement aux normes et besoins occidentaux par le véhicule de l’écrit, ce qui explique et contribue à perpétuer leur manque de diversité linguistique.
  • Manque d’oralité : Si les langues sont avant tout parlées (seules 4000 des 7000 langues du monde possèdent un système d’écriture)[4], le partage de connaissance et la communication via les nouvelles technologie d’information et de communication (NTIC) se fait surtout à l’écrit notamment sur le web, malgré le format riche en multimédia qu’il permet. Cette médiation de l’oral par l’écrit place de nombreuses barrières à la contribution, telles que l’utilisation des caractères Unicode, la culture de l’écrit, la standardisation orthographique de la langue ou encore le taux l’alphabétisation de la communauté.
  • Ces manques de diversité et d’oralité limitent la capacité des internautes à communiquer et à contribuer en ligne sur diverses plateformes web où ils ne trouvent pas de contenu ni de communauté partageant leur langue. Parmi les langues régionales minoritaires orales ou signées, ils menacent en particulier celles peu dotées dont beaucoup se trouvent à l’heure actuelle en voie de disparition et pour qui l’insertion sur le web constitue un enjeu et une opportunité majeurs.
  • En effet, des 7000 langues existant à ce jour, on estime que seulement 2500 vont survivre au siècle prochain et seulement 250 (soit moins de 5 % !) vont effectuer leur ascension numérique — c’est-à-dire être employées régulièrement à des fins de communication sur l’espace numérique par des personnes natives à l’aise sur le web — un facteur pourtant essentiel pour leur vitalité[5]. Les initiatives actuelles de linguistes et de militants pour documenter et partager en ligne des données, ressources et contenus dans les langues à préserver ne contribue pas directement à animer une communauté linguistique d’internautes porteuse d’ascension numérique, et restent ainsi limitées dans leur impact.
  • Lingua Libre se veut un outil palliant à ce manque de soutien en se mettant au service des communautés linguistiques souhaitant s’insérer et mettre en avant leur langue dans l’espace numérique en explorant des moyens de communication alternatifs à l’écrit, dans l’espoir que cela libérera la communication en ligne dans un nombre grandissant de langues. Cet objectif favorise par nature les langues minoritaires régionales orales ou signées peu dotées mais bénéficie aussi à celles plus dotées désireuses de mettre en avant leur oralité et visuelle. Pour remplir sa mission, Lingua Libre offre une solution en ligne d’enregistrement de masse, aboutissant à la publication d’un corpus audiovisuel multilingue collaboratif sous licence libre dont la vocation est l’information par la consultation, et la revitalisation par le déclenchement de la contribution de nouvelles communautés linguistiques sur Lingua Libre puis en dehors.

Partenaires