User
Yug/AMI
< User:Yug
Projet "3000 mots pour 30 langues"
Introduction
CECI EST UNE EBAUCHE. DEADLINE: APRIL 4th. /// THIS IS A DRAFT PROPOSAL. DEADLINE: APRIL 4th. |
- Nom : « 3000 mots pour 30 langues : enregistrement libre des lexiques des licences de langues pour une application web d'e-learning »
ou « Numérisation audio des lexiques pour 30 licences de langues enseignées à l'INALCO, 3000 mots pour 30 langues » - Réponse : "Appel à manifestation d'intérêt 2019 : Transformation #pédagogique et #numérique" http://sup-n.gouv.fr/c138614
- Institutions : INALCO (80%), Wikimedia (15%), CRI (5%?)
- Objectif : 1) Constitution d'une banque d'audio couvrant le lexique de 30 licences de langues de l'INALCO, 2) puis réalisation d'une application web d'elearning.
- Porteur projet: Yug (Hugo).
- Porteur scientifique : ?
Besoin
Problème
L'apprentissage du vocabulaire represente l'essentiel de l'appretissage d'une langue. L'Institut National des Langues et Civilisation Orientales (INALCO) forme 9000 étudiants au sein de 100 licences de langue. Les lexiques des ces licences sont rarement digitalisés. Sans lexiques digitalisés, l'apprentissage à numérique à distance est freiné. La recherche appliquée et fondamentale sur l'e-learning des langues, domaine économique en forte croissance, est également impossible sans lexiques digitalisés.
Solution
Via une collaboration INALCO-Wikimedia France, nous proposons de digitaliser le lexiques de 30 licences de langue présentes à l'Institut National des Langues et Civilisation Orientales (INALCO). L'approche proposée suit des cycles de travails bien définis, issues des pratiques participatives et des technologies open sources de la communauté Wikipedienne.
LinguaLibre.org, un outils développé via une collaboration Université de Strasbourg / Wikimedia France, permet l'enregistrement audio de 800 mots / heure sans installation de logiciel. Ainsi :
- Le vocabulaire d'une licence de chinois, soit ~4000 mots, peut être enregistré en 1~2 jours. Via une formation courte puis 2 sessions de 2 heures d'enregistrements.
- Le vocabulaire d'une licence de tchèque, soit ~8000 mots (?), peut être enregistré en 2~4 jours. Via une formation courte puis 4 sessions de 2 heures d'enregistrements.
Une liste de mot peut être enregistrer sur cette page https://lingualibre.org/wiki/Special:RecordWizard . La banque d'audios enregistrés est ensuite téléchargeables par langue sur cette page : https://lingualibre.org/datasets/ .
La liste des mots du lexique et la banque d'audios de ce lexique constituent le minimum indispensable et suffisant pour la création d'une application multimedia d'apprentissage à distance, via le web. Ces données seront publiées sous licences libres "CC-BY-SA INALCO", à disposition de toutes les universités, départements de langues et entreprises de France et du monde. L'application web open source, définit une socle applicationel modulaire, permettant ensuite la mobilisations des ressources humaines présentent au sein de la recherche en e-learning des langues.
Une langue pilote, le chinois, a ainsi déjà produit 2000 audios et une application web d'e-learning intégrée au MOOC de chinois de l'INALCO. Voir https://hanzi.cri-paris.org.
Budgets envisagés
L'Appel à Manifestation d'Intérêt AMI 2019 annonce que chaque projet retenu sera cofinancé au maximum pour moitié du budget total par le ministère avec un plafond de 70 000€. En fonction du budget obtenu par les porteurs, 3 financements et objectifs différents peuvent être définies :
Stratégies possibles | Contributions financieres | Budget | ||||||
RH | Durée | Objectifs | INALCO | Wikimedia.fr | CRI | AMI | Total | |
---|---|---|---|---|---|---|---|---|
Stratégie basse | 1 | 10mois | 12+ langues × 3000 mots = +36000 audios Lexiques web multimedia simple sans comptes utilisateurs (open source minimaliste). |
10k€ | 10k€ | 2k€ | 22k€ | 44k€ |
Stratégie médiane | 2 | 9mois 6mois |
12 langues × 3000 mots = 36000 audios Application web riche avec comptes utilisateurs. |
20k€ | 10k€ | 4k€ | 34k€ | 68k€ |
Stratégie haute | 2 | 18mois 6mois |
30+ langues × 3000 mots = 90000+ audios Application web riche avec comptes utilisateurs. |
40k€ | 20k€ | 5k€ | 65k€ | 130k€ |
30~40% | 5~15% | 0~5% | 50% | 100% |
Considérations stratégiques
- E-learning, FÀD : les stratégie médiane et haute permettent à l'INALCO une présence e-Learning et FÀD suplémentaire claire dès fin automne 2020.
- Dimensions : la stratégie médiane permet une présence web via un échantillon de 12 langues, la stratégie haute permet une présence forte et inédite via ~30 langues.
- Recherche : Les stratégie médiane et haute permettent la mise en ligne d'un produit réel, collectant des données apprenant, permet la mise en place d'un projet-socle tangible et fédérateur pour la communauté des chercheurs en linguistique computationelle (TAL), les étudiants en licence Traitements Numériques Multilingues de l'INALCO, et les développeurs web du mouvement libre (Wikimedia).
- Croissance : le projet de collecte linguistique peut être poursuivit après la fin de ce financement, afin de numériser l'ensemble des ~100 lexiques présents à l'INALCO et d'affirmer l'expertise de l'INALCO et une présence web inédite.
Approche
Un coordinateur dédié organise avec les enseignants et étudiants d'une langues ciblée de l'INALCO des cycles de travail afin d'en numériser le lexique. Pour chaque langue, 2 ateliers dits "Editathon" et 3 sessions d'enregistrements audios seront nécessaires. Mobiliser la communauté experte afin de livrer 3 à 4000 enregistrements audios nécessite environ 1,5 à 2 semaines de coordination par langue. Le developpement d'une application d'e-lexique multimédia est ensuite réalisable, avec des ambitions variables selon le budget dédié. Les données audio et le code logiciel étant posés sous licences libres, ceci permettra à la communauté grandissante des développeurs d'augmenter l'application livrée.
Equipe
Porteur scientifique | Coordination / Chef de project | Développeur full-stack |
---|---|---|
(déjà rémunéré) | 40 000€ brut/an | 40 000€ brut/an |
|
|
|
Actions prévues
Poste | Jours | Description |
---|---|---|
Préparation générale | ||
Coordinateur | 2j | Installation, découverte des départements de l'INALCO et des acteurs, constitution d'un carnet d'adresses initial, recherche des 3 équipes pilotes. |
Coordinateur | 5j | Réalisation d'une brochure projet : 1) Objectifs du projet ; 2) Le projet et vous (pour enseignants) ; 3) Le projet et vous (pour étudiants) ; 4) Enregistrer avec LinguaLibre.org |
Coordinateur | 5j | Recherche des lexiques numériques existants |
Cycle d'ateliers pour une langue cible × 30 langues | ||
Coordinateur | 2j | Coordination pour atelier "Editathon 1" |
Coordinateur | 4h | Tenue de l'atelier "Editathon 1" : +1000 mots collectés. |
Coordinateur | 2j | Coordination pour atelier "Editathon 2" |
Coordinateur | 4h | Tenue de l'atelier "Editathon 2" : +2000 mots collectés. |
Coordinateur | 1j | Coordination pour atelier "Enregistrement 1" |
Coordinateur | 4h | Tenue de l'atelier "Enregistrement 1" : 1000 mots enregistrés |
Coordinateur | 1/2j | Coordination pour atelier "Enregistrement 2" |
Coordinateur | 4h | Tenue de l'atelier "Enregistrement 2" : +1000 mots enregistrés = 2000 audios |
Coordinateur | 1/2j | Coordination pour atelier "Enregistrement 3" |
Coordinateur | 4h | Tenue de l'atelier "Enregistrement 3" : +1000 mots enregistrés = 3000 audios |
Coordinateur | 1/2j | Reportings periodiques |
Développements d'une application d'e-learning lexical compatible Moodle | ||
Développeur | 1m | Mise en place de la technologie socle, comptes utilisateurs, creation de comptes et emailings associés |
Développeur | 1m | Développement liste de vocabulaires et e-dictionnaire multimedia sur la base des audios enregistrés |
Développeur | 1m | Développement activité flash-cards |
Développeur | 1m | Développement dashboard utilisateur |
Développeur | 1m | Développement dashboard enseignant |
Développeur | 5j | Tests continues de l'application web : 10 ateliers d'utilisations-initiation avec utilisateurs reels, étudiants et enseignants |
Administratif | ||
Coordinateur | 5j | Exchanges administratifs divers. |
Développeur | 5j | Exchanges administratifs divers. |
Reporting final | ||
Développeur | 10j | Reporting périodique et final sur l'application web, avec documentation appropriée |
Coordinateur | 5j+ | Reporting final sur l'ensemble des langues et du projet, cloture du projet. |
Dates
- ☑ 2019.03.18 : (Hugo) Connaissance du format exact du dossier de candidature.
- ☑ 2019.03.19 : (Hugo) Proposition en 3 strategies à Wikimedia France et Ivan
- ☑ 2019.03.19 : (Hugo) Début de rédaction du "AMI_2019_formulaire_1" (9p).
- ☐ 2019.03.18 : (Ivan) Trouver un porteur scientifique, attente de la réponse d'Ivan.
- ☑ 2019.03.19 : (Remy) Decision des budgets Wikimedia France et accord de principe.
- ☐ 2019.03.20 : (Hugo) Email décideurs INALCO (Manuelle Frank ? FAD ?)
- ☐ 2019.03.23 : (H/R/I) Repas INALCO/WMfr.
- ☐ 2019.03.25 : Est-ce que l'INALCO est bienveillant ?
- ☐ 2019.03.25 : (Hugo) Fin de rédaction du "AMI_2019_formulaire_1" (9p).
- ☐ 2019.03.28 : rencontre décisionaire financier à l'INALCO / WMfr / CRI
- ☐ 2019.04.05, 4pm : (Porteur Sctfc) dépot du projet.