User

Yug/AMI

< User:Yug
Revision as of 18:15, 19 March 2019 by Yug (talk | contribs) (→‎Dates)

Projet "3000 mots pour 30 langues"

Introduction

CECI EST UNE EBAUCHE. DEADLINE: APRIL 4th. /// THIS IS A DRAFT PROPOSAL. DEADLINE: APRIL 4th.
  • Nom : « 3000 mots pour 30 langues : enregistrement libre des lexiques des licences de langues pour une application web d'e-learning »
    ou « Numérisation audio des lexiques pour 30 licences de langues enseignées à l'INALCO, 3000 mots pour 30 langues »
  • Réponse : "Appel à manifestation d'intérêt 2019 : Transformation #pédagogique et #numérique" http://sup-n.gouv.fr/c138614
  • Institutions : INALCO (80%), Wikimedia (15%), CRI (5%?)
  • Objectif : 1) Constitution d'une banque d'audio couvrant le lexique de 30 licences de langues de l'INALCO, 2) puis réalisation d'une application web d'elearning.
  • Porteur projet: Yug (Hugo).
  • Porteur scientifique : ?

Besoin

Problème

L'apprentissage du vocabulaire represente l'essentiel de l'appretissage d'une langue. L'Institut National des Langues et Civilisation Orientales (INALCO) forme 9000 étudiants au sein de 100 licences de langue. Les lexiques des ces licences sont rarement digitalisés. Sans lexiques digitalisés, l'apprentissage à numérique à distance est freiné. La recherche appliquée et fondamentale sur l'e-learning des langues, domaine économique en forte croissance, est également impossible sans lexiques digitalisés.

Solution

Via une collaboration INALCO-Wikimedia France, nous proposons de digitaliser le lexiques de 30 licences de langue présentes à l'Institut National des Langues et Civilisation Orientales (INALCO). L'approche proposée suit des cycles de travails bien définis, issues des pratiques participatives et des technologies open sources de la communauté Wikipedienne.

LinguaLibre.fr, un outils développé via une collaboration Université de Strasbourg / Wikimedia France, permet l'enregistrement audio de 800 mots / heure sans installation de logiciel. Ainsi :

  • Le vocabulaire d'une licence de chinois, soit ~4000 mots, peut être enregistré en 1~2 jours. Via une formation courte puis 2 sessions de 2 heures d'enregistrements.
  • Le vocabulaire d'une licence de tchèque, soit ~8000 mots (?), peut être enregistré en 2~4 jours. Via une formation courte puis 4 sessions de 2 heures d'enregistrements.

Une liste de mot peut être enregistrer sur cette page https://lingualibre.fr/wiki/Special:RecordWizard . La banque d'audios enregistrés est ensuite téléchargeables par langue sur cette page : https://lingualibre.fr/datasets/ .

La liste des mots du lexique et la banque d'audios de ce lexique constituent le minimum indispensable et suffisant pour la création d'une application multimedia d'apprentissage à distance, via le web. Ces données seront publiées sous licences libres "CC-BY-SA INALCO", à disposition de toutes les universités, départements de langues et entreprises de France et du monde. L'application web open source, définit une socle applicationel modulaire, permettant ensuite la mobilisations des ressources humaines présentent au sein de la recherche en e-learning des langues.

Une langue pilote, le chinois, a ainsi déjà produit 2000 audios et une application web d'e-learning intégrée au MOOC de chinois de l'INALCO. Voir https://hanzi.cri-paris.org.

Budgets envisagés

L'Appel à Manifestation d'Intérêt AMI 2019 annonce que chaque projet retenu sera cofinancé au maximum pour moitié du budget total par le ministère avec un plafond de 70 000€. En fonction du budget obtenu par les porteurs, 3 financements et objectifs différents peuvent être définies :

Stratégies possibles Contributions financieres Budget
RH Durée Objectifs INALCO Wikimedia.fr CRI AMI Total
Stratégie basse 1 10mois 12+ langues × 3000 mots = +36000 audios
Lexiques web multimedia simple sans comptes utilisateurs (open source minimaliste).
10k€ 10k€ 2k€ 22k€ 44k€
Stratégie médiane 2 9mois
6mois
12 langues × 3000 mots = 36000 audios
Application web riche avec comptes utilisateurs.
20k€ 10k€ 4k€ 34k€ 68k€
Stratégie haute 2 18mois
6mois
30+ langues × 3000 mots = 90000+ audios
Application web riche avec comptes utilisateurs.
40k€ 20k€ 5k€ 65k€ 130k€
30~40% 5~15% 0~5% 50% 100%

Considérations stratégiques

  • E-learning, FÀD : les stratégie médiane et haute permettent à l'INALCO une présence e-Learning et FÀD suplémentaire claire dès fin automne 2020.
  • Dimensions : la stratégie médiane permet une présence web via un échantillon de 12 langues, la stratégie haute permet une présence forte et inédite via ~30 langues.
  • Recherche : Les stratégie médiane et haute permettent la mise en ligne d'un produit réel, collectant des données apprenant, permet la mise en place d'un projet-socle tangible et fédérateur pour la communauté des chercheurs en linguistique computationelle (TAL), les étudiants en licence Traitements Numériques Multilingues de l'INALCO, et les développeurs web du mouvement libre (Wikimedia).
  • Croissance : le projet de collecte linguistique peut être poursuivit après la fin de ce financement, afin de numériser l'ensemble des ~100 lexiques présents à l'INALCO et d'affirmer l'expertise de l'INALCO et une présence web inédite.

Approche

Un coordinateur dédié organise avec les enseignants et étudiants d'une langues ciblée de l'INALCO des cycles de travail afin d'en numériser le lexique. Pour chaque langue, 2 ateliers dits "Editathon" et 3 sessions d'enregistrements audios seront nécessaires. Mobiliser la communauté experte afin de livrer 3 à 4000 enregistrements audios nécessite environ 1,5 à 2 semaines de coordination par langue. Le developpement d'une application d'e-lexique multimédia est ensuite réalisable, avec des ambitions variables selon le budget dédié. Les données audio et le code logiciel étant posés sous licences libres, ceci permettra à la communauté grandissante des développeurs d'augmenter l'application livrée.

Equipe

Porteur scientifique Coordination / Chef de project Développeur full-stack
(déjà rémunéré) 40 000€ brut/an 40 000€ brut/an
  • portage scientifique du projet, dépot de la candidature
  • validation scientifique
  • validation des objectifs du projet en accord avec les enseignements
  • valorisation scientifique auprès des hiérarchies, départements, enseignants
  • rédaction académique
  • valorisation pédagogique
  • integration au parcours pédagogiques
  • expansion après fin du projet via enseignement par projet Master TAL
  • administration
  • prises de contact
  • organisation et tenu des ateliers
  • formations des enseignants
  • pilotage du développement




  • VueJS, CSS, HTML5
  • MongoDB
  • Git et Github
  • web responsive
  • notions de design




Actions prévues

Poste Jours Description
Préparation générale
Coordinateur 2j Installation, découverte des départements de l'INALCO et des acteurs, constitution d'un carnet d'adresses initial, recherche des 3 équipes pilotes.
Coordinateur 5j Réalisation d'une brochure projet : 1) Objectifs du projet ; 2) Le projet et vous (pour enseignants) ; 3) Le projet et vous (pour étudiants) ; 4) Enregistrer avec LinguaLibre.fr
Coordinateur 5j Recherche des lexiques numériques existants
Cycle d'ateliers pour une langue cible × 30 langues
Coordinateur 2j Coordination pour atelier "Editathon 1"
Coordinateur 4h Tenue de l'atelier "Editathon 1" : +1000 mots collectés.
Coordinateur 2j Coordination pour atelier "Editathon 2"
Coordinateur 4h Tenue de l'atelier "Editathon 2" : +2000 mots collectés.
Coordinateur 1j Coordination pour atelier "Enregistrement 1"
Coordinateur 4h Tenue de l'atelier "Enregistrement 1" : 1000 mots enregistrés
Coordinateur 1/2j Coordination pour atelier "Enregistrement 2"
Coordinateur 4h Tenue de l'atelier "Enregistrement 2" : +1000 mots enregistrés = 2000 audios
Coordinateur 1/2j Coordination pour atelier "Enregistrement 3"
Coordinateur 4h Tenue de l'atelier "Enregistrement 3" : +1000 mots enregistrés = 3000 audios
Coordinateur 1/2j Reportings periodiques
Développements d'une application d'e-learning lexical compatible Moodle
Développeur 1m Mise en place de la technologie socle, comptes utilisateurs, creation de comptes et emailings associés
Développeur 1m Développement liste de vocabulaires et e-dictionnaire multimedia sur la base des audios enregistrés
Développeur 1m Développement activité flash-cards
Développeur 1m Développement dashboard utilisateur
Développeur 1m Développement dashboard enseignant
Développeur 5j Tests continues de l'application web : 10 ateliers d'utilisations-initiation avec utilisateurs reels, étudiants et enseignants
Administratif
Coordinateur 5j Exchanges administratifs divers.
Développeur 5j Exchanges administratifs divers.
Reporting final
Développeur 10j Reporting périodique et final sur l'application web, avec documentation appropriée
Coordinateur 5j+ Reporting final sur l'ensemble des langues et du projet, cloture du projet.

Dates

  • ☑ 2019.03.18 : Proposition en 3 strategies
  • ☑ 2019.03.18 : format exact du dossier de candidature.
  • ☐ 2019.03.18 : Email reveil à l'INALCO
  • ☑ 2019.03.19 : Decision des budgets Wikimedia France.
  • ☐ 2019.03.23 : Repas INALCO/WMfr
  • ☐ 2019.03.25 : Est-ce que l'INALCO est bienveillant ?
  • ☐ 2019.03.25 : Rédaction de 9 pages de projet (Hugo)
  • ☐ 2019.03.25 : rencontre décisionaire financier à l'INALCO / WMfr / CRI
  • ☐ 2019.04.05, 4pm : dépot du projet. 

https://mail.google.com/mail/u/0/#search/to%3A+amodsen.chotia%40cri-paris.org+OR+amodsen%40cri-paris.org++AMI/FMfcgxwBVgkWHxqsDXFjfJxpCdVPvTMT

@Hugo : Dans quelle thématique vois-tu le projet de numérisation des lexiques de l'INALCO? Voir : http://sup-n.gouv.fr/c138614 , 2 thématiques suivantes : conception de parcours flexibles environnement numérique d'apprentissage et flexibilité Coté Wikimedia : c'est une collaboration pour générer + d'audios LL, + divers.