Help

Difference between revisions of "Download datasets/de"

Download of Lingualibre's audio datasets allows external reuse of those audios into native or web applications. LinguaLibre's service of periodic generation of dumps is currently staled, volunteer developers are working on it (Jan. 2022). Current, past and future alternatives are documented below. Other tutorials deal with how to clean up the resulting folders and how to rename these files into more practical {language}−{word}.ogg. Be aware of the overall datasize of estimated 40GB for wav format.

(Created page with "Abhängigkeiten: git, nodejs, npm.")
(Created page with "== Siehe auch ==")
 
(18 intermediate revisions by the same user not shown)
Line 59: Line 59:
 
Abhängigkeiten: git, nodejs, npm.
 
Abhängigkeiten: git, nodejs, npm.
  
A '''WikiapiJS''' script allows to download target category's files, or a root category, its subcategories and contained files. Downloads about 1,400 audio files per hour.
+
Ein '''WikiapiJS'''-Skript ermöglicht das Herunterladen der Dateien einer Zielkategorie oder einer Stammkategorie, ihrer Unterkategorien und der enthaltenen Dateien. Lädt etwa 1.400 Audiodateien pro Stunde herunter.
# WikiapiJS is the NodeJS / NPM package allowing scripted API calls upon Wikimedia Commons and LinguaLibre.
+
# WikiapiJS ist das NodeJS/NPM-Paket, das skriptbasierte API-Aufrufe auf Wikimedia Commons und LinguaLibre ermöglicht.
# Specific script used to do a given task:
+
# Spezifisches Skript, das zur Ausführung einer bestimmten Aufgabe verwendet wird:
#* Given a category, download all files : https://github.com/hugolpz/WikiapiJS-Eggs/blob/main/wiki-download-many.js
+
#* Anhand einer gegebenen Kategorie alle Dateien herunterladen: https://github.com/hugolpz/WikiapiJS-Eggs/blob/main/wiki-download-many.js
#* Given a root category, list subcategories, download all files: https://github.com/hugolpz/WikiapiJS-Eggs/blob/main/wiki-download_by_root_category-many.js
+
#* Anhand einer Stammkategorie Unterkategorien auflisten und alle Dateien herunterladen: https://github.com/hugolpz/WikiapiJS-Eggs/blob/main/wiki-download_by_root_category-many.js
  
Comments, as of December 2021:
+
Kommentare, Stand Dezember 2021:
* Successful on December 2021, with 400 audios downloaded in 16 minutes. Sustained average speed : 0.4 downloads/sec.
+
* Erfolgreich im Dezember 2021, mit 400 heruntergeladenen Audios in 16 Minuten. Dauerhafte Durchschnittsgeschwindigkeit: 0,4 Downloads/Sek.
* Successfully process single category's files.
+
* Dateien einzelner Kategorien erfolgreich verarbeitet.
* Successfully process root category and subcategories' files, generating ./isocode/ folders.
+
* Dateien der Stammkategorie und der Unterkategorien erfolgreich verarbeitet und ./isocode/-Ordner generiert.
* Scalability tests for resilience with high amounts requests >500 to 100,000 items is required.
+
* Skalierbarkeitstests für die Belastbarkeit bei großen Anfragen von >500 bis 100.000 Datenobjekten erforderlich.
* Performance improvements are under consideration [https://github.com/kanasimi/wikiapi/issues/51#issuecomment-1002267855 on github].
+
* Leistungsverbesserungen werden derzeit in Betracht gezogen [https://github.com/kanasimi/wikiapi/issues/51#issuecomment-1002267855 auf Github].
  
=== Python (slow) ===
+
=== Python (langsam) ===
  
Dependencies: python.
+
Abhängigkeiten: Python.
  
'''CommonsDownloadTool.py''' is a python script which formerly created datasets for LinguaLibre. It can be hacked and tinkered to your needs. To download all datasets as zips :
+
'''CommonsDownloadTool.py''' ist ein Python-Skript, das früher Datensätze für LinguaLibre erstellte. Es kann umprogrammiert und an deine Bedürfnisse angepasst werden. So lädst du alle Datensätze als ZIP-Dateien herunter:
* Download scripts :  
+
* Skripte herunterladen :  
** [https://github.com/lingua-libre/operations/blob/master/create_datasets.sh create_datasets.sh] - creates CommonsDownloadTool's commands.
+
** [https://github.com/lingua-libre/operations/blob/master/create_datasets.sh create_datasets.sh] - erstellt Kommandos für das CommonsDownloadTool.
** [https://github.com/lingua-libre/CommonsDownloadTool/blob/master/commons_download_tool.py CommonsDownloadTool/commons_download_tool.py] - core script.
+
** [https://github.com/lingua-libre/CommonsDownloadTool/blob/master/commons_download_tool.py CommonsDownloadTool/commons_download_tool.py] - Kernskript.
* Read them a bit, move them where they fit the best on you computer so they require the minimum of editing
+
* Lies sie ein wenig und verschiebe sie an die Stelle, an der sie am besten auf deinen Computer passen, sodass sie nur minimal bearbeitet werden müssen
* Edit as needed so the paths are correct, make it work.
+
* Bearbeiten es nach Bedarf, damit die Pfade korrekt sind und es funktioniert.
* Run <code>create_datasets.sh</code>
+
* Führe <code>create_datasets.sh</code> aus
* Check if the number of files in the downloaded zips matches the number of files in [[:Commons:Category:Lingua Libre pronunciation]]
+
* Überprüfe, ob die Anzahl der Dateien in den heruntergeladenen ZIP-Dateien mit der Anzahl der Dateien in [[:Commons:Category:Lingua Libre pronunciation]] übereinstimmt.
  
Comments:
+
Kommentare:
* Last ran on February 2021, stopped due to slow speed.
+
* Zuletzt ausgeführt im Februar 2021, wegen langsamer Geschwindigkeit abgebrochen.
* This script is slow and has been phased out as Lingualibre grown too much.
+
* Dieses Skript ist langsam und wurde eingestellt, da Lingualibre zu stark gewachsen ist.
* The page may gain from some html and styling.
+
* Die Seite könnte von etwas HTML und Design profitieren.
* Proposals go on https://phabricator.wikimedia.org/tag/lingua_libre/ or on the [[LinguaLibre:Chat room]].
+
* Vorschläge auf https://phabricator.wikimedia.org/tag/lingua_libre/ oder im [[LinguaLibre:Chat room]].
  
  
=== Python with UI (Sulochanaviji) ===
+
=== Python mit UI (Sulochanaviji) ===
:''Description to complete, see its [https://github.com/sulochanaviji/Wiki-bulk-downloader github repository].''
+
:''Beschreibung zu vervollständigen, siehe das [https://github.com/sulochanaviji/Wiki-bulk-downloader Github-Repositorium].''
[[:meta:User:Sulochanaviji|User:Sulochanaviji]] coded a Django/Python tool with a HTML/CSS user interface. See its [https://github.com/sulochanaviji/Wiki-bulk-downloader github repository].
+
[[:meta:User:Sulochanaviji|Benutzer:Sulochanaviji]] schrieb ein Django/Python-Werkzeug mit einer HTML/CSS-Benutzeroberfläche. Siehe sein [https://github.com/sulochanaviji/Wiki-bulk-downloader Github-Repositorium].
  
=== Python Script to Download a User's Pronunciations ===
+
=== Python-Skript zum Herunterladen der Aussprachen eines Benutzers ===
This script downloads all the pronunciations added by a user into a folder by first querying the Lingua Libre database and then downloading the files from Commons. See its [https://github.com/rkosov/Lingua-Libre-User-Audio-Downloader github repository]. [[User:Languageseeker|Languageseeker]] ([[User talk:Languageseeker|talk]]) 01:57, 24 May 2022 (UTC)
+
Dieses Skript lädt alle von einem Benutzer hinzugefügten Aussprachen in einen Ordner herunter, indem es zunächst die Lingua-Libre-Datenbank abfragt und dann die Dateien von Commons herunterlädt. Siehe sein [https://github.com/rkosov/Lingua-Libre-User-Audio-Downloader Github-Repositorium]. [[User:Languageseeker|Languageseeker]] ([[User talk:Languageseeker|talk]]) 01:57, 24 May 2022 (UTC)
  
  
=== Anki Extension for Lingua Libre ===
+
=== Anki-Erweiterung für Lingua Libre ===
The [https://ankiweb.net/shared/info/124265771 Lingua Libre and Forvo Addon]. It has a number of advanced options to improve search results and can run either as a batch operation or on an individual note.
+
Das [https://ankiweb.net/shared/info/124265771 Addon Lingua Libre und Forvo]. Es verfügt über eine Reihe erweiterter Optionen zur Verbesserung der Suchergebnisse und kann entweder als Stapelvorgang oder für einzeln ausgeführt werden.
  
By default, it first checks Lingua Libre and, if there are no results on Lingua Libre, it then checks Forvo. To run as a pure Lingua Libre extension, you will need to set ''"disable_Forvo" to <code>True</code> in your configuration section.
+
Standardmäßig prüft es zunächst Lingua Libre und, wenn es keine Ergebnisse bei Lingua Libre gibt, dann Forvo. Um als reine Lingua-Libre-Erweiterung ausgeführt zu werden, musst du ''"disable_Forvo" in deinem Konfigurationsabschnitt auf <code>True</code> setzen.
  
Please reports bugs, issues, ideas on [https://github.com/rkosov/Lingua-Libre-and-Forvo-Audio-Downloader github].
+
Bitte melde Fehler, Probleme und Ideen auf [https://github.com/rkosov/Lingua-Libre-and-Forvo-Audio-Downloader Github].
  
=== Java (not tested) ===
+
=== Java (nicht getestet) ===
  
Dependencies:
+
Abhängigkeiten:
 
<syntaxhighlight lang="bash">
 
<syntaxhighlight lang="bash">
sudo apt-get install default-jre    # install Java environment
+
sudo apt-get install default-jre    # Java-Umgebung installieren
 
</syntaxhighlight>
 
</syntaxhighlight>
  
Usage:
+
Nutzung:
* Open [https://github.com/MarcoFalke/wiki-java-tools/releases GitHub Wiki-java-tools project page].
+
* Öffne die [https://github.com/MarcoFalke/wiki-java-tools/releases GitHub-Projektseite für Wiki-java-tools].
* Find the last <code>Imker</code> release.
+
* Finde die letzte Veröffentlichung von <code>Imker</code>.
* Download Imker_vxx.xx.xx'''.zip''' archive
+
* Lade das Archiv Imker_vxx.xx.xx'''.zip''' herunter
* Extract the .zip file
+
* Entpacke die .zip-Datei
* Run as follow :
+
* Führe sie wie folgt aus :
** On Windows : start the .exe file.
+
** In Windows : Starte die .exe-Datei.
** On Ubuntu, open shell then :  
+
** Öffne in Ubuntu, shell:  
 
<syntaxhighlight lang="bash">
 
<syntaxhighlight lang="bash">
$java -jar imker-cli.jar -o ./myFolder/ -c 'CategoryName'    # Downloads all medias within Wikimedia Commons's category "CategoryName"
+
$java -jar imker-cli.jar -o ./myFolder/ -c 'CategoryName'    # Alle Medien der Kategorie "CategoryName" auf Wikimedia Commons herunterladen
 
</syntaxhighlight>
 
</syntaxhighlight>
  
Comments :
+
Kommentare:
* Not used yet by any LinguaLibre member. If you do, please share your experience of this tool.
+
* Noch von keinem LinguaLibre-Mitglied verwendet. Wenn du es nutzt, teile uns bitte deine Erfahrungen mit diesem Werkzeug mit.
  
==== Manual ====
+
==== Handbuch ====
 
<syntaxhighlight lang="bash">
 
<syntaxhighlight lang="bash">
 
Imker -- Wikimedia Commons batch downloading tool.
 
Imker -- Wikimedia Commons batch downloading tool.
Line 153: Line 153:
 
</syntaxhighlight>
 
</syntaxhighlight>
  
== See also ==
+
== Siehe auch ==
  
* [[Special:MyLanguage/Help:Renaming|Help:Renaming]]
+
* [[Special:MyLanguage/Help:Renaming|Hilfe:Umbenennung]]
* [[Special:MyLanguage/Help:Converting audios|Help:Converting audios]]
+
* [[Special:MyLanguage/Help:Converting audios|Hilfe:Audios umwandeln]]
* [[:phab:T261519|Help:Embed audio in HTML]]
+
* [[:phab:T261519|Hilfe:Audios in HTML einbinden]]
 
* [[:phab:T261519]]
 
* [[:phab:T261519]]
== See also ==
+
== Siehe auch ==
 
{{Helps}}
 
{{Helps}}
 
{{Technicals}}
 
{{Technicals}}
  
 
[[Category:Lingua Libre:Help]]
 
[[Category:Lingua Libre:Help]]

Latest revision as of 19:58, 18 September 2023

Other languages:
Deutsch • ‎English • ‎norsk bokmål • ‎occitan • ‎polski • ‎português do Brasil • ‎svenska • ‎македонски • ‎বাংলা
Datengröße — 2022/02
Audiodateien 800,000+
Durchschnittliche Größe 100kB
Gesamtgröße (geschätzt) 80GB

Datensätze per Klick herunterladen

Download nach Sprache:

  1. Öffne https://lingualibre.org/datasets/
  2. Finde deine Sprache, das Namensschema ist: {qId}-{iso639-3}-{language_English_name}.zip
  3. Klicke zum herunterladen
  4. Entpacke es auf deinem Gerät.

Nachbearbeitung
Sieh dir die entsprechenden Tutorials in #Siehe auch an, um deine heruntergeladenen Audios massenhaft umzubenennen, massenhaft zu konvertieren oder massenhaft zu entrauschen.

Programmierte Werkzeuge

Die folgenden Werkzeuge rufen zunächst aus einer oder mehreren Wikimedia-Commons-Kategorien die Liste der darin enthaltenen Audiodateien ab. Einige von ihnen ermöglichen es, diese Liste weiter zu filtern, um sich auf einen einzelnen Sprecher zu konzentrieren, entweder durch Bearbeiten ihres Codes oder durch Nachbearbeitung der resultierenden CSV-Liste der Audiodateien. Die aufgelisteten Ziele werden dann mit einer Geschwindigkeit von 500 bis 15.000 pro Stunde heruntergeladen. Elemente, die bereits lokal vorhanden sind und der neuesten Commons-Version entsprechen, werden grundsätzlich nicht erneut heruntergeladen.

Finde dein Ziel

Kategorien auf Wikimedia Commons sind wie folgt organisiert:

Python (aktuell)

Abhängigkeiten: Python 3.6+

Petscan und Wikiget erlauben dar Herunterladen von etwa 15.000 Audiodateien je Stunde.

  1. Wähle deine Kategorie : siehe Kategorie:Lingua-Libre-Aussprache und Kategorie:Lingua-Libre-Aussprache nach Benutzer und finde dann deine Zielkategorie,
  2. Liste Zieldateien mit Petscan auf: Bei Angabe einer Zielkategorie auf Commons wird eine Liste der Zieldateien bereitgestellt. Beispiel.
  3. Lade die Zieldateien mit Wikiget herunter: lädt die Zieldateien herunter.

Kommentare:

  • Erfolgreich im November 2021, mit 730.000 heruntergeladenen Audiodateien in 20 Stunden. Dauerhafte Durchschnittsgeschwindigkeit: 10 Downloads/Sek.
  • Einige gelöschte Dateien auf Commons können dazu führen, dass Wikiget einen Fehler zurückgibt und pausiert. Das Skript muss manuell fortgesetzt werden. Die Häufigkeit wird mit etwa 1/30.000 Dateien angegeben. Die Fehlerbehebung ist im Gange, unterstütze die Anfrage auf Github.
  • WikiGet benötigt daher einen Freiwilligen, der das Skript während der Ausführung überwacht.
  • Seit Dezember 2021 unterstützt WikiGet keine Multi-Thread-Downloads mehr. Um die Effizienz des Download-Prozesses zu steigern, wird daher empfohlen, das Python-Skript auf 20–30 Terminalfenstern gleichzeitig auszuführen. Jedes Terminal, auf dem WikiGet läuft, würde durchschnittlich 20 Kbit/s verbrauchen.
  • WikiGet erfordert eine stabile Internetverbindung. Jede Unterbrechung von 1 Sekunde würde den Downloadvorgang stoppen und einen manuellen Neustart des Python-Skripts erfordern.
  • Handbuch für PetScan
  • Alle Fragen zum Herunterladen von Datensätzen können auf dem Discord-Server von Lingua Libre gestellt werden: https://discord.gg/2WECKUHj

NodeJS (bald)

Abhängigkeiten: git, nodejs, npm.

Ein WikiapiJS-Skript ermöglicht das Herunterladen der Dateien einer Zielkategorie oder einer Stammkategorie, ihrer Unterkategorien und der enthaltenen Dateien. Lädt etwa 1.400 Audiodateien pro Stunde herunter.

  1. WikiapiJS ist das NodeJS/NPM-Paket, das skriptbasierte API-Aufrufe auf Wikimedia Commons und LinguaLibre ermöglicht.
  2. Spezifisches Skript, das zur Ausführung einer bestimmten Aufgabe verwendet wird:

Kommentare, Stand Dezember 2021:

  • Erfolgreich im Dezember 2021, mit 400 heruntergeladenen Audios in 16 Minuten. Dauerhafte Durchschnittsgeschwindigkeit: 0,4 Downloads/Sek.
  • Dateien einzelner Kategorien erfolgreich verarbeitet.
  • Dateien der Stammkategorie und der Unterkategorien erfolgreich verarbeitet und ./isocode/-Ordner generiert.
  • Skalierbarkeitstests für die Belastbarkeit bei großen Anfragen von >500 bis 100.000 Datenobjekten erforderlich.
  • Leistungsverbesserungen werden derzeit in Betracht gezogen auf Github.

Python (langsam)

Abhängigkeiten: Python.

CommonsDownloadTool.py ist ein Python-Skript, das früher Datensätze für LinguaLibre erstellte. Es kann umprogrammiert und an deine Bedürfnisse angepasst werden. So lädst du alle Datensätze als ZIP-Dateien herunter:

  • Skripte herunterladen :
  • Lies sie ein wenig und verschiebe sie an die Stelle, an der sie am besten auf deinen Computer passen, sodass sie nur minimal bearbeitet werden müssen
  • Bearbeiten es nach Bedarf, damit die Pfade korrekt sind und es funktioniert.
  • Führe create_datasets.sh aus
  • Überprüfe, ob die Anzahl der Dateien in den heruntergeladenen ZIP-Dateien mit der Anzahl der Dateien in Commons:Category:Lingua Libre pronunciation übereinstimmt.

Kommentare:


Python mit UI (Sulochanaviji)

Beschreibung zu vervollständigen, siehe das Github-Repositorium.

Benutzer:Sulochanaviji schrieb ein Django/Python-Werkzeug mit einer HTML/CSS-Benutzeroberfläche. Siehe sein Github-Repositorium.

Python-Skript zum Herunterladen der Aussprachen eines Benutzers

Dieses Skript lädt alle von einem Benutzer hinzugefügten Aussprachen in einen Ordner herunter, indem es zunächst die Lingua-Libre-Datenbank abfragt und dann die Dateien von Commons herunterlädt. Siehe sein Github-Repositorium. Languageseeker (talk) 01:57, 24 May 2022 (UTC)


Anki-Erweiterung für Lingua Libre

Das Addon Lingua Libre und Forvo. Es verfügt über eine Reihe erweiterter Optionen zur Verbesserung der Suchergebnisse und kann entweder als Stapelvorgang oder für einzeln ausgeführt werden.

Standardmäßig prüft es zunächst Lingua Libre und, wenn es keine Ergebnisse bei Lingua Libre gibt, dann Forvo. Um als reine Lingua-Libre-Erweiterung ausgeführt zu werden, musst du "disable_Forvo" in deinem Konfigurationsabschnitt auf True setzen.

Bitte melde Fehler, Probleme und Ideen auf Github.

Java (nicht getestet)

Abhängigkeiten:

sudo apt-get install default-jre    # Java-Umgebung installieren

Nutzung:

  • Öffne die GitHub-Projektseite für Wiki-java-tools.
  • Finde die letzte Veröffentlichung von Imker.
  • Lade das Archiv Imker_vxx.xx.xx.zip herunter
  • Entpacke die .zip-Datei
  • Führe sie wie folgt aus :
    • In Windows : Starte die .exe-Datei.
    • Öffne in Ubuntu, shell:
$java -jar imker-cli.jar -o ./myFolder/ -c 'CategoryName'     # Alle Medien der Kategorie "CategoryName" auf Wikimedia Commons herunterladen

Kommentare:

  • Noch von keinem LinguaLibre-Mitglied verwendet. Wenn du es nutzt, teile uns bitte deine Erfahrungen mit diesem Werkzeug mit.

Handbuch

Imker -- Wikimedia Commons batch downloading tool.

Usage: java -jar imker-cli.jar [options]
  Options:
    --category, -c
       Use the specified Wiki category as download source.
    --domain, -d
       Wiki domain to fetch from
       Default: commons.wikimedia.org
    --file, -f
       Use the specified local file as download source.
  * --outfolder, -o
       The output folder.
    --page, -p
       Use the specified Wiki page as download source.

The download source must be ONE of the following:
 ↳ A Wiki category (Example: --category=&quot;Denver, Colorado&quot;)
 ↳ A Wiki page (Example: --page=&quot;Sandboarding&quot;)
 ↳ A local file (Example: --file=&quot;Documents/files.txt&quot;; One filename per line!)

Siehe auch

Siehe auch

Lingua Libre Help pages
General help pages Help:InterfaceHelp:Your first recordHelp:Choosing a microphoneHelp:Configure your microphoneHelp:TranslateHelp:LangtagsLinguaLibre:Language codes systems used across LinguaLibreLinguaLibre:List of languages
Linguistic help pages Help:Add a new languageHelp:HomographsHelp:List translationHelp:Ethics
Lists help pages Help:Create your own listsHelp:How to create a frequency list?Help:Why wordlists matter?Help:Swadesh listsHelp:ListsHelp:Create a new generator
Events, Outreach Lingualibre:EventsLingualibre:RolesLingualibre:WorkshopsLingualibre:HackathonLingualibre:Interested communitiesLingualibre:Events/2022 Public Relations CampaignLingualibre:MailingLingualibre:JargonLingualibre:AppsLingualibre:CitationsService civique 2022-2023
Strategy Lingualibre 2022 Review (including outreach)2022-2023 Lingualibre wishlist • {{Wikimedia Language Diversity/Projects}} • Speakers map • Voices gender • StatsLingua Libre SignIt/2022 report • {{Grants}}
Lingua Libre technical helps
Template {{Speakers category}} • {{Recommended lists}} • {{To iso 639-2}} • {{To iso 639-3}} • {{Userbox-records}} • {{Bot steps}}
Audio files How to create a frequency list?Convert files formatsDenoise files with SoXRename and mass rename
Bots Help:BotsLinguaLibre:BotHelp:Log in to Lingua Libre with PywikibotLingua Libre Bot (gh) • OlafbotPamputtBotDragons Bot (gh)
MediaWiki MediaWiki: Help:Documentation opérationelle MediawikiHelp:Database structureHelp:CSSHelp:RenameHelp:OAuthLinguaLibre:User rights (rate limit) • Module:Lingua Libre record & {{Lingua Libre record}}JS scripts: MediaWiki:Common.jsLastAudios.jsSoundLibrary.jsItemsSugar.jsLexemeQueriesGenerator.js (pad) • Sparql2data.js (pad) • LanguagesGallery.js (pad) • Gadgets: Gadget-LinguaImporter.jsGadget-Demo.jsGadget-RecentNonAudio.jsLiLiZip.js
Queries Help:APIsHelp:SPARQLSPARQL (intermediate) (stub) • SPARQL for lexemes (stub) • SPARQL for maintenanceLingualibre:Wikidata (stub) • Help:SPARQL (HAL)
Reuses Help:Download datasetsHelp:Embed audio in HTML
Unstable & tests Help:SPARQL/test
Categories Category:Technical reports