Help
Difference between revisions of "Download datasets/de"
Download of Lingualibre's audio datasets allows external reuse of those audios into native or web applications. LinguaLibre's service of periodic generation of dumps is currently staled, volunteer developers are working on it (Jan. 2022). Current, past and future alternatives are documented below. Other tutorials deal with how to clean up the resulting folders and how to rename these files into more practical {language}−{word}.ogg. Be aware of the overall datasize of estimated 40GB for wav format.
Ameisenigel (talk | contribs) (Created page with "=== Python (langsam) ===") |
Ameisenigel (talk | contribs) (Created page with "Abhängigkeiten: Python.") |
||
Line 74: | Line 74: | ||
=== Python (langsam) === | === Python (langsam) === | ||
− | + | Abhängigkeiten: Python. | |
'''CommonsDownloadTool.py''' is a python script which formerly created datasets for LinguaLibre. It can be hacked and tinkered to your needs. To download all datasets as zips : | '''CommonsDownloadTool.py''' is a python script which formerly created datasets for LinguaLibre. It can be hacked and tinkered to your needs. To download all datasets as zips : |
Revision as of 19:31, 18 September 2023
Datengröße — 2022/02 | |
---|---|
Audiodateien | 800,000+ |
Durchschnittliche Größe | 100kB |
Gesamtgröße (geschätzt) | 80GB |
Datensätze per Klick herunterladen
Download nach Sprache:
- Öffne https://lingualibre.org/datasets/
- Finde deine Sprache, das Namensschema ist:
{qId}-{iso639-3}-{language_English_name}.zip
- Klicke zum herunterladen
- Entpacke es auf deinem Gerät.
Nachbearbeitung
Sieh dir die entsprechenden Tutorials in #Siehe auch an, um deine heruntergeladenen Audios massenhaft umzubenennen, massenhaft zu konvertieren oder massenhaft zu entrauschen.
Programmierte Werkzeuge
Die folgenden Werkzeuge rufen zunächst aus einer oder mehreren Wikimedia-Commons-Kategorien die Liste der darin enthaltenen Audiodateien ab. Einige von ihnen ermöglichen es, diese Liste weiter zu filtern, um sich auf einen einzelnen Sprecher zu konzentrieren, entweder durch Bearbeiten ihres Codes oder durch Nachbearbeitung der resultierenden CSV-Liste der Audiodateien. Die aufgelisteten Ziele werden dann mit einer Geschwindigkeit von 500 bis 15.000 pro Stunde heruntergeladen. Elemente, die bereits lokal vorhanden sind und der neuesten Commons-Version entsprechen, werden grundsätzlich nicht erneut heruntergeladen.
Finde dein Ziel
Kategorien auf Wikimedia Commons sind wie folgt organisiert:
- Commons:Category:Lingua Libre pronunciation by user
- Commons:Category:Lingua Libre pronunciation (nach Sprache)
Python (aktuell)
Abhängigkeiten: Python 3.6+
Petscan und Wikiget erlauben dar Herunterladen von etwa 15.000 Audiodateien je Stunde.
- Wähle deine Kategorie : siehe Kategorie:Lingua-Libre-Aussprache und Kategorie:Lingua-Libre-Aussprache nach Benutzer und finde dann deine Zielkategorie,
- Liste Zieldateien mit Petscan auf: Bei Angabe einer Zielkategorie auf Commons wird eine Liste der Zieldateien bereitgestellt. Beispiel.
- Lade die Zieldateien mit Wikiget herunter: lädt die Zieldateien herunter.
Kommentare:
- Erfolgreich im November 2021, mit 730.000 heruntergeladenen Audiodateien in 20 Stunden. Dauerhafte Durchschnittsgeschwindigkeit: 10 Downloads/Sek.
- Einige gelöschte Dateien auf Commons können dazu führen, dass Wikiget einen Fehler zurückgibt und pausiert. Das Skript muss manuell fortgesetzt werden. Die Häufigkeit wird mit etwa 1/30.000 Dateien angegeben. Die Fehlerbehebung ist im Gange, unterstütze die Anfrage auf Github.
- WikiGet benötigt daher einen Freiwilligen, der das Skript während der Ausführung überwacht.
- Seit Dezember 2021 unterstützt WikiGet keine Multi-Thread-Downloads mehr. Um die Effizienz des Download-Prozesses zu steigern, wird daher empfohlen, das Python-Skript auf 20–30 Terminalfenstern gleichzeitig auszuführen. Jedes Terminal, auf dem WikiGet läuft, würde durchschnittlich 20 Kbit/s verbrauchen.
- WikiGet erfordert eine stabile Internetverbindung. Jede Unterbrechung von 1 Sekunde würde den Downloadvorgang stoppen und einen manuellen Neustart des Python-Skripts erfordern.
- Handbuch für PetScan
- Alle Fragen zum Herunterladen von Datensätzen können auf dem Discord-Server von Lingua Libre gestellt werden: https://discord.gg/2WECKUHj
NodeJS (bald)
Abhängigkeiten: git, nodejs, npm.
Ein WikiapiJS-Skript ermöglicht das Herunterladen der Dateien einer Zielkategorie oder einer Stammkategorie, ihrer Unterkategorien und der enthaltenen Dateien. Lädt etwa 1.400 Audiodateien pro Stunde herunter.
- WikiapiJS ist das NodeJS/NPM-Paket, das skriptbasierte API-Aufrufe auf Wikimedia Commons und LinguaLibre ermöglicht.
- Spezifisches Skript, das zur Ausführung einer bestimmten Aufgabe verwendet wird:
- Anhand einer gegebenen Kategorie alle Dateien herunterladen: https://github.com/hugolpz/WikiapiJS-Eggs/blob/main/wiki-download-many.js
- Anhand einer Stammkategorie Unterkategorien auflisten und alle Dateien herunterladen: https://github.com/hugolpz/WikiapiJS-Eggs/blob/main/wiki-download_by_root_category-many.js
Kommentare, Stand Dezember 2021:
- Erfolgreich im Dezember 2021, mit 400 heruntergeladenen Audios in 16 Minuten. Dauerhafte Durchschnittsgeschwindigkeit: 0,4 Downloads/Sek.
- Dateien einzelner Kategorien erfolgreich verarbeitet.
- Dateien der Stammkategorie und der Unterkategorien erfolgreich verarbeitet und ./isocode/-Ordner generiert.
- Skalierbarkeitstests für die Belastbarkeit bei großen Anfragen von >500 bis 100.000 Datenobjekten erforderlich.
- Leistungsverbesserungen werden derzeit in Betracht gezogen auf Github.
Python (langsam)
Abhängigkeiten: Python.
CommonsDownloadTool.py is a python script which formerly created datasets for LinguaLibre. It can be hacked and tinkered to your needs. To download all datasets as zips :
- Download scripts :
- create_datasets.sh - creates CommonsDownloadTool's commands.
- CommonsDownloadTool/commons_download_tool.py - core script.
- Read them a bit, move them where they fit the best on you computer so they require the minimum of editing
- Edit as needed so the paths are correct, make it work.
- Run
create_datasets.sh
- Check if the number of files in the downloaded zips matches the number of files in Commons:Category:Lingua Libre pronunciation
Comments:
- Last ran on February 2021, stopped due to slow speed.
- This script is slow and has been phased out as Lingualibre grown too much.
- The page may gain from some html and styling.
- Proposals go on https://phabricator.wikimedia.org/tag/lingua_libre/ or on the LinguaLibre:Chat room.
- Description to complete, see its github repository.
User:Sulochanaviji coded a Django/Python tool with a HTML/CSS user interface. See its github repository.
Python Script to Download a User's Pronunciations
This script downloads all the pronunciations added by a user into a folder by first querying the Lingua Libre database and then downloading the files from Commons. See its github repository. Languageseeker (talk) 01:57, 24 May 2022 (UTC)
Anki Extension for Lingua Libre
The Lingua Libre and Forvo Addon. It has a number of advanced options to improve search results and can run either as a batch operation or on an individual note.
By default, it first checks Lingua Libre and, if there are no results on Lingua Libre, it then checks Forvo. To run as a pure Lingua Libre extension, you will need to set "disable_Forvo" to True
in your configuration section.
Please reports bugs, issues, ideas on github.
Java (not tested)
Dependencies:
sudo apt-get install default-jre # install Java environment
Usage:
- Open GitHub Wiki-java-tools project page.
- Find the last
Imker
release. - Download Imker_vxx.xx.xx.zip archive
- Extract the .zip file
- Run as follow :
- On Windows : start the .exe file.
- On Ubuntu, open shell then :
$java -jar imker-cli.jar -o ./myFolder/ -c 'CategoryName' # Downloads all medias within Wikimedia Commons's category "CategoryName"
Comments :
- Not used yet by any LinguaLibre member. If you do, please share your experience of this tool.
Manual
Imker -- Wikimedia Commons batch downloading tool.
Usage: java -jar imker-cli.jar [options]
Options:
--category, -c
Use the specified Wiki category as download source.
--domain, -d
Wiki domain to fetch from
Default: commons.wikimedia.org
--file, -f
Use the specified local file as download source.
* --outfolder, -o
The output folder.
--page, -p
Use the specified Wiki page as download source.
The download source must be ONE of the following:
↳ A Wiki category (Example: --category="Denver, Colorado")
↳ A Wiki page (Example: --page="Sandboarding")
↳ A local file (Example: --file="Documents/files.txt"; One filename per line!)