Special Export translations SettingsGroupCategory:Bureaucrats of Lingua LibreCategory:Lingua Libre:HelpHelp:Add a new languageHelp:BotsHelp:Choosing a microphoneHelp:Configure your microphoneHelp:Create a new generatorHelp:Create your own listsHelp:Download datasetsHelp:Download datasets/Header/textHelp:InterfaceHelp:LangtagsHelp:MainHelp:RecordWizard manualHelp:TranslateHelp:Your first recordLinguaLibre:AboutLinguaLibre:AdministratorsLinguaLibre:Administrators' noticeboard/Header/textLinguaLibre:Babel/textLinguaLibre:BureaucratsLinguaLibre:Bureaucrats/Header/textLinguaLibre:ChangelogLinguaLibre:Chat room/FAQ/textLinguaLibre:Chat room/Header/textLinguaLibre:CommunityLinguaLibre:CopyrightsLinguaLibre:Events/2022 Lingualibre-Surui workshopLinguaLibre:Events/2022.06 Lingualibre online meetupLinguaLibre:Events/Patrol assistance tool prototyping projectLinguaLibre:Events/Patrol assistance tool prototyping project/Intro/textLinguaLibre:Explore the sound libraryLinguaLibre:List of languagesLinguaLibre:Main Page/textLinguaLibre:Misleading itemsLinguaLibre:Privacy policyLinguaLibre:RecordsLinguaLibre:SpeakersLinguaLibre:StatsLinguaLibre:Stats/LanguagesLinguaLibre:Stats/Menu/textLinguaLibre:Stats/SpeakersLinguaLibre:Stats/TimeLinguaLibre:Technical board/Header/textLinguaLibre:Translation administratorsLinguaLibre:User rightsTemplate:Autopatrolled/textTemplate:Bot steps/DocumentationTemplate:Bot steps/textTemplate:DataViz/textTemplate:Helps/textTemplate:Projects/textTemplate:User administrator/textTemplate:User bureaucrat/textTemplate:Welcome/textUser:WikiLucas00/Sitenotice/textLanguageaa - Afarab - Abkhazianabs - Ambonese Malayace - Achineseady - Adygheady-cyrl - Adyghe (Cyrillic script)aeb - Tunisian Arabicaeb-arab - Tunisian Arabic (Arabic script)aeb-latn - Tunisian Arabic (Latin script)af - Afrikaansak - Akanaln - Gheg Albanianalt - Southern Altaiam - Amharicami - Amisan - Aragoneseang - Old Englishanp - Angikaar - Arabicarc - Aramaicarn - Mapuchearq - Algerian Arabicary - Moroccan Arabicarz - Egyptian Arabicas - Assamesease - American Sign Languageast - Asturianatj - Atikamekwav - Avaricavk - Kotavaawa - Awadhiay - Aymaraaz - Azerbaijaniazb - South Azerbaijaniba - Bashkirban - Balinesebar - Bavarianbbc - Batak Tobabbc-latn - Batak Toba (Latin script)bcc - Southern Balochibcl - Central Bikolbe - Belarusianbe-tarask - Belarusian (Taraškievica orthography)bg - Bulgarianbgn - Western Balochibh - Bhojpuribho - Bhojpuribi - Bislamabjn - Banjarbm - Bambarabn - Banglabo - Tibetanbpy - Bishnupriyabqi - Bakhtiaribr - Bretonbrh - Brahuibs - Bosnianbtm - Batak Mandailingbto - Iriga Bicolanobug - Buginesebxr - Russia Buriatca - Catalancbk-zam - Chavacanocdo - Min Dong Chinesece - Chechenceb - Cebuanoch - Chamorrocho - Choctawchr - Cherokeechy - Cheyenneckb - Central Kurdishco - Corsicancps - Capiznoncr - Creecrh - Crimean Turkishcrh-cyrl - Crimean Tatar (Cyrillic script)crh-latn - Crimean Tatar (Latin script)cs - Czechcsb - Kashubiancu - Church Slaviccv - Chuvashcy - Welshda - Danishde - Germande-at - Austrian Germande-ch - Swiss High Germande-formal - German (formal address)din - Dinkadiq - Zazakidsb - Lower Sorbiandtp - Central Dusundty - Dotelidv - Divehidz - Dzongkhaee - Eweegl - Emilianel - Greekeml - Emiliano-Romagnoloen - Englishen-ca - Canadian Englishen-gb - British Englisheo - Esperantoes - Spanishes-419 - Latin American Spanishes-formal - español (formal)et - Estonianeu - Basqueext - Extremaduranfa - Persianff - Fulahfi - Finnishfit - Tornedalen Finnishfj - Fijianfo - Faroesefr - Frenchfrc - Cajun Frenchfrp - Arpitanfrr - Northern Frisianfur - Friulianfy - Western Frisianga - Irishgag - Gagauzgan - Gan Chinesegan-hans - Gan (Simplified)gan-hant - Gan (Traditional)gcr - Guianan Creolegd - Scottish Gaelicgl - Galicianglk - Gilakign - Guaranigom - Goan Konkanigom-deva - Goan Konkani (Devanagari script)gom-latn - Goan Konkani (Latin script)gor - Gorontalogot - Gothicgrc - Ancient Greekgsw - Swiss Germangu - Gujaratigv - Manxha - Hausahak - Hakka Chinesehaw - Hawaiianhe - Hebrewhi - Hindihif - Fiji Hindihif-latn - Fiji Hindi (Latin script)hil - Hiligaynonho - Hiri Motuhr - Croatianhrx - Hunsrikhsb - Upper Sorbianht - Haitian Creolehu - Hungarianhu-formal - magyar (formal)hy - Armenianhyw - Western Armenianhz - Hereroia - Interlinguaid - Indonesianie - Interlingueig - Igboii - Sichuan Yiik - Inupiaqike-cans - Eastern Canadian (Aboriginal syllabics)ike-latn - Eastern Canadian (Latin script)ilo - Ilokoinh - Ingushio - Idois - Icelandicit - Italianiu - Inuktitutja - Japanesejam - Jamaican Creole Englishjbo - Lojbanjut - Jutishjv - Javaneseka - Georgiankaa - Kara-Kalpakkab - Kabylekbd - Kabardiankbd-cyrl - Kabardian (Cyrillic script)kbp - Kabiyekea - Kabuverdianukg - Kongokhw - Khowarki - Kikuyukiu - Kirmanjkikj - Kuanyamakjp - Eastern Pwokk - Kazakhkk-arab - Kazakh (Arabic script)kk-cn - Kazakh (China)kk-cyrl - Kazakh (Cyrillic script)kk-kz - Kazakh (Kazakhstan)kk-latn - Kazakh (Latin script)kk-tr - Kazakh (Turkey)kl - Kalaallisutkm - Khmerkn - Kannadako - Koreanko-kp - Korean (North Korea)koi - Komi-Permyakkr - Kanurikrc - Karachay-Balkarkri - Kriokrj - Kinaray-akrl - Karelianks - Kashmiriks-arab - Kashmiri (Arabic script)ks-deva - Kashmiri (Devanagari script)ksh - Colognianku - Kurdishku-arab - Kurdish (Arabic script)ku-latn - Kurdish (Latin script)kum - Kumykkv - Komikw - Cornishky - Kyrgyzla - Latinlad - Ladinolb - Luxembourgishlbe - Laklez - Lezghianlfn - Lingua Franca Novalg - Gandali - Limburgishlij - Ligurianliv - Livonianlki - Lakilld - Ladinlmo - Lombardln - Lingalalo - Laoloz - Lozilrc - Northern Lurilt - Lithuanianltg - Latgalianlus - Mizoluz - Southern Lurilv - Latvianlzh - Literary Chineselzz - Lazmai - Maithilimap-bms - Basa Banyumasanmdf - Mokshamg - Malagasymh - Marshallesemhr - Eastern Marimi - Maorimin - Minangkabaumk - Macedonianml - Malayalammn - Mongolianmni - Manipurimnw - Monmo - Moldovanmr - Marathimrj - Western Marims - Malaymt - Maltesemus - Muscogeemwl - Mirandesemy - Burmesemyv - Erzyamzn - Mazanderanina - Naurunah - Nāhuatlnan - Min Nan Chinesenap - Neapolitannb - Norwegian Bokmålnds - Low Germannds-nl - Low Saxonne - Nepalinew - Newaring - Ndonganiu - Niueannl - Dutchnl-informal - Nederlands (informeel)nn - Norwegian Nynorskno - Norwegiannod - Northern Thainov - Novialnqo - N’Konrm - Normannso - Northern Sothonv - Navajony - Nyanjanys - Nyungaroc - Occitanolo - Livvi-Karelianom - Oromoor - Odiaos - Osseticota - Ottoman Turkishpa - Punjabipag - Pangasinanpam - Pampangapap - Papiamentopcd - Picardpdc - Pennsylvania Germanpdt - Plautdietschpfl - Palatine Germanpi - Palipih - Norfuk / Pitkernpl - Polishpms - Piedmontesepnb - Western Punjabipnt - Ponticprg - Prussianps - Pashtopt - Portuguesept-br - Brazilian Portugueseqqq - Message documentationqu - Quechuaqug - Chimborazo Highland Quichuargn - Romagnolrif - Riffianrm - Romanshrmy - Vlax Romanirn - Rundiro - Romanianroa-tara - Tarantinoru - Russianrue - Rusynrup - Aromanianruq - Megleno-Romanianruq-cyrl - Megleno-Romanian (Cyrillic script)ruq-latn - Megleno-Romanian (Latin script)rw - Kinyarwandarwr - Marwari (India)sa - Sanskritsah - Sakhasat - Santalisc - Sardinianscn - Siciliansco - Scotssd - Sindhisdc - Sassarese Sardiniansdh - Southern Kurdishse - Northern Samisei - Serises - Koyraboro Sennisg - Sangosgs - Samogitiansh - Serbo-Croatianshi - Tachelhitshi-latn - Tachelhit (Latin script)shi-tfng - Tachelhit (Tifinagh script)shn - Shanshy-latn - Shawiya (Latin script)si - Sinhalasimple - Simple Englishsje - Pite Samisk - Slovakskr - Saraikiskr-arab - Saraiki (Arabic script)sl - Sloveniansli - Lower Silesiansm - Samoansma - Southern Samismj - Lule Samismn - Inari Samisn - Shonaso - Somalisq - Albaniansr - Serbiansr-ec - Serbian (Cyrillic script)sr-el - Serbian (Latin script)srn - Sranan Tongosrq - Sirionóss - Swatist - Southern Sothostq - Saterland Frisiansty - себертатарsu - Sundanesesv - Swedishsw - Swahiliszl - Silesianszy - Sakizayata - Tamiltay - Tayaltcy - Tulute - Telugutet - Tetumtg - Tajiktg-cyrl - Tajik (Cyrillic script)tg-latn - Tajik (Latin script)th - Thaiti - Tigrinyatk - Turkmentl - Tagalogtly - Talyshtn - Tswanato - Tongantokipona - Toki Ponatpi - Tok Pisintr - Turkishtru - Turoyotrv - Tarokots - Tsongatt - Tatartt-cyrl - Tatar (Cyrillic script)tt-latn - Tatar (Latin script)tum - Tumbukatw - Twity - Tahitiantyv - Tuviniantzm - Central Atlas Tamazightudm - Udmurtug - Uyghurug-arab - Uyghur (Arabic script)ug-latn - Uyghur (Latin script)uk - Ukrainianur - Urduuz - Uzbekuz-cyrl - Uzbek (Cyrillic script)uz-latn - Uzbek (Latin script)ve - Vendavec - Venetianvep - Vepsvi - Vietnamesevls - West Flemishvmf - Main-Franconianvo - Volapükvot - Voticvro - Võrowa - Walloonwar - Waraywo - Wolofwuu - Wu Chinesexal - Kalmykxh - Xhosaxmf - Mingrelianxsy - Saisiyatyi - Yiddishyo - Yorubayue - Cantoneseza - Zhuangzea - Zeelandiczgh - Standard Moroccan Tamazightzh - Chinesezh-cn - Chinese (China)zh-hans - Simplified Chinesezh-hant - Traditional Chinesezh-hk - Chinese (Hong Kong)zh-mo - Chinese (Macau)zh-my - Chinese (Malaysia)zh-sg - Chinese (Singapore)zh-tw - Chinese (Taiwan)zu - ZuluFormatExport for off-line translationExport in native format Fetch {{DISPLAYTITLE:Hilfe:Datensätze herunterladen}}{{#Subtitle:{{Help:Download_datasets/Header}}}} <languages/> {| class="wikitable right" style="float:right;" ! colspan=2| Datengröße — 2022/02 |- | Audiodateien || 800,000+ |- | Durchschnittliche Größe || 100kB |- | Gesamtgröße (geschätzt) || 80GB <!-- |- | Sicherheitsfaktor || 5~10x |- ! Erforderlicher Speicherplatz || 400~800GB --> |} == Datensätze per Klick herunterladen == '''Download nach Sprache:''' <br> # Öffne https://lingualibre.org/datasets/ # Finde deine Sprache, das Namensschema ist: <code>{qId}-{iso639-3}-{language_English_name}.zip</code> # '''Klicke zum herunterladen''' # Entpacke es auf deinem Gerät. '''Nachbearbeitung''' <br>Sieh dir die entsprechenden Tutorials in [[#Siehe auch]] an, um deine heruntergeladenen Audios massenhaft umzubenennen, massenhaft zu konvertieren oder massenhaft zu entrauschen. == Programmierte Werkzeuge == Die folgenden Werkzeuge rufen zunächst aus einer oder mehreren Wikimedia-Commons-Kategorien die Liste der darin enthaltenen Audiodateien ab. Einige von ihnen ermöglichen es, diese Liste weiter zu filtern, um sich auf einen einzelnen Sprecher zu konzentrieren, entweder durch Bearbeiten ihres Codes oder durch Nachbearbeitung der resultierenden CSV-Liste der Audiodateien. Die aufgelisteten Ziele werden dann mit einer Geschwindigkeit von 500 bis 15.000 pro Stunde heruntergeladen. Elemente, die bereits lokal vorhanden sind und der neuesten Commons-Version entsprechen, werden grundsätzlich nicht erneut heruntergeladen. === Finde dein Ziel === Kategorien auf Wikimedia Commons sind wie folgt organisiert: * [[:Commons:Category:Lingua Libre pronunciation by user]] * [[:Commons:Category:Lingua Libre pronunciation]] (nach Sprache) === Python (aktuell) === Abhängigkeiten: Python 3.6+ '''Petscan''' und '''Wikiget''' erlauben dar Herunterladen von etwa 15.000 Audiodateien je Stunde. # '''Wähle deine Kategorie :''' siehe [[:commons:Category:Lingua_Libre_pronunciation|Kategorie:Lingua-Libre-Aussprache]] und [[:commons:Category:Lingua Libre pronunciation by user|Kategorie:Lingua-Libre-Aussprache nach Benutzer]] und finde dann deine Zielkategorie, # '''Liste Zieldateien mit [https://petscan.wmflabs.org Petscan] auf:''' Bei Angabe einer Zielkategorie auf Commons wird eine Liste der Zieldateien bereitgestellt. [https://petscan.wmflabs.org/?&cb_labels_yes_l=1&cb_labels_no_l=1&edits%5Banons%5D=both&interface_language=en&edits%5Bflagged%5D=both&categories=Lingua%20Libre%20pronunciation-cmn&cb_labels_any_l=1&ns%5B0%5D=1&project=wikimedia&since_rev0=&search_max_results=500&edits%5Bbots%5D=both&ns%5B6%5D=1&language=commons&search_query= Beispiel]. # '''Lade die Zieldateien mit [https://pypi.org/project/wikiget/ Wikiget] herunter:''' lädt die Zieldateien herunter. Kommentare: * Erfolgreich im November 2021, mit 730.000 heruntergeladenen Audiodateien in 20 Stunden. Dauerhafte Durchschnittsgeschwindigkeit: 10 Downloads/Sek. * Einige gelöschte Dateien auf Commons können dazu führen, dass Wikiget einen Fehler zurückgibt und pausiert. Das Skript muss manuell fortgesetzt werden. Die Häufigkeit wird mit etwa 1/30.000 Dateien angegeben. Die Fehlerbehebung ist im Gange, unterstütze die Anfrage [https://github.com/clpo13/wikiget/issues/2 auf Github]. * WikiGet benötigt daher einen Freiwilligen, der das Skript während der Ausführung überwacht. * Seit Dezember 2021 unterstützt WikiGet keine Multi-Thread-Downloads mehr. Um die Effizienz des Download-Prozesses zu steigern, wird daher empfohlen, das Python-Skript auf 20–30 Terminalfenstern gleichzeitig auszuführen. Jedes Terminal, auf dem WikiGet läuft, würde durchschnittlich 20 Kbit/s verbrauchen. * WikiGet erfordert eine stabile Internetverbindung. Jede Unterbrechung von 1 Sekunde würde den Downloadvorgang stoppen und einen manuellen Neustart des Python-Skripts erfordern. * [[m:Special:MyLanguage/PetScan|Handbuch für PetScan]] * Alle Fragen zum Herunterladen von Datensätzen können auf dem Discord-Server von Lingua Libre gestellt werden: https://discord.gg/2WECKUHj === NodeJS (bald) === Abhängigkeiten: git, nodejs, npm. Ein '''WikiapiJS'''-Skript ermöglicht das Herunterladen der Dateien einer Zielkategorie oder einer Stammkategorie, ihrer Unterkategorien und der enthaltenen Dateien. Lädt etwa 1.400 Audiodateien pro Stunde herunter. # WikiapiJS ist das NodeJS/NPM-Paket, das skriptbasierte API-Aufrufe auf Wikimedia Commons und LinguaLibre ermöglicht. # Spezifisches Skript, das zur Ausführung einer bestimmten Aufgabe verwendet wird: #* Anhand einer gegebenen Kategorie alle Dateien herunterladen: https://github.com/hugolpz/WikiapiJS-Eggs/blob/main/wiki-download-many.js #* Anhand einer Stammkategorie Unterkategorien auflisten und alle Dateien herunterladen: https://github.com/hugolpz/WikiapiJS-Eggs/blob/main/wiki-download_by_root_category-many.js Kommentare, Stand Dezember 2021: * Erfolgreich im Dezember 2021, mit 400 heruntergeladenen Audios in 16 Minuten. Dauerhafte Durchschnittsgeschwindigkeit: 0,4 Downloads/Sek. * Dateien einzelner Kategorien erfolgreich verarbeitet. * Dateien der Stammkategorie und der Unterkategorien erfolgreich verarbeitet und ./isocode/-Ordner generiert. * Skalierbarkeitstests für die Belastbarkeit bei großen Anfragen von >500 bis 100.000 Datenobjekten erforderlich. * Leistungsverbesserungen werden derzeit in Betracht gezogen [https://github.com/kanasimi/wikiapi/issues/51#issuecomment-1002267855 auf Github]. === Python (langsam) === Abhängigkeiten: Python. '''CommonsDownloadTool.py''' ist ein Python-Skript, das früher Datensätze für LinguaLibre erstellte. Es kann umprogrammiert und an deine Bedürfnisse angepasst werden. So lädst du alle Datensätze als ZIP-Dateien herunter: * Skripte herunterladen : ** [https://github.com/lingua-libre/operations/blob/master/create_datasets.sh create_datasets.sh] - erstellt Kommandos für das CommonsDownloadTool. ** [https://github.com/lingua-libre/CommonsDownloadTool/blob/master/commons_download_tool.py CommonsDownloadTool/commons_download_tool.py] - Kernskript. * Lies sie ein wenig und verschiebe sie an die Stelle, an der sie am besten auf deinen Computer passen, sodass sie nur minimal bearbeitet werden müssen * Bearbeiten es nach Bedarf, damit die Pfade korrekt sind und es funktioniert. * Führe <code>create_datasets.sh</code> aus * Überprüfe, ob die Anzahl der Dateien in den heruntergeladenen ZIP-Dateien mit der Anzahl der Dateien in [[:Commons:Category:Lingua Libre pronunciation]] übereinstimmt. Kommentare: * Zuletzt ausgeführt im Februar 2021, wegen langsamer Geschwindigkeit abgebrochen. * Dieses Skript ist langsam und wurde eingestellt, da Lingualibre zu stark gewachsen ist. * Die Seite könnte von etwas HTML und Design profitieren. * Vorschläge auf https://phabricator.wikimedia.org/tag/lingua_libre/ oder im [[LinguaLibre:Chat room]]. === Python mit UI (Sulochanaviji) === :''Beschreibung zu vervollständigen, siehe das [https://github.com/sulochanaviji/Wiki-bulk-downloader Github-Repositorium].'' [[:meta:User:Sulochanaviji|Benutzer:Sulochanaviji]] schrieb ein Django/Python-Werkzeug mit einer HTML/CSS-Benutzeroberfläche. Siehe sein [https://github.com/sulochanaviji/Wiki-bulk-downloader Github-Repositorium]. === Python-Skript zum Herunterladen der Aussprachen eines Benutzers === Dieses Skript lädt alle von einem Benutzer hinzugefügten Aussprachen in einen Ordner herunter, indem es zunächst die Lingua-Libre-Datenbank abfragt und dann die Dateien von Commons herunterlädt. Siehe sein [https://github.com/rkosov/Lingua-Libre-User-Audio-Downloader Github-Repositorium]. [[User:Languageseeker|Languageseeker]] ([[User talk:Languageseeker|talk]]) 01:57, 24 May 2022 (UTC) === Anki-Erweiterung für Lingua Libre === Das [https://ankiweb.net/shared/info/124265771 Addon Lingua Libre und Forvo]. Es verfügt über eine Reihe erweiterter Optionen zur Verbesserung der Suchergebnisse und kann entweder als Stapelvorgang oder für einzeln ausgeführt werden. Standardmäßig prüft es zunächst Lingua Libre und, wenn es keine Ergebnisse bei Lingua Libre gibt, dann Forvo. Um als reine Lingua-Libre-Erweiterung ausgeführt zu werden, musst du ''"disable_Forvo" in deinem Konfigurationsabschnitt auf <code>True</code> setzen. Bitte melde Fehler, Probleme und Ideen auf [https://github.com/rkosov/Lingua-Libre-and-Forvo-Audio-Downloader Github]. === Java (nicht getestet) === Abhängigkeiten: <syntaxhighlight lang="bash"> sudo apt-get install default-jre # Java-Umgebung installieren </syntaxhighlight> Nutzung: * Öffne die [https://github.com/MarcoFalke/wiki-java-tools/releases GitHub-Projektseite für Wiki-java-tools]. * Finde die letzte Veröffentlichung von <code>Imker</code>. * Lade das Archiv Imker_vxx.xx.xx'''.zip''' herunter * Entpacke die .zip-Datei * Führe sie wie folgt aus : ** In Windows : Starte die .exe-Datei. ** Öffne in Ubuntu, shell: <syntaxhighlight lang="bash"> $java -jar imker-cli.jar -o ./myFolder/ -c 'CategoryName' # Alle Medien der Kategorie "CategoryName" auf Wikimedia Commons herunterladen </syntaxhighlight> Kommentare: * Noch von keinem LinguaLibre-Mitglied verwendet. Wenn du es nutzt, teile uns bitte deine Erfahrungen mit diesem Werkzeug mit. ==== Handbuch ==== <syntaxhighlight lang="bash"> Imker -- Wikimedia Commons batch downloading tool. Usage: java -jar imker-cli.jar [options] Options: --category, -c Use the specified Wiki category as download source. --domain, -d Wiki domain to fetch from Default: commons.wikimedia.org --file, -f Use the specified local file as download source. * --outfolder, -o The output folder. --page, -p Use the specified Wiki page as download source. The download source must be ONE of the following: ↳ A Wiki category (Example: --category="Denver, Colorado") ↳ A Wiki page (Example: --page="Sandboarding") ↳ A local file (Example: --file="Documents/files.txt"; One filename per line!) </syntaxhighlight> == Siehe auch == * [[Special:MyLanguage/Help:Renaming|Hilfe:Umbenennung]] * [[Special:MyLanguage/Help:Converting audios|Hilfe:Audios umwandeln]] * [[:phab:T261519|Hilfe:Audios in HTML einbinden]] * [[:phab:T261519]] == Siehe auch == {{Helps}} {{Technicals}} [[Category:Lingua Libre:Help]]