Europarl Datensatz mit hunderttausenden Sätzen aus EU-Debatten

stergro · December 15, 2019, 7:42pm

Der Europarl Datensatz enthält Reden aus dem EU-Parlament in allen ofiziellen EU Sprachen aus der Zeit 1996 - 2011: http://www.statmt.org/europarl/

Hier der Englische Thread zum Thema.

Ich habe den deutschen Datensatz ein wenig bearbeitet und an die Anforderungen von Common Voice (maximal 14 Wörter usw.) angepasst. Übrig bleiben über 300 000 Sätze. Meinen aktuellen Arbeitsstand findet ihr hier auf GitHub.

Hier eine Beispielsammlung von 100 zufällig angewählten Sätzen:

github.com

stefangrotz/common-voice-work-files/blob/master/Deutsch/europarl-de-v7/europarl-de-sample1.txt

Wir müssen diesen Bestandteil des Vertrags verteidigen.
Früher erhielten sie eine finanzielle Unterstützung für den Bau von Siedlungen.
Das Erste, was wir brauchen, ist eine Verfassung.
Damit gewinnen sie aber an Souveränität in der Geldpolitik.
Die Entwicklung wäre in diesem Bereich zum Stillstand gekommen.
Bei genauerer Betrachtung ist sie allerdings gerechtfertigt.
Einerseits bedeutet ein neuer Prozess nicht, alles auf eine Karte zu setzen.
Noch immer driftet das Land führungslos herum.
Wie kann ein Staat seine Bürgerinnen und Bürger in einer solchen Situation verteidigen?
Abschließend kann ich feststellen, dass die Arbeiten laufen.
Meiner ersten Antwort auf diese Anfragen kann ich nicht viel hinzufügen.
Sie haben jetzt gesagt, Herr Minister, daß Sie darauf bedacht sind, dies immer aufzugreifen.
Internet und E-Commerce sind ihrem Wesen nach globaler Natur.
Hier im Parlament ist alles öffentlich.
An dieser Stelle herrscht derzeit noch eine strukturelle Unterfinanzierung.
Spanien legt sich bei dem Assoziierungsabkommen mit Jordanien wegen ein paar Tonnen Tomaten quer.
Alle Akteure, die das Internet nutzen, müssen ihre Rechte und Pflichten kennen.
Eine solche Reform ist definitiv nötig.
Vielen Dank, Herr Liikanen, für Ihre Antworten.
Das ist ein klassischer Fall.

This file has been truncated. show original

Noch zu tun:

Sätze mit Abkürzungen löschen, das geht theoretisch auch automatisiert, aber meine Befehle funktionieren im Moment noch nicht so wie ich will.

Aus dem Englischen Thread geht hervor, dass wir jetzt drei Möglichkeiten haben:

Wir importieren die Sätze nicht, weil sie zu politisch sind.
Wir importieren die Sätze in den Sentence Collector und müssen sie manuell validieren.
Wir machen einen QA-Prozess wie bei den Sätzen aus der Wikipedia. d.h. mehrere Leute schätzen die Fehlerrate von zufällig ausgewählten Sätzen. Wenn die Fehlerrate gering ist wird die gesamte Sammlung importiert.

Nachdem ich jetzt ein wenig mit den Sätzen gearbeitet habe würde ich zu Lösung 3 tendieren weil ein manuelles Validieren von so vielen Sätzen extrem lange dauern würde und weil der Anteil von problematischen Sätzen meiner Meinung nach sehr gering ist.

Wie steht ihr dazu?

mkohler · December 16, 2019, 9:14pm

Fände ich gut, habe aber bisher keine der Sätze durchgelesen, d.h. kann nicht sagen, wie hoch die Fehlerrate ist.

stergro · December 17, 2019, 7:07pm

Ich weiß nicht mehr wie ich den Datensatz weiter bereinigen kann, deswegen habe ich einen Pull-Request mit etwa 379 000 Sätzen aus diesen Datensatz gemacht. Im Pull-Reqest findet ihr zwei Beispieldatein mit je 100 zufällig generierten Sätzen.:

Ich werde selbst 100 Sätze durchschauen und die Fehlerrate schätzen, ich brauche jetzt noch zwei bis drei andere Leute, die auch noch die Fehlerrate schätzen. Würdet Ihr hier vielleicht helfen @mkohler @jf99 @monscampus @ratzer @Jenna ?

Eine einfache Zahl wie z.B. “5 von 100 Sätze sind falsch/ungeeignet” genügt.

jf99 · December 17, 2019, 8:13pm

@stergro Danke für deine Arbeit! Ich werde auch einige Sätze lesen und die Fehlerrate schätzen. Gib mir aber noch Zeit bis zum Wochenende. Möglichkeit 2 würde ich definitiv ausschließen. Wenn wir den Sentence Collector mit 300.000 Sätzen verstopfen, hat es überhaupt keinen Sinn mehr, eigene beizutragen.

Variante 3 klingt gut. Mir wäre wichtig, nicht denselben Fehler zu wiederholen wie beim Wikipedia-Import. Dort waren sehr viele schwer auszusprechende Fremdwörter enthalten. Man hätte es vor dem Import beheben können, aber anscheinend war es wichtiger, den geplanten Termin einzuhalten. Ich könnte mir vorstellen, dass das Vorleser gekostet und die Qualität der gesammelten Sprachdaten verschlechtert hat. Daher bitte ich dich, alle Sätze mit fürs Deutsche untypischen Zeichen (Akzente, Zeichen wie “ø” usw.) herauszufiltern, falls noch nicht geschehen. In einem anderen Thread hatte ich mal die Whitelist A-Za-z0-9.,!?-äöüÄÖÜß vorgeschlagen.

stergro · December 18, 2019, 4:14am

Hey @jf99 super, danke für die Unterstützung. Ja das mit den Fremdwörtern sehe ich so wie du. Ich habe zwar nicht mit einer Whitelist gearbeitet aber mit einer relativ langen Blacklist:

[ð|ð|À|Á|Â|Ã|Å|Æ|Ç|È|É|Ê|Ë|Ì|Í|İ|Î|Ï|Ð|Ñ|Ò|Ó|Ô|Õ|Ø|Ù|Ú|Û|Û|Ý|Ž|à|á|â|ã|å|æ|ç|è|é|ê|ë|ì|í|î|ï|ð|ñ|ò|ó|ô|õ|ø|ù|ú|û|ý|þ|ÿ|ā|ă|ą|ć|ċ|č|ď|đ|ē|ĕ|ė|ę|ě|ğ|ġ|ģ|ħ|ĩ|ī|ĭ|į|ı|ķ|ĸ|ĺ|ļ|ľ|ŀ|ł|ń|ņ|ņ|ṫ|š|Ў|ḃ|ḋ|ḟ|ṁ|ṗ|ṡ|ẁ|ẃ|ẅ|ẛ|ỳ|α|β|Γ|γ|Δ|δ|ε|ζ|η|Θ|θ|ι|κ|Λ|λ|μ|ν|Ξ|ξ|Π|π|ρ|Σ|σ|ς|τ]

Damit ist schon ein Großteil abgedeckt, evtl verbessere ich es aber noch weiter.

stergro · December 18, 2019, 10:20am

Ein Problem scheint die alte Rechtschreibung zu sein, “daß” kommt z.B. über 8500 mal in der Sammlung vor.

stergro · December 19, 2019, 8:44am

Der Pull-Reqest wurde erst einmal geschlossen bis es einen einheitlichen Prozess für solche Datensätze gibt.

jf99 · December 22, 2019, 12:33pm

Auch wenn der PR erst mal geschlossen wurde, habe ich mir deine 200 Sätze vorgenommen (Sample 1 und Sample 2). Dabei habe 16 “auffällige” Sätze gefunden, darunter:

2 harte Fehler (“Ghaben”, “Umlagesysystem”)
1 Satz, der Fremdsprachenkenntnisse erfordert (“fiche d’impact”)
11 Sätze mit alter Rechtschreibung
1 fehlendes Komma
1 mal fehlerhafte Groß-/Kleinschreibung

Schlussfolgerung: Falsche Zeichensetzung und Groß-/Kleinschreibung sind zwar unschön, werden zumindest bei DeepSpeech aber ohnehin (noch?) ignoriert.

Die alte Rechtschreibung hätte ich schon gerne korrigiert. Leider scheint es da keine automatisierten Tools zu geben. Man könnte alle Wörter mit ß automatisiert in Wiktionary nachschlagen und - falls nicht existent - schauen, ob es dasselbe Wort stattdessen mit ss gibt. Das ist aber schon nicht mehr trivial zu programmieren. Oder man filtert alle Sätze mit ß heraus. Oder man ersetzt einfach alle ß mit ss. Das führt zwar zu neuen Fehlern, aber wahrscheinlich behebt man am Ende mehr, als man neu einführt (ggf. abhängig davon, aus welchem Jahr die entsprechende Quelle stammt).

Die übrigen 1,5 % kann man tolerieren, denke ich.

stergro · December 23, 2019, 8:10am

Danke, das ist sehr hilfreich. Ich habe schon darüber nachgedacht die häufigsten Änderungen der Rechtschreibreform einfach per suchen und ersetzen zu ändern. Das führt dann aber wahrscheinlich zu gemischten Schreibweisen innerhalb eines Satzes.

Im Grunde genommen ist es ein Glücksfall, dass dieser Datensatz erst Ende der 90er beginnt. Auf Deutsch kann man wegen der Rechtschreibreform kaum alte gemeinfreie Werke benutzen.