Europarl Datensatz mit hunderttausenden Sätzen aus EU-Debatten

Der Europarl Datensatz enthält Reden aus dem EU-Parlament in allen ofiziellen EU Sprachen aus der Zeit 1996 - 2011: http://www.statmt.org/europarl/

Hier der Englische Thread zum Thema.

Ich habe den deutschen Datensatz ein wenig bearbeitet und an die Anforderungen von Common Voice (maximal 14 Wörter usw.) angepasst. Übrig bleiben über 300 000 Sätze. Meinen aktuellen Arbeitsstand findet ihr hier auf GitHub.

Hier eine Beispielsammlung von 100 zufällig angewählten Sätzen:

Noch zu tun:

  • Sätze mit Abkürzungen löschen, das geht theoretisch auch automatisiert, aber meine Befehle funktionieren im Moment noch nicht so wie ich will.

Aus dem Englischen Thread geht hervor, dass wir jetzt drei Möglichkeiten haben:

  1. Wir importieren die Sätze nicht, weil sie zu politisch sind.
  2. Wir importieren die Sätze in den Sentence Collector und müssen sie manuell validieren.
  3. Wir machen einen QA-Prozess wie bei den Sätzen aus der Wikipedia. d.h. mehrere Leute schätzen die Fehlerrate von zufällig ausgewählten Sätzen. Wenn die Fehlerrate gering ist wird die gesamte Sammlung importiert.

Nachdem ich jetzt ein wenig mit den Sätzen gearbeitet habe würde ich zu Lösung 3 tendieren weil ein manuelles Validieren von so vielen Sätzen extrem lange dauern würde und weil der Anteil von problematischen Sätzen meiner Meinung nach sehr gering ist.

Wie steht ihr dazu?

Fände ich gut, habe aber bisher keine der Sätze durchgelesen, d.h. kann nicht sagen, wie hoch die Fehlerrate ist.

Ich weiß nicht mehr wie ich den Datensatz weiter bereinigen kann, deswegen habe ich einen Pull-Request mit etwa 379 000 Sätzen aus diesen Datensatz gemacht. Im Pull-Reqest findet ihr zwei Beispieldatein mit je 100 zufällig generierten Sätzen.:

Ich werde selbst 100 Sätze durchschauen und die Fehlerrate schätzen, ich brauche jetzt noch zwei bis drei andere Leute, die auch noch die Fehlerrate schätzen. Würdet Ihr hier vielleicht helfen @mkohler @jf99 @monscampus @ratzer @Jenna ?

Eine einfache Zahl wie z.B. “5 von 100 Sätze sind falsch/ungeeignet” genügt.

@stergro Danke für deine Arbeit! Ich werde auch einige Sätze lesen und die Fehlerrate schätzen. Gib mir aber noch Zeit bis zum Wochenende. Möglichkeit 2 würde ich definitiv ausschließen. Wenn wir den Sentence Collector mit 300.000 Sätzen verstopfen, hat es überhaupt keinen Sinn mehr, eigene beizutragen.

Variante 3 klingt gut. Mir wäre wichtig, nicht denselben Fehler zu wiederholen wie beim Wikipedia-Import. Dort waren sehr viele schwer auszusprechende Fremdwörter enthalten. Man hätte es vor dem Import beheben können, aber anscheinend war es wichtiger, den geplanten Termin einzuhalten. Ich könnte mir vorstellen, dass das Vorleser gekostet und die Qualität der gesammelten Sprachdaten verschlechtert hat. Daher bitte ich dich, alle Sätze mit fürs Deutsche untypischen Zeichen (Akzente, Zeichen wie “ø” usw.) herauszufiltern, falls noch nicht geschehen. In einem anderen Thread hatte ich mal die Whitelist A-Za-z0-9.,!?-äöüÄÖÜß vorgeschlagen.

Hey @jf99 super, danke für die Unterstützung. Ja das mit den Fremdwörtern sehe ich so wie du. Ich habe zwar nicht mit einer Whitelist gearbeitet aber mit einer relativ langen Blacklist:

[ð|ð|À|Á|Â|Ã|Å|Æ|Ç|È|É|Ê|Ë|Ì|Í|İ|Î|Ï|Ð|Ñ|Ò|Ó|Ô|Õ|Ø|Ù|Ú|Û|Û|Ý|Ž|à|á|â|ã|å|æ|ç|è|é|ê|ë|ì|í|î|ï|ð|ñ|ò|ó|ô|õ|ø|ù|ú|û|ý|þ|ÿ|ā|ă|ą|ć|ċ|č|ď|đ|ē|ĕ|ė|ę|ě|ğ|ġ|ģ|ħ|ĩ|ī|ĭ|į|ı|ķ|ĸ|ĺ|ļ|ľ|ŀ|ł|ń|ņ|ņ|ṫ|š|Ў|ḃ|ḋ|ḟ|ṁ|ṗ|ṡ|ẁ|ẃ|ẅ|ẛ|ỳ|α|β|Γ|γ|Δ|δ|ε|ζ|η|Θ|θ|ι|κ|Λ|λ|μ|ν|Ξ|ξ|Π|π|ρ|Σ|σ|ς|τ]

Damit ist schon ein Großteil abgedeckt, evtl verbessere ich es aber noch weiter.

Ein Problem scheint die alte Rechtschreibung zu sein, “daß” kommt z.B. über 8500 mal in der Sammlung vor.

Der Pull-Reqest wurde erst einmal geschlossen bis es einen einheitlichen Prozess für solche Datensätze gibt.

Auch wenn der PR erst mal geschlossen wurde, habe ich mir deine 200 Sätze vorgenommen (Sample 1 und Sample 2). Dabei habe 16 “auffällige” Sätze gefunden, darunter:

  • 2 harte Fehler (“Ghaben”, “Umlagesysystem”)
  • 1 Satz, der Fremdsprachenkenntnisse erfordert (“fiche d’impact”)
  • 11 Sätze mit alter Rechtschreibung
  • 1 fehlendes Komma
  • 1 mal fehlerhafte Groß-/Kleinschreibung

Schlussfolgerung: Falsche Zeichensetzung und Groß-/Kleinschreibung sind zwar unschön, werden zumindest bei DeepSpeech aber ohnehin (noch?) ignoriert.

Die alte Rechtschreibung hätte ich schon gerne korrigiert. Leider scheint es da keine automatisierten Tools zu geben. Man könnte alle Wörter mit ß automatisiert in Wiktionary nachschlagen und - falls nicht existent - schauen, ob es dasselbe Wort stattdessen mit ss gibt. Das ist aber schon nicht mehr trivial zu programmieren. Oder man filtert alle Sätze mit ß heraus. Oder man ersetzt einfach alle ß mit ss. Das führt zwar zu neuen Fehlern, aber wahrscheinlich behebt man am Ende mehr, als man neu einführt (ggf. abhängig davon, aus welchem Jahr die entsprechende Quelle stammt).

Die übrigen 1,5 % kann man tolerieren, denke ich.

1 Like

Danke, das ist sehr hilfreich. Ich habe schon darüber nachgedacht die häufigsten Änderungen der Rechtschreibreform einfach per suchen und ersetzen zu ändern. Das führt dann aber wahrscheinlich zu gemischten Schreibweisen innerhalb eines Satzes.

Im Grunde genommen ist es ein Glücksfall, dass dieser Datensatz erst Ende der 90er beginnt. Auf Deutsch kann man wegen der Rechtschreibreform kaum alte gemeinfreie Werke benutzen.