Der Europarl Datensatz enthält Reden aus dem EU-Parlament in allen ofiziellen EU Sprachen aus der Zeit 1996 - 2011: http://www.statmt.org/europarl/
Hier der Englische Thread zum Thema.
Ich habe den deutschen Datensatz ein wenig bearbeitet und an die Anforderungen von Common Voice (maximal 14 Wörter usw.) angepasst. Übrig bleiben über 300 000 Sätze. Meinen aktuellen Arbeitsstand findet ihr hier auf GitHub.
Hier eine Beispielsammlung von 100 zufällig angewählten Sätzen:
Noch zu tun:
- Sätze mit Abkürzungen löschen, das geht theoretisch auch automatisiert, aber meine Befehle funktionieren im Moment noch nicht so wie ich will.
Aus dem Englischen Thread geht hervor, dass wir jetzt drei Möglichkeiten haben:
- Wir importieren die Sätze nicht, weil sie zu politisch sind.
- Wir importieren die Sätze in den Sentence Collector und müssen sie manuell validieren.
- Wir machen einen QA-Prozess wie bei den Sätzen aus der Wikipedia. d.h. mehrere Leute schätzen die Fehlerrate von zufällig ausgewählten Sätzen. Wenn die Fehlerrate gering ist wird die gesamte Sammlung importiert.
Nachdem ich jetzt ein wenig mit den Sätzen gearbeitet habe würde ich zu Lösung 3 tendieren weil ein manuelles Validieren von so vielen Sätzen extrem lange dauern würde und weil der Anteil von problematischen Sätzen meiner Meinung nach sehr gering ist.
Wie steht ihr dazu?