Hallo zusammen
Ich habe Mal mit dem WikiExtractor und unserem Script 1’853’233 Sätze von Wikipedia auf Deutsch abgezapft. Wir würden gerne per Ende Woche den kompletten Export in Common Voice importieren und benötigen daher eure Hilfe. Wäre super, wenn ihr mir helfen könntet die Muster des untenstehenden Datensets zu überprüfen, damit wir die Fehlerrate möglichst klein halten können. Natürlich können wir in dieser Zeit nicht das komplette Datenset überprüfen, aber eine kleine Fehlerquote ist akzeptabel.
Randnotiz: dies ist nicht das komplette Datenset, welches wir von Wikipedia verwenden können. Ich habe einfach bei dieser Anzahl abgebrochen, damit ich Mal was posten kann. Geschätzt sind da nochmal eine Million Sätze möglich aus den restlichen Artikeln.
Muster 1 (100 Sätze): https://send.firefox.com/download/f17c118abead1cf9/#2GILabTyFf-dB9Qdkx25gg
Muster 2 (100 Sätze): https://send.firefox.com/download/f7dfbf8ec42faa0e/#-ixGK3_rl1MT7rtzHnJwhQ
“Komplettes” Datenset: https://send.firefox.com/download/d6bb5fd4c9b44931/#-DMBOhQtME8EC5BkPWJ_9g
Fragen für euch:
- Aus den beiden Mustern, wie viele Sätze sind schwierig auszusprechen?
- Aus den beiden Mustern, wie viele Sätze sind falsch?
Hier sind einige Sachen die mir bereits aufgefallen sind…
(nicht zwingend aus den Mustern, ich habe das komplette Datenset stichprobenmässig angeschaut)
Sollen wir das Minimum an Wörter anheben?
- Boncompagni, vol.
Möglicherweise mit einer Regel, dass ein Punkt nur am Ende des Satzes sein darf?
- Wie auch in vielen anderen Sprachen – vgl. frz.
Sollen wir französische Akzente verbieten? Weiss gerade nicht, ob es “richtige” deutsche Wörter mit solchen Akzenten gibt?
- Sein Grab liegt auf dem Pariser Friedhof Père Lachaise.
Was aus meiner Sicht bestimmt gemacht werden muss:
- “ggf.” als Abkürzung hinzufügen - kann leider am Ende des “Satzes” stehen - “Dabei muss ggf.” - siehe unten für Erklärung
Teilsätze
Es kann sein, dass diverse Teilsätze im Datenset vorhanden sind. Wir müssen dies diskutieren, habe aber gerade selbst keine Idee, wie das gelöst werden könnte. Ausserdem muss ich abklären, ob das überhaupt ein Problem ist (abgesehen davon, dass das Benutzer verwirren könnte). Ich gehe davon aus, dass dies nur ein sehr kleiner Anteil ist.
Das Problem liegt darin, dass der WikiExtractor (nicht von uns) z.T. Sätze bereits falsch splittet. So wird z.B. (frei erfunden) “In der 3. Stunde wird in Mathe etwas gelernt.” zu “In der 3.” und “Stunde wird in Mathe etwas gelernt”. Der erste Satz fällt raus, da er eine Nummer enthält. Für den zweiten Satz haben wir keinen Anhaltspunkt, dass dieser nicht ganz komplett ist. Was wir in den Regeln bereits haben, ist dass ein Satz mit einem Grossbuchstaben anfangen muss, so eliminieren wir bereits einige dieser Fälle, aber halt nicht alle.
Den WikiExtractor anzupassen wäre wohl einiges an Aufwand, habe aber nicht nachgeschaut wie der funktioniert. Falls dies jemand anschauen möchte, gerne
Gibt es andere Ideen, wie dies gelöst werden könnte, falls dies überhaupt ein Problem ist?
Danke für eure Mithilfe!
PS: die momentanen Regeln findet ihr übrigens hier: https://github.com/Common-Voice/common-voice-wiki-scraper/blob/master/src/rules/german.toml