Wie findet man gute neue Sätze für Common Voice?

@Bullnados hat das Thema in einem anderen Thread begonnen. Ich würde das gerne in diesen Thread auslagern.

Nicht jugendfreie Wörter sind derzeit nicht erwünscht. Einkaufslisten, Befehle und Länder / Städte haben wir schon. Das heißt aber nicht, dass wir nicht noch mehr davon gebrauchen können. Bloß bitte nicht ganz viele Sätze nach dem gleichen Schema. Ich glaube, inzwischen ist jeder genervt von: “X ist die Hauptstadt von Y.” Sowas kann außerdem zu Overfitting beim Deep Learning führen. Also eher versuchen, Ortsbezeichnungen oder was auch immer in alltägliche Sätze einzubauen.

Ich persönlich mache das so: Ich habe verschiedene Listen, die ich immer ergänze, wenn mir neue Dinge einfallen. Das sind z.B. Listen für Vornamen, (häufige) Nachnamen, Städte, Redensarten oder auch unsortierte Nomen, Verben und Adjektive. Von Zeit zu Zeit gehe ich die Listen durch und Forme Sätze aus ihnen.

Allgemein hilft es, im Alltag die Ohren offenzuhalten. Ob im Gespräch mit Freunden, in der Kantine, beim Sport, beim Schauen von Nachrichten oder bei mitgehörten Gesprächen an der Ampel. Wenn jemand irgendeine Bemerkung macht, bei der man denkt: “Solche Sprüche/Themen/Redewendungen/Whatever gehören für viele Leute zur Alltagssprache”, dann schreibt man sich das bei der nächsten Gelegenheit auf.

Eine andere Sache, die ich gelegentlich mache, ist Themen zu Sätzen verarbeiten, mit denen man beruflich, im Studium oder in der Freizeit gerade zu tun hat. Es sollte allerdings tendenziell nichts total akademisches sein, womit niemand im Alltag zu tun hat. Aber wenn einem z. B. eine Glühbirne kaputtgeht, warum nicht einfach mal ein paar Sätze dazu schreiben? Wieso geht die schon wieder kaputt? Woran liegt es, dass das immer beim Einschalten passiert? Wären Energiesparlampen oder LEDs nicht viel besser? Obwohl, die haben andere Nachteile. Und so weiter, und so fort. Aus so einer simplen Alltagssituation kann man richtig viel Text rausholen.

1 Like

Weitere Ideen:

  • Lass dich mal so richtig über deine Nachbarn, Mitbewohner, Kollegen oder andere Verkehrsteilnehmer aus (ohne die wahren Namen zu nennen!).
  • Schlüpfe in die Rolle eines Opas, der sich über die Jugend von heute aufregt.
  • Führe ein Gespräch als Verkäufer, Arzt, Psychologe, Handwerker, Fußballspieler oder Lehrer.
  • Beobachte bei deiner täglichen Fahrt zur Arbeit die Leute in der S-Bahn. Schreibe dir auf, wie sie aussehen, gekleidet sind, sich verhalten, mutmaße welchen Beruf sie ausüben etc.
  • Baue Anspielungen auf Filme, Internetphänomene oder Videospiele ein. Das Verstehen zwar vielleicht nur 5 % der Leser, die bringst du damit aber vielleicht zum Schmunzeln. Die restlichen 95 % fragen dann halt unschuldig wie ein Kind, warum hier Stroh rumliegt.
  • Erkläre die Regeln irgendeines Spiels (z. B. Völkerball, Skat, Counter-Strike, Topfschlagen).
  • Schreib ein Kochrezept auf.
  • Reagiere auf bereits existierende Sätze. Beantworte Fragen, korrigiere (inhaltlich) Aussagen, denen du nicht zustimmen würdest, ergänze sie usw.

Mangel an Ideen sollte eigentlich kein Problem sein. Der limitierende Faktor ist für mich eigentlich immer die Zeit.

1 Like

Deine Stoffsammlung liegt wohl gerade “voll im Trend” und hätte sicher Chancen, in Meinungsartikeln in Bento, Ze.tt oder im SZ-Magazin zu erscheinen. Ich wundere mich jeden Tag, wie ausgiebig da über für mich eher irrelevante Themen geschrieben wird. Glühbirnen werden sofort ausgewechselt. Basta. Kochrezepte weiß ich auswendig. Es gibt Wichtigeres - ja, vor allem Akademisches. Aber schön, dass andere gern über Games und Sport schreiben, das muss es ja auch geben. :slight_smile: Leider muss ich oft seitenlange Passagen über die Kleidung von Protagonisten übersetzen, was ich quälend langweilig finde. Das überlasse ich gern Dir. Und warum sollte ich mich in einen schimpfenden Opa versetzen? Oder Fußballer? Dazu habe ich keine Lust. Wie Mitpassagiere sich kleiden oder benehmen, interessiert mich auch nicht, ich sperre nur die Ohren weit auf, weil ich das Gehörte später noch gut verwenden kann. Wenn ich mich nur nicht so über die häufigen Sprachschnitzer ärgen müsste … Besser wie [sic], drinne [sic] … Selbst aus gebildetem Mund. Schade. :laughing:

hallo @monscampus,

ich kann verstehen das dir nicht alle Sätze gefallen, aber dafür gibt es ja den “Überspringen”-Button :slight_smile:

Wir haben eher das umgekehrte Problem. Da Millionen von Sätzen aus der Wikipedia importiert wurden haben wir fast nur noch “akademische” oder zumindest lexikale Sprache und die normale gesprochene Sprache aus dem Alltag ist unterrepräsentiert. Das ist natürlich schlecht für Systeme die im Alltag eingesetzt werden sollen. Deswegen steht oben der Aufruf wieder mehr Sätze zu sammeln die der gesprochenen Sprache entsprechen und von alltäglichen Dingen handeln.

Hallo, Stefan. Da ich die Wikipedia normalerweise nur als Informationsquelle nutze, kenne ich dieses Problem bisher nicht. Mir ist schon klar, dass nicht alle im Alltag verschiedenen Textsorten ausgesetzt sind, da bin ich dann wohl im Vorteil. Schauen wir mal. :slightly_smiling_face:

Natürlich darf jeder (im Rahmen der Regeln) beitragen, was er will. Und Geschmäcker sind bekanntlich unterschiedlich. Anhand deiner bisherigen Posts hier würde ich dich, @monscampus, als eher sachorientierten Menschen einschätzen. Das ist okay, aber auf die Mehrheit der Menschen trifft das wohl eher nicht zu.

Seit wir Wikipedia-Sätze haben, verfügen wir über einen großen Schatz sehr sachlicher Sätze, meist in der dritten Person oder sogar im Passiv geschrieben und mit vielen Fremdwörtern und Fachbegriffen gespickt. In der Alltagskommunikation hingegen werden von den meisten Leuten eher erste und zweite Person und Umgangssprache verwendet. Auch das wollen wir abbilden, weshalb ich potenzielle Autoren insbesondere zu diesem Stil ermutigen möchte.

“Eher sachorientiert” trifft es nur zu 50 Prozent. Die andere Hälfte ist Schöne Literatur, teilweise aber auch die eher dem Massengeschmack entsprechende, weil sich die nun mal besser verkauft. So wird mir nie langweilig, ich kann mich überall austoben. Alltagsprosa ist mir auch vertraut, nur verabscheue ich Smalltalk, was angeblich eine typisch deutsche Eigenschaft ist. Männern wird überwiegend Interesse an Sachthemen nachgesagt, Frauen an Klatsch und Tratsch. Warum ist das so? Das muss ich nicht unbedingt wissen. Die Publikumsverlage haben aber großes Interesse daran, die Leserschaft nicht durch zu viele Fremdwörter und komplizierte Satzkonstruktionen zu verschrecken. Passivkonstruktionen gelten als ganz schlechter Stil und sind möglichst zu meiden. Auch Wikipedia-Beiträge mit wissenschaftlichem Inhalt lassen sich mit wenigen Mitteln lesbarer (leserfreundlicher) gestalten - nicht immer locker-flockig wie in der Boulevardpresse, aber doch eingängiger. Ich tue, was
ich kann. Mit großem Interesse verfolge ich Leserkommentare zu Trashsendeformaten (die ich nicht selbst sehe - langweilig!). Das sind in erster Linie Kommentare zu Artikeln über das Dschungelcamp. Die Verfasserin wird von den Leserinnen wie eine Heilige verehrt, weil sie sich in völlig überfrachteten Wortspielen austobt, was gar nicht zu Trash passt. Warum kriegen die Zuschauer nie genug von solchem Zeug? Na, egal. Jedenfalls ist es nicht unter meiner Würde, mir umgangssprachliche Sätze für Common Voice auszudenken.

In anderen Sprachen haben auch Leute ihren Chatverlauf gespendet und somit mit einem Mal eine ziemlich hohe Zahl von Sätzen in natürlicher Sprache gehabt. Man muss natürlich aufpassen dass man nur belanglose Gespräche spendet und das Korrekturlesen ist in diesem Fall besonders wichtig.