Russian senteces are low quality

From my point of view, as a native speaker of the Russian language, sentences have a variety of problems:

  1. Russian sentences have a very strong political bias, and strong clericalism. In life, not so many people speak in that way, and I’m afraid that the neural network will have issues with sentences recognition based on such a dataset.

  2. Many sentences in the dataset are duplicated: they differ in several words, or even letters. I will give an example:

Выступление президента Республики Кипр.
Выступление президента Республики Палау.
Выступление президента Республики Перу.
Выступление президента Республики Польша.
Выступление президента Республики Суринам.
Выступление президента Республики Хорватия.
Выступление президента Республики Чад.
Выступление президента Республики Чили.
Выступление президента Республики.

or

Благодарю посла Германии за его заявление, за его объявление и за его добрые слова.
Благодарю посла Демиралпа за его заявление.
Благодарю посла Египта за ее заявление.
Благодарю посла Звекича за его заявление.
Благодарю посла Илиопулоса за его выступление от имени Европейского союза.
Благодарю посла Индии за его выступление и предоставляю слово послу Венесуэлы.
Благодарю посла Индии за ее заявление.
Благодарю посла Ирана за его выступление.
Благодарю посла Испании за его заявление и за его добрые слова.
Благодарю посла Италии за его замечания и за его теплые слова.
Благодарю посла Италии за его заявление.
Благодарю посла Казахстана за его заявление и за его добрые слова.
Благодарю посла Канады за ее заявление.
Благодарю посла Кеннеди за ее заявление и теперь предоставляю слово послу Марокко.
Благодарю посла Кеннеди за ее заявление.
Благодарю посла Китая за его заявление и за его поддержку.
Благодарю посла Китая за его заявление.
Благодарю посла Китая.

or

Бангладеш имеет честь руководить этим процессом.
Бангладеш имела честь руководить этим процессом.

There is a suspicion that this dataset was artificially generated. There is no sense from this amount of such similar political sentences.

  1. The texts have a one-sided political bias, they lack, for example, culinary category, or computer subjects. The texts do not have modern slang or modern language turns, such as “туса”, “инстаграм”, “видос”, “звякнуть”, “чекнуть”, “кек” and the like.

  2. The texts simply do not have a huge number of words used in everyday life.

  3. For now, Russian section at common-voice.github.io has a huge queue of texts, but, apparently, there are no more people who check them.

So, I have a few questions/suggestions:

  1. Can we remove a huge number of unnecessary similar political sentences?
  2. Found a repo with russian sentences dataset: https://github.com/Koziev/NLP_Datasets The author automatically collected texts from fiction. However, I’m not sure that he will be able to provide a source for each sentence, although he will probably be able to publish his dataset under CC0.
  3. I have the scientific work of my own author, can I provide my work as senteces source, or should I first publish it somewhere under the CC0?
  4. So far, your auto-collection tool from Wikipedia is being tested, maybe it makes sense to use an automatic text generator built on a neural network? For example, for the Russian text there is such project: https://text.skynet.center (https://github.com/mgrankin/ru_transformers). The result is meaningful, and the authors completely abandon the copyright to all generated texts.
  5. Well, is it possible to somehow add sentences without waiting for someone who once checks them? We should wait for an eternal check? For a while, @lipkij actively participated in moderation here, but now he seems to have left the project.

Issue for this topic on Github: https://github.com/mozilla/voice-web/issues/2497

For example auto-generated text:

А можно играть злодеями и бандитами.
Единственное условие - чтобы он сам был злодеем и бандитом...
Но в некоторых модификациях героев могут перевоспитывать и играть разные люди...
Джентльмены, выполняйте инструкции.
И, извините за подробности.
Очень серьезный документ.

or

А когда кончили, в дверь постучали.
Дверь открылась, и показалось лицо с большим носом.
Оно было красным, опухшим и страшным.
Мужик с голым животом вытаращил глаза, схватил лежащего рядом пса и кинулся наутек.
Хозяин погнался за ним, и все трое скрылись в хате.

As for me, it is very similar to human, I can’t determine that it was auto-generated.

This seems to be very helpfull. For example in dataset there is no senteces related to culinary, but it is possible to be simply generated. We can select topic and have the result senteces related to it:

Разбить яйцо и хорошенько размешать.
В конце добавь яичный желток.
Помешивай молоко, пока оно не загустеет.
Взбить миксером и заправить чесноком и сухариком.
Свежие яйца на стол подавайте с зеленью.
Приятного аппетита!
Добавить масло и растопленное молоко.
Хорошенько вымешать и смешать с остальными ингредиентами, кроме творога, ванили, взбитых белков, сахарной пудры.
Хранить в холодильнике не более 5 дней.
А на ночь выпивать 1 рюмку коньяку с сахаром и 1  ч. л. сахарного песка.
Смазать яйцо оливковым маслом.
Выпекать в духовке около 15 минут.
Вынуть из духовки, остудить.

Found similar question about ML here and found question from @nukeador:

Did you use any material for training your model that specifically forbids its use for training machine learning?

I do not know about what was used for pretrained model. But I have NVIDIA 2080 and I can try collect data from Wikipedia/CC-BY/others, put it to NN, and we will have a result.

How similar are the sentences generated from the sentences you used for training?

It is difficult to determine the match with the source, since the generation is based on a VERY large amount of data. Texts generated are similar, but different. Firstly, there are no identical sentences. Secondly, the final sentences are different in meaning from the original ones. I gave an example above:

А на ночь выпивать 1 рюмку коньяку с сахаром и 1  ч. л. сахарного песка.

Translated into English, this means

And at night, drink 1 glass of brandy with sugar and 1 tsp. granulated sugar.

Here you can see that this is not a real recipe, but created by a neural network.

In general, if this topic is interesting, I can find the time, train the model and provide the necessary results, just tell me what you need to learn and show.

Hi,

My advise would be to focus your efforts getting Russian wikipedia sentences using our process:

This will bring a lot of diversity to the sentences really quickly.

Once that is done, we can continue the conversation about machine generated sentences so we can understand the legal limitations around it for each particular tool.