Okay I opened an isse about the whitelist here #50 and there is already an old Isse about converting abbrevations: #9
- I couldn’t install “cargo” so another Basque contributor made the extraction for me.
- Basque Wikipedia’s result is available here (25MB): https://ikusimakusi.eus/bitartekoak/wiki.eu.txt
- It contains about 399.474 rows, 200.362 of them repeated. So the unique sentences on the file (after a
sort -u
) are 49,85%. - I checked the first 100 sentences and 90 are right. 10 are wrongly cut apparently because the same reason; all they start with “mendean” [in the century], probably because the scrapper cuts sentences like “XX. mendean…” [in the 20th century…] as “XX.” and “mendean…”.
- Basque, as other languages, uses Roman numerals to express centuries. But surely the problem isn’t that, but that Basque uses dot character to separate sentences but also to express ordinals: “1. atera” [To the 1st gate], “2. atean” [On the 2nd gate] “XIII. mendea” [13rd century], etc.
- As we don’t want acronyms nor digits on Common Voice’s sentences, I think this cutting problem (at least for Basque language) could be fixed skipping digits (
[0-9]
) and contiguous upper-cases ([A-Z][A-Z]
). This wouldn’t fix Roman ordinals with just one character like “I”, “V” and “X” but would help. It’s just an idea…
- As we don’t want acronyms nor digits on Common Voice’s sentences, I think this cutting problem (at least for Basque language) could be fixed skipping digits (
- Basque, as other languages, uses Roman numerals to express centuries. But surely the problem isn’t that, but that Basque uses dot character to separate sentences but also to express ordinals: “1. atera” [To the 1st gate], “2. atean” [On the 2nd gate] “XIII. mendea” [13rd century], etc.
These are great advances @txopi
You might be able to play with the rules files and the blacklist to avoid Roman ordinals. Other people in this topic would be able to help with the regex.
Once you have a set of rules and blacklist that produce an output that is rated as <7% error rate by 2-3 native speakers, feel free to open a PR adding the following information:
- How many sentences are you getting?
- How did you create the blacklist? (specify the criteria, i.e words with <80 repetitions)
- Get 2-3 additional native speakers (ideally some linguistics) to comment here with the estimated error rate. You can share with them a few samples of 500 random sentences from your output.
Cheers.
Hi, trying to collect for russian and
in step:
cargo run – extract -l russian -d …/wikiextractor/text/ >> wiki.ru.txt
there is error:
Compiling punkt v1.0.5
error[E0554]: #![feature] may not be used on the stable release channel
–> /home/user/.cargo/registry/src/github.com-1ecc6299db9ec823/punkt-1.0.5/src/lib.rs:141:1
|
141 | #![feature(proc_macro_hygiene)]
| ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
error: aborting due to previous error
For more information about this error, try rustc --explain E0554
.
error: Could not compile punkt
.
To learn more, run the command again with --verbose.
Could you help with this?
You will need to run Rust nightly as commented in the README:
Feel free to open github issues if you are still facing any issues.
Thanks!
We keep working on this. Basque language has a lot of declensions (suffixes), so the automatic black list has lots and lots of correct words. We have been cleaning it (just partially) because we didn’t want to reject so many correct sentences of the Basque Wikipedia.
We finally achieved an acceptable result, so we can continue with the process! More info soon.
After some installation hassle, I finally was able run the script for Frisian. I lowered the threshold for generating the blacklist to 50. Still see some very useful words in that list, so going to lower it again. As a test I ran the scraper which ended up with 22.500 sentences. As mentioned above there are a number of incomplete sentences due to abbreviations. A list with known abbreviations with their full explanation would result in more sentences.
Gonna experiment some more with settings and take a closer look at the results.
Did some more experiments and finally end up with almost 60k sentences. These have to be enhanced with a solution for abbreviations, otherwise there are too many shortened sentences. So next to the rules in <language>.toml
and the blacklist (best result with the frequency limit set to 1 for Frisian), there has to be a file with known abbreviations with something like:
e.g. = for example
i.e. = in other words
…
Next up , Dutch (will probably take up more time generating )
Ran the Dutch version overnight. Blacklist generation set to 70. Added some extra less used characters to avoid foreign words.
Finally ended up with 1.25 million sentences!
Ran a quick test and I think these are for the majority good sentences. Luckily not that many abbreviations (e.g. 4.000 for ‘ca.’) and with so many sentences we could decide to just put them in the rules with disallowed symbols.
I think I am going to run it once again with a blacklist generation set to 100 and known abbreviations.
To be continued, but this is very hopeful.
Successfully collected sentences for Russian language without stop words and with some settings in abbreviation_patterns, disallowed_symbols. Got the following result at the end:
file_name = "../wikiextractor/text/CG/wiki_17"
avg = 65.47661916007723
count = 2553330
Sample from output file
$ shuf -n 300 wiki.ru.txt
Входит в состав района Рюген.
Кафедральным собором архиепархии Калабара является собор Святого Иосифа.
Одну из ампул Тереза вкалывает Алби и, похоже, лекарство помогает.
Родился в Бессарабии, Одесская область, Украина.
Гексахлорорениевая кислота образует зелёно-коричневые растворы.
Воспитанник клуба «Нови-Йичин».
Внешне машина отличалась, в первую очередь, иной маской радиатора, с полукруглым сечением.
Авторами песни являются Марко Менгони, Роберто Казалино и Франческо Де Бенедеттис.
Дмитрий Мусэрский родился и провёл детство в Макеевке.
Николая Чудотворца Вревского погоста.
Став главой жемчужной станции в Британской Новой Гвинеи, он изучал причины образования жемчуга.
Позднее выступал в любительских турнирах по футзалу в команде «Удар» Нижние Серогозы.
Южнее находится Бобьяково.
Окончил трёхлетнюю церковно-приходскую школу.
Начал политическую карьеру ещё в период принадлежности Коморских островов Франции.
Аксональные отростки нейронов отвечают за передачу потенциала действия от тела нейрона к синапсу.
Служил на Карельском фронте.
Достаточно хорошо приспособлена для жизни в квартире.
В игре также присутствует возможность маскировки и система отвлечения, чтобы избежать столкновений с зомби.
И даже то, что Синдикат также замешан в этой афере, их нисколько не страшит.
Затем взять ключ и, наконец, покинуть уровень через открывшуюся после взятия ключа дверь.
Результаты группового этапа учитывались в квалификационном турнире и финальных играх.
Родился в семье инженера, впоследствии — участника Великой Отечественной войны, ставшего профессиональным военным.
Все переменные туманности довольно слабы.
В целом, отобранные кластеры обладают значительным потенциалом роста.
Пилот и пассажир располагались рядом в двухместной кабине.
Административный центр — посёлок Восточный.
Также используются сарамакканский и сранан-тонго языки.
Давай, брат, воспарим…».
Правый приток Редница.
Кризис завершился смещением и изгнанием президента Селайи гондурасскими военными в результате государственного переворота.
Имущество выселяемых было конфисковано и обращалось на покрытие затрат по государственным обязательствам.
Расколоть яйцо — означает разбить семью и будущее, иными словами — обрести свободу.
Входит в состав Дардамтинского сельского округа.
Выступал за английские клубы «Сток», «Нортгемптон Таун», «Бернли», «Манчестер Юнайтед» и «Порт Вейл».
Двукратный чемпион Казахстана.
Украшения располагались на голоменях в нижней и верхней части клинка, а также на обухе.
Фамилия Штин произошла от идишского слова «штейн», которое означает «камень».
Турниру посвящены конверты, почтовые марки и значки.
Самый динамично развивающийся город в провинции.
Сын выходца из Нагорного Карабаха; родился и большую часть жизни провёл в Баку.
Голова крупная с продольными килями на лбу.
Далеко-далеко, до Кирхгофской горы, увенчанной башенками лютеранской кирхи.
Целью экспедиции был поиск короткого пути к Северному полюсу через Берингов пролив.
Расстояние до районного центра Бурейского района пос.
Исторически являлся главным городом провинции Руссильон.
Павсаний матерью Евандра называет нимфу, не приводя имени, дочь Ладона.
После окончания консерватории работал концертмейстером-аккомпаниатором в балетной труппе Мариинского театра.
Малая Азия: Турция.
Балагер назначил Аббеса консулом в Японию, удалив его тем самым из центра внимания.
Входит в состав Боралдайского сельского округа.
Слово может быть родственно «семья», «семья, дом».
В районе города осуществляется добыча золота.
Часовня, хлебозапасный магазин.
Административный центр — город Сейняйоки.
Таким образом, умолкание канарейки предупреждало шахтёров об опасности.
Из-за границы Пырин привёз в Россию карандашные зарисовки.
Из обеспеченной семьи.
Однако по социальному положению и обязанностям они походили на сержантов или старшин.
Работал в колхозе трактористом, затем председателем сельского совета.
От первого мужа, Роберта Стивенса, актриса родила двух дочерей.
Часть документов опубликована в Актах Виленской археографической комиссии, Археографическом сборнике документов и др.
Главные роли исполнили Даниэль Отей и Жюльетт Бинош.
Является академиком Российской академии естественных наук и Академии славянской культуры.
Отдельные институты работают в Биробиджане, Анадыре.
Покровителем города считается Антоний Падуанский.
Ближайшие населённые пункты — Писунинская, Лымзино, Стиховская, Мотовилово.
Как правило, понятие означает меру информации, передаваемой документом относительно запроса пользователя.
Родился в г. Полтаве, в рабочей семье.
Музыка Анджело Бадаламенти и слова Дэвида Линча.
Вход в парк свободный.
В том же году состоялся переход Огородника в российский «Зенит».
Воспитанница костанайского бокса.
Субтитры различаются по степени детализации событий.
Она истекла кровью во время операции и так и не пришла в сознание.
Входит в состав округа Шарлевиль-Мезьер.
Его движения неуклюжи и неестественны для нормального человека.
Йохан Воскамп — воспитанник футбольной команды «Лира» из города Де-Лир.
Дина Мифтахутдинова тренировалась в спортивном клубе Вооруженных Сил Украины в Днепропетровске.
Таким образом, и стакан и тост предположительно происходят от слова тостакан.
Шуйо Караджич считается предком Радована Караджича.
В финале встретились «Челси» и «Сток Сити».
Эта гипотеза отчасти объясняет непоследовательность хронологии у Корнелия Непота и Плутарха.
Владеет индонезийским, армянским, английским и французским языками.
Всего в торфяных болотах Европы было обнаружено более тысячи древних трупов.
Правительства государств-рантье заботятся о формировании позитивного общественного мнения.
Возникла на территории бывшей провинции Бургундия.
После окончания аренды «Эшторил-Прая» выкупил права на игрока.
В центре звезды — накладное изображение земного шара, отдельные детали которого покрыты цветной эмалью.
Альбом стал результатом шестимесячной работы группы.
Мезоплеврон не разделён горизонтальной бороздкой.
После традиционно длительного периода обручения Чёрный Гром и Медуза поженились.
Края октаэдров образуют цепочки, которые соединены с атомами кислорода, которые и образуют слои.
Лид и Малала временами упоминают его просто как «Каппадокиец».
Был избран сенатором от Университета Валенсии, представляя Либеральную партию.
Первоначальное название Громки.
Владимир Иванович Немирович-Данченко стал одним из создателей режиссёрского театра во всем мире.
входит в штат Парана.
В Венгрии он получил штраф за небезопасный выезд из боксов.
Через год стартовало активное распространение программы курса, что вызвало аншлаг по всему миру.
О создании церкви повествует ктиторская надпись на главных вратах западного входа в храм.
Поэтому максимальное число треугольников на единицу меньше границы Тамура для этих случаев.
Награждён медалями «За победу над Германией», «За боевые заслуги», «За доблестный труд».
Циммерману принадлежат оркестровки фортепианных пьес Модеста Мусоргского «На южном берегу Крыма.
Вырос вместе с братом и сёстрами во дворце Нойштрелица.
Дожди бывают нечасто, в основном летом.
Служил сельским учителем, затем смотрителем в удельном ведомстве.
Кристофа и св.
Защитная часть шлема выполнена из сверхвысокомолекулярного полиэтилена высокой плотности.
Пирамиды женщин из королевских семей находятся на западном плато начиная от пирамиды Тахарка.
На турнире играл одном звене с одноклубником Владимиром Елизаровым и «динамовцем» Юрием Крыловым.
Участвовала в боях под Минском, Ельней, Вязьмой.
Течёт по лесной болотистой местности.
Используются вдали от береговой линии и при входах в порт в качестве лоцманской станции.
Предполагается, однако, что эти средства банк также сможет в будущем обменять на акции.
Является одной из достопримечательностей Нижнего Новгорода.
Закончил войну в звании капитана.
Административный центр — Талицкий Чамлык.
В природе поедает свой и чужой кал.
При обнаружении его следует арестовать и отправить соотв.
Обучался у иезуитов в Римини, вступил в орден Святого Августина.
Багамы выиграли серебряную медаль, которую по регламенту получил и Эшли.
Входит в состав кантона Ла-Сутеррен.
Но что удивительно — читал наизусть!
Тамилец вынужден эмигрировать в Швейцарию из-за гражданской войны на родине.
При этом последовательность нуклеотидов не изменяется, а лишь прекращается экспрессия соответствующего гена.
К тому же у студии не хватало средств, материально-техническая база была ограничена.
В связи с расширением города Советский район делился два раза.
Имеет металлическое ограждение.
Виды рода Аглайя
Роберто Пунчец — воспитанник хорватского футбольного клуба «Вартекс».
Мишель Онфре родился в семье сельскохозяйственного рабочего.
Они имеют преимущественно серую окраску без выраженного полового диморфизма.
Однако он получил лишь должность начальника сельской полиции штата.
Из-за этого брака император сместил Монтолона с должности посланника при герцоге Вюрцбургском.
Родился в семье служащего.
Формат ресурсов, помещаемых в такой файл, может подразумевать сжатие.
Вместе с селом Бычок входит в состав Бычковского сельсовета.
При жизни отца носил титул сеньора де Бюсси, владения, доставшегося от матери.
Восставшим удалось освободить Иерусалим, однако в конечном итоге восстание было жестоко подавлено императором Адрианом.
Результаты документальной ревизии оформляются актом.
Образование течи топлива возникло, вероятно, вследствие потери герметичности соединительных элементов или топливных трубопроводов.
Также является продюсером целого ряда серий Смешариков.
Буква тав — одна из шести букв бегед-кефет, получающих дагеш каль.
Широко распространены такие автомотрисы, в частности, в Германии.
Сражение при Теламоне знаменовало собой окончательное покорение римлянами Северной Италии.
Брошюра свободно продавалась в магазинах, выдавалась в библиотеках города.
Космическая разведка возникла и развилась как побочный продукт освоения человеком космоса.
Большую помощь оказывал Сейткул Мухамедханов, отец Каюма Мухамедханова.
Однако ключевой денежной единицей на севере Германии был талер.
Листья простые, размещены супротивно.
Специалисты быстро поняли, что этот подход не слишком удобен.
Её командиром был назначен коммунист капитан Герман.
Выступает гостем международных поэтических фестивалей и программ.
Легко обрабатывается, принимает и сохраняет полировку.
Это был дом бога Дагды, его жены Боанн и их сына Энгуса, бога любви.
Точная локализация княжества неизвестна.
В составе Солдатовского сельсовета Нижне-Колосовского района Тарского округа Сибирского края.
От игрока требуется разрезать виртуальным мечом фрукты, появляющиеся из нижнего края экрана.
Поэтому иногда их отмечали под общим названием кыпчак"".
Верхняя сторона тела фиолетовая, синяя, зелёная, бронзовая или чёрная.
До отъезда отца за границу обучался на дому.
На время отхода от дел приходятся внешнеполитические неудачи империи.
Село возглавлял Хатыминский наслег.
Начали поступать самолёты с деревянными кабинами штурмана, которые просто отламывались при посадке.
Речной бассейн реки — Надым.
Записанные песни были сыграны живьём без цифровой обработки.
На реке и её притоках расположены туристские стоянки; вдоль рек проложены туристические маршруты.
Лин рассказывает, что она разочаровалась в людях и в своих идеалах.
Здесь созданы условия для дайвинга.
Входит в состав кантона Мата.
По старому административному делению входил в провинцию Эштремадура.
Входит в состав кантона Плелен-Тригаву.
Посол Израиля на Филиппинах — Эфраим Бен-Матитьяху.
При оформлении залов музея использовали диорамный принцип построения.
В деревне Бортники родился Герой Советского Союза Михаил Александрович Кузьмин.
В этом же поединке Кире забил свой первый гол за «Славию».
Речной бассейн реки — Кама.
А современный музейный комплекс являет собой уникальное собрание памятников истории прославленных родов.
Она вторая по силе хоккейная лига в Словакии, уступает только Словацкой экстралиге.
Окончательная запись была завершенна в начале ферваля.
Составная часть мезорегиона Юго-центральная часть штата Мату-Гроссу.
Растёт на сухих травянистых склонах.
Генеральное направление в верхнем течении - северо-восток, в нижнем - север.
Похоронен на Даниловском кладбище в Москве.
В том же сезоне Луис помог клубу выйти в финал Кубка Перу.
У самого Дува-Сохора было четыре сына: Доной, Докшин, Эмнек и Эркэг.
На склонах располагается несколько озёр — Ротомахана, Окатайна, Таравера.
Одновременно ставила спектакли в других ленинградских театрах.
Доктор философии Колумбийского университета.
Различаются удобоваримые и неудобоваримые углеводы.
Близ Житной Поляны расположен санаторий «Снежка».
Начиная с марта бои в Широкино приобрели позиционный характер.
Департамент коммуны — Южная Корсика.
Рядом проходят автомобильная дорога и железная дорога, станция Роздольский.
Главный офис института находится в Токио, в центральном районе Синдзюку.
В Новороссийске обновленная и переименованная «Кубань» приобрела умеренно-либеральный оттенок.
Несмотря на сохранение монахом деревни, он решил пойти в храм Эдо.
Административным центром городского поселения является посёлок городского типа Кильдинстрой.
Окончил курс Императорского училища правоведения.
Юрьев оставался последним центром сопротивления крестоносцам между Чудским озером и морем.
Он писал работы по строительству автомобильных и железнодорожных дорого, мостов, картографии, энтомологии и топографии.
Большинство израильских официальных документов ссылаются на сообщества израильских арабов, используя термин «меньшинства».
Похоронен на Кунцевском кладбище в Москве.
Подвеска Хара пришла на смену своему предшественнику, подвеске по типу трактора Клетрак.
Слабый довольно специфичный фитопатоген.
После войны в бывшем усадебном доме разместился психоневрологический интернат.
Мезопроподеальное вдавление глубокое.
Алекс и её брат Ронни были воспитаны их матерью-одиночкой Кэрол Макки.
Из-за недостаточной ширины гребного канала в одном заезде могли стартовать не более трёх лодок.
Старался стоять вне политики, в то время поглощавшей лучшие испанские силы.
Отец служил в министерстве образования и религии, затем был директором университетской библиотеки в Сегеде.
В октябре на турнире в Пекине Маттек-Сандс выходит в четвертьфинал.
Входит в состав Кринично-Лугского сельского поселения.
Департамент коммуны — Верхняя Корсика.
У Рэйчел есть брат — Фрэнк Робертс.
Округ коммуны — Лан.
Баумана, но через два года вынужден был вернуться в Ереван, чтобы кормить семью.
Тело длинное с многочисленными сегментами, простомий конической формы.
Артур категорически отказывается спуститься и поговорить с Марти.
Идея создания состоит в предоставлении удобной и простой единой платформы для разработки обучающих программ.
Подвальный этаж благоустроен, в нём освящён престол, имеется баптистерий.
Создатель армии новых видов существ, противостоящей человечеству.
Ракитная; северная и восточная оконечность ул.
Место, точная дата, обстоятельства и причина смерти неизвестны, как и место захоронения поэта.
Развивается в одном поколении за год.
Каменный храм был построен на средства прихожан.
Это связывается с сознательным отказом от элитарности искусства и возвращению к его декоративно-эстетической функции.
Глаза без чёткой выемки.
Административный центр — село Исляйкино.
В целом население было крайне смешанным: огромное количество различных племен, и мусульман, и индусов.
Инициатором перехода был тренер «Бетиса», Эктор Купер.
На аттике находятся часы.
Принимал участие в первом чемпионате Франции.
В настоящее время в нем находится музей.
Родилась в Казахстане.
Центрами консолидации являлись сельские организации Колорадо и партийные авторитеты.
Административный центр — Модимолле.
Сразу после юбилейных выступлений группа ушла в отпуск.
Восстановил Новогрудский замок.
Первый секретарь городского комитета партии являлся фактическим градоначальником.
Департамент кантона — Мёрт и Мозель.
По окончании музыкальной карьеры вновь вернулась к работе на ирландском телевидении.
Вначале он копировал старых мастеров.
Принадлежит к роду Адеркас.
Стратегия развития торговой сети предусматривает дальнейшее открытие новых гипермаркетов «Глобус» в Центральном федеральном округе.
Административный центр — город Курильск.
Бригада Василия Петрова ежегодно перевыполняла производственный план.
Сам Кокерель стал при жизни автором нескольких книг и статей.
Елену приняли в стажерскую группу театра.
Речной бассейн реки — Иртыш.
В этом издании находятся сведения о жизни Адриана.
Штаб-квартира находится в Мекке, филиалы в Медине, Эр-Рияде и Джидде.
Возник на территории бывших провинций Гиень и Гасконь.
Это особенно важно, когда в разных состояниях формируются одинаковые значения выходных переменных.
Как правило представляют собой серийные танки прошедшие соответствующую модернизацию.
Мерам, принятым для лецеизации учебных заведений, враги Ферри дали кличку «изгнания Бога из школы».
Был поклонником японской манги «Капитан Цубаса».
Овладев фортом Гийом, французы установили там батарею, производившую непрерывный обстрел и бомбардировку замка.
Ранее станция закрывалась, была остановочным пунктом.
Всего Кузнецовым было предложено более пятнадцати различных вариантов ордена.
Владеет английским, польским, татарским и башкирским языками.
Разница доходах заметна уже, если у фильма есть одна номинация.
Так, Фома Аквинский учил о совершенной трансцендентности Бога по отношению к творению.
Уже после своего возвращения во Франкское государство Хильдегрим решил принять постриг.
объявили о совместной работе над цифровыми камерами среднего формата.
Центр — город Одесса.
Весь пьедестал заняли советские спортсменки — чемпионкой мира стала Елена Альтшуль.
Премьер-министр Израиля ответил положительно.
среди столичного населения усилилось освободительное движение против британского колониального господства на территории Гайаны.
Данные о сборах фильма носят противоречивый характер.
Также завоевала серебро в составе эстафеты.
Сейчас он находится в московском Парке Победы на Поклонной Горе.
Листья расположены очерёдно, неправильно перисто-рассечённые.
Алфавит также появляется на монетах, латунных пластинах и многочисленных рукописях на тканях или коре.
Центр Демьянского сельского поселения.
Населённых пунктов на реке нет.
Участвуя в Играх, Эш соревновался только в одиночных заездах.
Стенка кисты состоит из плотной фиброзной ткани.
Данная буква была введена в процессе кириллизации алфавитов северокавказских языков в конце годов.
Хиосцы непрерывной чередой прощались с поэтом до полудня.
Голова копьеподобной формы чётко отделена сзади шейным перехватом.
Находится в Смолянской области, входит в общину Златоград.
Предприятия этой отрасли имеются практически во всех районах и в большинстве городов Великобритании.
Имя же и происхождение жены Игоря считается неизвестным.
Находится в Константиновском районе Донецкой области возле села Белокузьминовка.
Словарный перевод иероглифа 薛 — «полынь».
Поль Пето, эрудит и библиофил, родом из Орлеана, также служил советником парламента.
Его первым тренером был Джозеф Ройл.
В результате получится один полный и безошибочный файл.
В Таиланде есть независимые музыканты и студии, создающие музыку для некоммерческого использования.
Мальчик воспитывался в Бакинском детском доме.
Высшими таксономическими единицами являются регионы, области и подобласти.
За эту операцию бригада была удостоена почётного наименования «Нежинская».
Владельцем первого был князь Юрий Николаевич Голицын.
Среди европейских стран лидером является Швеция.
При этом используется нумерация, «доставшаяся» от чемпионатов мира среди мужчин.
Неоднократно участвовал в поставленных Ингмаром Бергманом спектаклях.
В настоящий момент выступает в Примере Венесуэлы, сильнейшем дивизионе страны.
Израильский теоретик Овадья Шохер рассматривает национал-анархизм несколько иначе.
Script executed over ~5 hours on i7-8700K 3.70GHz, but script is single-core, may be it is possible to parallel directories proceeding from wikiexctractor? It will be MUCH faster on my 12-core CPU.
Script works fine, not problems/errors occurred while executed. I will tune up my settings for Russian and make a PR.
@nukeador How clear is the text expected to be? How strong it should be filtered? For begin, I can make very strict filters to maximally achieve text without problematic constructions. This will reduce the number of sentences, but I do not think that the loss of ~500K lines will be critical for 2.5M available.
Thanks for this @iLeonidze, we really wanted to have Russian supported here!
2,5M seems to be a fantastic number of sentences. As long as the QA review provides a low error rate, we should be fine. If not, we should be more restrictive with the blacklist (for Spanish we used <80 repetitions for example).
When creating the PR with the filters and blacklist file, please make sure you also provide the following information
Can someone elaborate on the setting ‘abbreviation_patterns’ and how to deal with that?
For Dutch I have to deal with abbreviations like ‘ca.’, ‘a.u.b.’, ‘v.Chr.’ and ‘dr.’. I am thinking to put them (approx. 50) in the blacklist, but maybe it’s better to use ‘abbreviation_patterns’?
Hey @Fjoerfoks the best way to understand it is to look at other rulefiles, for example the german.tombl explains a lot in the comment above of the abbreviation_patterns. (only the third line are real abbreviations!)
In general one can say that you seperate different abbreviations with a pipe and then you write the abbreviation with escaped full stops. For example:
“a\\.u\.b\\.|v\\.Chr\\.”
I hope this helps a little.
Started a new PR for Russian. Please, someone who speaks Russian, review the sample file provided.
I will also make some minor fixes related to checks perfomance.
Ah, perfect! I can work with that.
Are there any limits to the number of characters on 1 line?
Are these case sensitive?