Es un requerimiento usar el modelo es_core_news_md así que se tiene que instalar con :
python -m spacy download es_core_news_md
¿Para el archivo de las reglas no importa que sean listas de palabras muy extensas? digo por si hay algún orden o límite.
nukeador
(Ruben Martin ❌ [away till Aug 31st])
#42
Podríamos pedir que se añada a la config el meter un archivo de blacklist y otro de whitelist.
nukeador
(Ruben Martin ❌ [away till Aug 31st])
#43
Y luego ¿cómo generaste la lista de las palabras con menos de 5 apariciones? ¿Tuviste que darle un corpus? Si pudieras subir a algún lado todo el proceso sería útil, ya que en otros idiomas quieren hacerlo también.
Intento poder tener todas las instrucciones para poder generar esta lista yo y ver con los devs como pasársela a extractor de wikipedia.
Lo integré al tool de dabinat, espero no sea muy tarde.
Automáticamente agregará otro campo que indica si la palabra está fuera de vocabulario de spacy y lo guardará en un archivo.
Los cambios están aquí:
La instalación aún es necesaria:
Usando la lista generada por el tool de dabinat para luego crear una colección donde le podía hacer consultas, la manera de crear la colección ya depende de cada lenguaje. Los elementos de la consulta al final solo los usaba como blacklist.
nukeador
(Ruben Martin ❌ [away till Aug 31st])
#45
¿Puedes enlazarme a las intrucciones paso a paso qué debería ejecutar para el español?
Para generar la lista completa son los mismos pasos de la sección word usage de mi fork del tool de dabinat :
Para la selección no sé como explicarla paso a paso, eso depende del lenguaje y como se lea del arhivo.
En mi caso estoy usando un split y linq para la selección en C#.
var wordsFilter = File.ReadAllLines(@"D:\filter.txt", Encoding.UTF8).Select(x => new WordFilter
{
Word = x.Split(' ')[0],
Occurrences = Convert.ToInt32(x.Split(' ')[1]),
OutVocab = Convert.ToBoolean(x.Split(' ')[2].ToLower())
}).ToList();
var blacklist = wordsFilter.Where(x => (x.Occurrences <= 5 && x.OutVocab)).Select(x => x.Word).ToHashSet();
Esta fracción de código es lo que los dev deben implementar en rust leyendo del archivo que se genera con el tool de dabinat
¿Queda más claro ahora?
nukeador
(Ruben Martin ❌ [away till Aug 31st])
#47
Quizá sea entonces más últil subir nuestra blacklist del español que ya generaste en el issue que abrí para implementarlo, así tienen un ejemplo para probar:
nukeador
(Ruben Martin ❌ [away till Aug 31st])
#48
Actualización: Estoy usando la blacklist que generó @carlfm01 para hacer una extracción de cero, ya que el script ya está adaptado para usar blacklists.
Por la cantidad de frases que veo saliendo por archivo, estimo que como mucho será capaz de extraer unas 900 mil frases, lo cual puede estar bien de momento, pero solo daría para 1000 horas de voz y habría que buscar otro millón de frases de otro lado.
nukeador
(Ruben Martin ❌ [away till Aug 31st])
#49
El script le quedan aún unas horas, pero parece que van a salir bastantes más frases (calculo 1,2M).
En cuando esté listo necesitaría al menos un par de personas para revisar una muestra de unas 500 y estimar si el número de frases con palabras complejas es aceptable o no.
nukeador
(Ruben Martin ❌ [away till Aug 31st])
#50
Me lei la mayoria y la verdad es que a diferencia de las primeras lecturas estas estan mejor concretadas. No estan dificiles de pronunciar en un tono elevado y pues solo aquellas palabras que tienen pronunciación en ingles podrian ser dificiles de pronunciar pero son inevitables ya que son nombres propios de lugares o personas.
Creo que eso no sería tan malo, al final creo que tiene que buscar otro tipo de sentencias, por ejemplo preguntas. De lo que veo el texto de wikipedia casi no tiene preguntas, cuando alguien hace preguntas lo hace como en un sonido diferente que creo puede beneficiar al reconocimiento en tener más allá de wikipedia.
Sí, en secciones lo veo aceptable, diría un 20% mal y el otro 80% bien tomando secciones de 100, en otras secciones diría que es un 50% mal y 50% otro bien.
Creo las que contengan abreviaturas hay que eliminarlas o ponerles un estándar, ejemplo dr, sr, doc, sra pasarlas a doctor, señor, señora y así con las de este tipo.
Así como Kelly menciona el problema de los números, lo mismo pasa con abreviaciones.
nukeador
(Ruben Martin ❌ [away till Aug 31st])
#54
Parece que la última muestra soluciona muchos de las frases más complejas de la anterior versión, por lo que a menos que alguien crea que hay algo grave, vamos a dar el OK y esa es la que vamos a importar con 1,17M de frases.
Una mejoria bastante significativa por el momento ahora si casi que no hay palabras extrañas o simbolos extraviados. A mi me parecen que de las 500 ya van siendo utiles unas 450 asi como que el 90%
nukeador
(Ruben Martin ❌ [away till Aug 31st])
#57
Veo que ya están las frases en la web, sería bueno probar que todo está correcto
Muchas gracias a todos los que habéis ayudado a filtrar, mejorar y probar las frases.
¡Ahora tenemos suficientes frases para incentivar grandes eventos y grandes aportaciones!
Bueno ante todo enhorabuena por el esfuerzo realizado, parece que ha surtido efecto y la gente esta respondiendo.Bueno ya parece que llego tarde a este debate ya que las frases estan subidas . Solo dira si es posible corregirlo o seleccionar las que mayoritariamente esten en español ya que los patrones de lectura seran diferentes segun que la persona conozca algo de ingles o no lo digo por la cantidad de nombres en ingles bueno un saludo y repito mi enhorabuena