Hola,
Actualmente sólo tenemos 6687 frases en la base de datos de Common Voice en español.
Esto quiere decir que si de media cada frase son 4s de lectura, nos permiten tener 7,43 horas de voces sin repetir frases.
Ahora mismo hay 25 horas validadas en español, lo que quiere decir que hace mucho que estamos grabando las mismas frases una y otra vez.
¿Por qué es esto importante?
Cuando entrenamos los modelos de Deep Speech realmente no es muy útil tener más de una vez una frase grabada ya que reduce significativamente la calidad del modelo, por que tenemos que procurar que cada frase es grabada muy pocas veces, idealmente solo una.
¿Qué hacer?
Necesitamos añadir más frases de dominio público en la herramienta y validarlas.
Hasta que podamos tener el extractor de wikipedia para el español es la única forma que tenemos de añadir frases.
Para poder tener un buffer de 25 horas, necesitaríamos unas 22500 frases (a 4s por frase), que entiendo que es muchísimo, por lo que la alternativa es esperar a que el extractor de wikipedia esté listo y no hacer grandes eventos hasta entonces.
Un saludo.