Hola!, hace algún tiempo que no entraba en common voice, y me surge la duda ¿ya es usable? y ¿cómo se usa? es decir, ya puedo integrar las voces en español con algún motor como PocketSpinx?
Hola y ¡bienvenido a la comunidad!
Cada varios meses actualizamos los datasets para que puedan ser descargados desde:
A principios de enero queremos ver si podemos publicar una nueva versión con todos los datos recopilados la segunda mitad de 2019.
Estos datasets se pueden usar con motores de STT como DeepSpeech para entrenar modelos
La idea es que con el tiempo, el equipo de #deep-speech vaya entrenando y publicando modelos, de momento están centrados en hacerlo primero con el inglés, que es donde más horas tenemos.
Un saludo.
hay un minimo de horas necesarias para generar el primer modelo en español? cuantas quedan?
Lo que nos dicen los expertos es que para tener un modelo básico, se necesitan al menos 2000 horas validadas y más de 1000 voces diferentes.
Actualmente en español:
- Hablantes 8627
- Horas validadas 132h