Un premier modèle français

lissyx · June 27, 2019, 1:01pm

Ah, je croyais l’avoir mis : j’ai entrainé cette version sans LM, donc c’est normal.

(du coup j’ai mis à jour le premier post)

La sortie me semble effectivement plus acceptable, après c’est pas génial parce que pas assez de données encore …

lissyx · June 27, 2019, 12:55pm

Du coup je crois que le problème ici c’est aussi le LM, faudrait réeesayer sans (et s’assurer de passer le bon alphabet).

rabaaooui.islam · June 27, 2019, 12:55pm

En utilisant seulement le nouveau corpus ~180h commun voice , le checkpoint 0.5.0 et un modele de language crée à partir de corpus wikipedia

lissyx · June 27, 2019, 12:56pm

Aider https://github.com/Common-Voice/commonvoice-fr/issues

Je compte faire une deuxième publication préliminaire, avec un LM, mais je suis encore en train d’évaluer les paramètres alpha et beta. La semaine passée on était à Whistler pour le All Hands, donc je n’ai pas pu y travailler, et avec la chaleur actuelle, c’est pas envisageable de faire tourner les GPUs pendant plusieurs heures

lissyx · June 27, 2019, 12:57pm

Quels paramètres ? le checkpoint 0.5.0 anglais ? Le même modèle de langage que celui que j’ai mis sur github ?

ptitloup · August 23, 2019, 9:53am

Bonjour,
Merci pour ce premier modèle que j’ai pu tester et qui me semble fonctionner pas trop mal. Je gère un projet de plateforme vidéo et je souhaite utiliser deepspeech pour faire de la transcription fr pour le sous-titrage. Malheureusement, je ne dispose pas de ressource matériel suffisante pour créer un modèle (pas de GPU et peu de CPU).
Bonne journée

lissyx · August 23, 2019, 10:54am

Intéressant, c’est pour une instance PeerTube ?

Ok malheureusement entre les vagues de chaleurs et mon déménagement, j’ai pas eu ni le temps ni l’occasion de pouvoir avancer là dessus

ptitloup · August 23, 2019, 12:18pm

Bonjour Lissyx,

J’ai entendu parlé de PeerTube mais non, c’est dans le cadre du projet Pod. C’est une plateforme de vidéo utilisée par une trentaine d’université.

Est-ce que quelqu’un a réussi à créer un modèle francais à partir du dataset fr de mozilla disponible à cette adresse : https://voice.mozilla.org/fr/datasets ?

Cordialement

lissyx · August 23, 2019, 2:21pm

C’est un projet de RENATER ? Ça m’intéresse fortement !

J’ai partagé ce que j’ai produit à partir notamment de Common Voice et d’autres. Il reste du boulot pour nettoyer les données dans Common Voice FR, trouver d’autres sources. Les résultats, comme tu as vu, sont encore très perfectibles mais c’est attendu vu le faible volume que l’on a.

ptitloup · August 24, 2019, 1:09pm

C’est un projet inter-universités. Certaines personnes qui ont travaillé sur le projet sont parties chez renater. On va présenter le projet aux JRES 2019 oragnisée par Renater. Merci pour ton partage. Ou pourrais-je trouver les données ?

lissyx · August 24, 2019, 2:34pm

Tout est sur github

ptitloup · August 26, 2019, 9:53am

Bonjour Lissyx,
J’ai bien trouvé ce partage que tu as mis à disposition : https://github.com/Common-Voice/commonvoice-fr/releases/tag/v0.5.0-fr-0.1
Un grand merci à toi pour tout le travail.
Bonne journée

lissyx · September 28, 2019, 6:05pm

lissyx · September 28, 2019, 6:05pm