Un premier modèle français

Ah, je croyais l’avoir mis : j’ai entrainé cette version sans LM, donc c’est normal.

(du coup j’ai mis à jour le premier post)

La sortie me semble effectivement plus acceptable, après c’est pas génial parce que pas assez de données encore … :slight_smile:

Du coup je crois que le problème ici c’est aussi le LM, faudrait réeesayer sans (et s’assurer de passer le bon alphabet).

En utilisant seulement le nouveau corpus ~180h commun voice , le checkpoint 0.5.0 et un modele de language crée à partir de corpus wikipedia

Aider :slight_smile: https://github.com/Common-Voice/commonvoice-fr/issues

Je compte faire une deuxième publication préliminaire, avec un LM, mais je suis encore en train d’évaluer les paramètres alpha et beta. La semaine passée on était à Whistler pour le All Hands, donc je n’ai pas pu y travailler, et avec la chaleur actuelle, c’est pas envisageable de faire tourner les GPUs pendant plusieurs heures :confused:

Quels paramètres ? le checkpoint 0.5.0 anglais ? Le même modèle de langage que celui que j’ai mis sur github ?

Bonjour,
Merci pour ce premier modèle que j’ai pu tester et qui me semble fonctionner pas trop mal. Je gère un projet de plateforme vidéo et je souhaite utiliser deepspeech pour faire de la transcription fr pour le sous-titrage. Malheureusement, je ne dispose pas de ressource matériel suffisante pour créer un modèle (pas de GPU et peu de CPU).
Bonne journée

Intéressant, c’est pour une instance PeerTube ?

Ok malheureusement entre les vagues de chaleurs et mon déménagement, j’ai pas eu ni le temps ni l’occasion de pouvoir avancer là dessus :confused:

Bonjour Lissyx,

J’ai entendu parlé de PeerTube mais non, c’est dans le cadre du projet Pod. C’est une plateforme de vidéo utilisée par une trentaine d’université.

Est-ce que quelqu’un a réussi à créer un modèle francais à partir du dataset fr de mozilla disponible à cette adresse : https://voice.mozilla.org/fr/datasets ?

Cordialement

C’est un projet de RENATER ? Ça m’intéresse fortement !

J’ai partagé ce que j’ai produit à partir notamment de Common Voice et d’autres. Il reste du boulot pour nettoyer les données dans Common Voice FR, trouver d’autres sources. Les résultats, comme tu as vu, sont encore très perfectibles mais c’est attendu vu le faible volume que l’on a.

C’est un projet inter-universités. Certaines personnes qui ont travaillé sur le projet sont parties chez renater. On va présenter le projet aux JRES 2019 oragnisée par Renater. Merci pour ton partage. Ou pourrais-je trouver les données ?

Tout est sur github :blush:

1 Like

Bonjour Lissyx,
J’ai bien trouvé ce partage que tu as mis à disposition : https://github.com/Common-Voice/commonvoice-fr/releases/tag/v0.5.0-fr-0.1
Un grand merci à toi pour tout le travail.
Bonne journée

1 Like