Quel est l'avis de la communauté?

luc.salommez · October 30, 2019, 7:38pm

Bonjour à tous,

Depuis quelques temps je me dis que pour avoir un jeu de données le plus varié et complet, il peut être intéressant d’avoir des enregistrements plus “décalés” que lorsque l’on s’enregistre de manière classique.

Ce que je veux dire par là, c’est parler par exemple en chuchotant ou en prenant des voix un peu plus étranges (en s’assurant de rester compréhensible, notamment au niveau du volume et de l’articulation).

Je pense que ça peut aider les algorithmes à devenir plus robustes pour comprendre ces mêmes types de vocalises, mais aussi à généraliser et comprendre de manière plus globale des façons de parler plus inhabituelles.

Il y a quelque temps, j’avais enregistré une série d’extraits en prenant des voix un peu différentes et j’ai rapidement eu un “feedback indirect” via mon taux de validation qui a bien baissé.

J’avais pourtant pris un soin particulier à bien vérifier mes extraits pour m’assurer de leur validité, raison pour laquelle j’avais été surpris qu’ils soient refusés.

Du coup, je me demande ce que le reste de la communauté pense de cette démarche ?
Celle de prendre des voix un peu bizarres mais toujours intelligibles pour s’enregistrer.

Ayant moi-même validé des extraits d’une personne prenant des voix étranges, j’ai trouvé ça plus pénible à enchainer que la voix monotone classique que l’on prend quasiment tous.

Mais la qualité du dataset n’est-elle pas une de nos plus grandes priorités ?

lissyx · October 31, 2019, 8:16am

Sur le principe oui, après comme tu dis il faut que ça reste utilisable

Je pense qu’on a surtout pour le moment pas assez de coordination de la communauté, lancer le débat est une bonne chose

Gernelf · October 31, 2019, 4:25pm

Bonjour, oui c’est une très bonne idée et je pense qu’il faut vraiment encourager à le faire. Si l’on reste toujours sur des belle voies, bien audible, beau à l’oreille on va orienter l’algorithme sur une mauvais chemin et discriminer tout les personnes qui on des problèmes ou un environnement défavorable. Comme on peut le voir avec la reconnaissance faciale avec les personnes de couleur noir qui on plus de mal à être reconnue.