Bonjour à tous,
Depuis quelques temps je me dis que pour avoir un jeu de données le plus varié et complet, il peut être intéressant d’avoir des enregistrements plus “décalés” que lorsque l’on s’enregistre de manière classique.
Ce que je veux dire par là, c’est parler par exemple en chuchotant ou en prenant des voix un peu plus étranges (en s’assurant de rester compréhensible, notamment au niveau du volume et de l’articulation).
Je pense que ça peut aider les algorithmes à devenir plus robustes pour comprendre ces mêmes types de vocalises, mais aussi à généraliser et comprendre de manière plus globale des façons de parler plus inhabituelles.
Il y a quelque temps, j’avais enregistré une série d’extraits en prenant des voix un peu différentes et j’ai rapidement eu un “feedback indirect” via mon taux de validation qui a bien baissé.
J’avais pourtant pris un soin particulier à bien vérifier mes extraits pour m’assurer de leur validité, raison pour laquelle j’avais été surpris qu’ils soient refusés.
Du coup, je me demande ce que le reste de la communauté pense de cette démarche ?
Celle de prendre des voix un peu bizarres mais toujours intelligibles pour s’enregistrer.
Ayant moi-même validé des extraits d’une personne prenant des voix étranges, j’ai trouvé ça plus pénible à enchainer que la voix monotone classique que l’on prend quasiment tous.
Mais la qualité du dataset n’est-elle pas une de nos plus grandes priorités ?