Sur le tableau de bord, on peut voir un classement des Contributeurs et contributrices remarquables ayant plusieurs milliers d’enregistrements à leur actif…
Entre le classement, les objectifs et les trophées, on peut même dire que tout est fait pour pousser l’utilisateur à enchaîner les contributions.
Sauf que voilà. Sur GitHub, un rapport de bug laisse penser qu’au-delà de quelques centaines d’échantillons pour un même utilisateur, ça n’a plus aucun intérêt pour entraîner DeepSpeech (qui préfère la diversité de contributeurs) et que le reste des échantillons de cet utilisateur est donc mis de côté.
Alors oui, l’intégralité du jeu de données de Common Voice (et donc les milliers de contributions de certains utilisateurs) pourra toujours servir à bien d’autres projets (chercheurs, entreprises…), mais est-ce que ça vaut réellement le coup de s’investir encore dans l’enregistrement de nouveaux échantillons, quand on en a déjà un certain nombre au compteur ?
Si ce n’est pas réellement utile au projet, ce n’est pas la peine de perdre son temps à enregistrer encore et encore de nouveaux échantillons, pour ensuite faire perdre leur temps aux validateurs, qui devront valider un grand nombre d’échantillons qui ne serviront pas
Qu’en pensez-vous ?