(Version française ci-dessous)
Hello Everyone,
We need your help helping us review a batch of the sentences we would like to add to the dataset. These sentences are pulled from an algorithm and need extra review before being added and we are looking for 90% approval of sentences before they are added to the dataset. You can choose for a sentence to either “Pass” or “Fail.”
We have some guidelines that we would like you to follow,
- Numbers. There should be no digits in the source text because they can cause problems when read aloud. The way a number is read depends on context and might introduce confusion in the dataset. For example, the number “2409” could be accurately read as both “twenty-four zero nine” and “two thousand four hundred nine”.
- Abbreviations and Acronyms. Abbreviations and acronyms like “USA” or “ICE” should be avoided in the source text because they may be read in a way that does not coincide with their spelling. Additionally, there may be multiple accurate readings for a single abbreviation. For example, the acronym “ICE” could be pronounced “I-C-E” or as a single word.
- Punctuation. Special symbols and punctuation should only be included when absolutely necessary. For example, the apostrophe is included in English words like “don’t” and “we’re” and should be included in the source text, but it’s unlikely you’ll ever need a special symbol like “@” or “#.”
- Foreign letters. Letters must be valid in the language being spoken. For example, “ж” is a letter in the Russian alphabet but is never used in French and so should never appear in any French source text.
Please let me know if you have any questions.
Thank you again!
(Traduction automatique, veuillez excuser les erreurs)
Bonjour à tous,
Nous avons besoin de votre aide pour nous aider à réviser un lot de phrases que nous aimerions ajouter au dataset. Ces phrases sont extraites d’un algorithme et nécessitent une vérification supplémentaire avant d’être ajoutées. Nous recherchons l’approbation à 90% des phrases avant leur ajout à l’ensemble de données. Vous pouvez choisir une phrase «Fail» ou «Pass».
Nous aimerions que vous suiviez certaines directives,
- Nombres. Le texte source ne doit pas contenir de chiffres car ils peuvent causer des problèmes de lecture à voix haute. La façon dont un nombre est lu dépend du contexte et peut créer de la confusion dans le jeu de données. Par exemple, le nombre «2409» pourrait se lire avec exactitude à la fois «vingt-quatre zéro neuf» et «deux mille quatre cent neuf».
- Abréviations et acronymes. Les abréviations et les acronymes tels que «USA» ou «ICE» doivent être évités dans le texte source, car ils peuvent être lus de manière à ne pas correspondre à leur orthographe. De plus, il peut y avoir plusieurs lectures précises pour une seule abréviation. Par exemple, l’acronyme «ICE» pourrait être prononcé «I-C-E» ou par un seul mot.
- Ponctuation. Les symboles spéciaux et la ponctuation ne doivent être inclus qu’en cas de nécessité absolue. Par exemple, l’apostrophe est incluse dans les mots anglais tels que «don’t» et «we’re» et devrait être incluse dans le texte source, mais il est peu probable que vous ayez besoin d’un symbole spécial tel que «@» ou «#. ”
- Lettres étrangères. Les lettres doivent être valides dans la langue parlée. Par exemple, “ж” est une lettre de l’alphabet russe qui n’est jamais utilisée en français et ne doit donc jamais figurer dans un texte source français.
S’il vous plaît laissez-moi savoir si vous avez des questions.
Merci encore!