Le vietnamien fluide est facile. Savoir quand il est faux, c’est le métier.
Une marque de ton sépare un ami d’une tombe. Touchez une syllabe pour parcourir ses sens : la seule chose qui change, c’est le dấu.
Pourquoi le vietnamien est difficile pour l’IA
Six endroits où un modèle entraîné sur du vietnamien collecté ou étiqueté en foule se trompe discrètement, et où le jugement d’un natif fait la différence.
Six tons, six mots différents sur une seule syllabe. Un modèle qui aplatit le ton produit des absurdités avec aplomb.
Retirez le dấu et le mot change ou disparaît. Le vietnamien collecté est souvent privé de tons, ce qui empoisonne discrètement les données d’entraînement.
Les pronoms encodent le rang et l’âge. Aplatissez "em/anh" en "je/tu" et la hiérarchie qu’un natif entend toujours disparaît.
Le Nord, le Centre et le Sud diffèrent par le lexique et le ton. Le "correct" dépend du public visé.
Le vietnamien exige le bon classificateur pour chaque nom. Les modèles devinent ; un natif le repère instantanément.
Le vietnamien réel mêle des termes techniques anglais. Savoir quand conserver, gloser ou traduire relève du jugement, pas d’une règle.
Le vietnamien sans ses marques est un jeu de devinettes.
Le vietnamien collecté perd ses diacritiques, et avec eux le sens. Choisissez une ligne dépouillée et regardez les marques, les dấu, retomber à leur place.
Chaque rejet vient avec une raison.
La même boucle que je mène pour Scale AI et Mindrift : lire le prompt, comparer les sorties, choisir, et écrire pourquoi, pour que les données de préférence soient auditables, pas une impression.
Les fautes qui passent pour du vietnamien assuré.
Des modes de défaillance réels issus de sorties machine et de foule : la mauvaise version, la correction native, et pourquoi cela compte.
Un message, quatre registres.
"J’ai besoin de deux jours de congé." Le vietnamien encode la relation dans chaque pronom et chaque particule. Changez le registre et regardez la même intention changer de forme.
Six tons sur une seule syllabe.
"ma" porte six mots différents selon son contour tonal. Cliquez sur un ton pour tracer sa hauteur et en entendre une version stylisée.
Laquelle un natif livrerait-il ?
Trois manches. Choisissez la sortie que vous accepteriez dans un jeu de données vietnamien. La justification et le verdict ne se révèlent qu’après votre choix.
Sept ans à lire le vietnamien de près.
Survolez les termes marqués pour la note de travail qui se cache derrière. Ce jugement est ce que j’apporte à une spécification d’étiquetage.
Domaines dans lesquels je travaille
Le jugement d’un natif se transpose aux types de contenu sur lesquels les labos entraînent réellement leurs modèles.
Expert natif vs foule vs synthétique
Ce qui sépare des données auxquelles un modèle peut se fier de données qui lui apprennent des erreurs assurées.
| Signal de qualité | Expert natif (moi) | Participatif | Synthétique / collecté |
|---|---|---|---|
| Registre & honorifiques | Maîtrisé | Souvent faux | Aplati |
| Faux amis | Repérés | Manqués | Amplifiés |
| Factualité | Vérifiée | Variable | Hallucinée |
| Intégrité des diacritiques | Intacte | Variable | Souvent effacée |
| Justification par étiquette | Chaque item | Aucune | Aucune |
| Cohérence à l’échelle | Une seule norme | Dérive inter-annotateurs | Uniforme mais faux |
Des enregistrements propres dans votre schéma, pas un export mystère.
Chaque lot est livré dans le format que votre pipeline attend, chaque item auto-descriptif. Changez de format pour voir un enregistrement réel.
Du cahier des charges aux données notées.
La même boucle, qu'il s'agisse d'un jeu de calibration de cinquante éléments ou d'un programme de cinq cents heures.
Cadrage & consignes
Nous nous accordons sur la tâche, les consignes d'annotation, le schéma et une grille pour les cas limites. Je signale les ambiguïtés avant la moindre annotation.
Lot de calibration
Un petit pilote que vous validez, pour verrouiller le standard avant le passage à l'échelle. Chaque désaccord devient une règle écrite, pas une supposition répétée mille fois.
Production avec justification
Données rédigées ou notées à grande échelle, chaque élément portant la raison qui le sous-tend, pour une qualité vérifiable plutôt qu'une boîte noire.
QA & livraison
Une passe de cohérence sur tout le lot, puis livraison dans votre format avec un bref rapport d'erreurs. Révisions jusqu'à ce que ce soit propre.
Un lot de préférence, du brief à la livraison.
Une mission représentative. Les chiffres sont typiques, le client reste anonyme sous NDA.
- Brief. Le labo avait besoin de données de préférence vietnamiennes pour le ton d’un assistant, sur leur propre schéma, avec une règle "aucun honorifique aplati".
- Calibration. Un pilote de 50 paires a fait remonter trois désaccords sur des cas limites de registre ; chacun est devenu une règle écrite avant le passage à l’échelle.
- Production. 1 200 paires choisi / rejeté, chacune avec une raison d’une ligne, tenues à la norme verrouillée sur tout le lot.
- QA & livraison. Une passe de cohérence, puis du JSONL dans leur schéma avec un bref rapport d’erreurs. Deux tours de clarification, puis validation.
Le gain n’était pas la vitesse. C’était que chaque paire portait une raison, pour que leur équipe puisse auditer la norme au lieu de lui faire confiance.
Envoyez un cahier des charges, recevez un plan en un jour.
Pas de menu figé. Dites-moi la tâche, je la cadre selon vos consignes.
Dites-moi la tâche, les paires de langues, le volume et votre schéma. Vous recevez une approche, un tarif et un plan de calibration, généralement sous un jour ouvré.
Tarif : à l'heure ou à l'élément, fixé après un court lot de calibration payant · NDA avant toute donnée · Réponse sous un jour ouvré · USD via Upwork, virement, PayPal, Wise.