说一口流利越南语很容易。知道它哪里错了,才是真功夫。
一个声调符号,就是"朋友"与"坟墓"的区别。点一个音节,依次走过它的各个意思,唯一变化的就是 dấu。
为什么越南语对 AI 来说很难
在抓取或众包标注的越南语上训练的模型,会在六处悄悄出错,而这正是母语判断力发挥价值的地方。
六个声调,同一个音节就是六个不同的词。抹平声调的模型只会自信地输出胡话。
去掉 dấu,词义就变了或者死了。抓取的越南语常被剥离声调,这会悄悄毒害训练数据。
代词承载着身份与年龄的高低。把"em/anh"抹平成"我/你",母语者总能听出的那层等级关系就消失了。
北部、中部、南部在词汇和声调上各不相同。所谓"正确",取决于目标受众是谁。
越南语需要为每个名词配上正确的量词。模型靠猜;母语者一眼就能抓住。
真实的越南语会混入英语科技词。何时保留、注释还是翻译,靠的是判断力,而不是某条规则。
没有声调符号的越南语,是一场猜谜游戏。
抓取的越南语会丢掉它的声调符号,连同意思一起丢掉。挑一行被剥离的句子,看那些符号,也就是 dấu,重新落回原位。
每一次拒绝,都附带一个理由。
这就是我为 Scale AI 和 Mindrift 运行的同一套流程:读提示词、对比输出、做出选择,并写下原因,让偏好数据可被审计,而不是凭感觉。
那些以自信越南语之名交付出去的错误。
来自机器和众包输出的真实失败模式:错误的版本、母语者的修正,以及它为什么重要。
同一句话,四种语域。
"我要请两天假。"越南语在每一个代词和语气词里都编码了人与人之间的关系。切换语域,看同样的意图如何变换形态。
同一个音节上的六个声调。
"ma"会随着声调的曲线变化承载六个不同的词。点一个声调,画出它的音高,并听一个风格化的版本。
哪一个是母语者会交付的?
三轮。挑出你愿意收进越南语数据集的那条输出。理由和判定会在你选择之后才揭晓。
七年来,我都在细读越南语。
把鼠标悬停在标记的术语上,看看它们背后的工作笔记。这正是我带进标注规范的那份判断力。
我涉足的领域
母语判断力贯穿各类实验室真正用来训练模型的内容类型。
母语专家 vs 众包 vs 合成
什么区分了模型可以信赖的数据,和那种教它犯自信错误的数据。
| 质量信号 | 母语专家(我) | 众包 | 合成 / 抓取 |
|---|---|---|---|
| 语域与敬语 | 可控 | 常常出错 | 被抹平 |
| 假朋友 | 能抓住 | 被漏掉 | 被放大 |
| 事实性 | 经核验 | 参差不齐 | 被臆造 |
| 声调符号完整性 | 完整保留 | 参差不齐 | 常被剥离 |
| 每条标注的理由 | 每一条都有 | 没有 | 没有 |
| 规模化下的一致性 | 单一标准 | 评分者间漂移 | 统一但错误 |
按你的 schema 交付干净的记录,而不是一份让人摸不着头脑的导出。
每一批都以你的流水线所期望的格式交付,每一条都自带说明。切换格式,看一条真实记录。
从规范到已评分的数据。
无论是五十条的校准集还是五百小时的项目,都是同一套流程。
界定范围与指南
我们先就任务、标注规范、schema 和边界情形评分细则达成一致。在标注任何一条之前,我会先指出含糊之处。
校准批次
一个供你审阅的小型试点,在规模化之前锁定标准。每一处分歧都变成一条写下来的规则,而不是重复一千遍的猜测。
带理由的生产
在规模上撰写或评分数据,每一条都附带其背后的理由,让质量可审计,而非黑箱。
质检与交付
对整批做一致性复核,然后按你的格式交付,附一份简短的错误报告。修订直到干净为止。
一个偏好批次,从简报到交付。
一个有代表性的合作。数字是典型情况,客户在 NDA 下保持匿名。
- 简报。该实验室需要关于助手语气的越南语偏好数据,使用他们自己的 schema,并带有一条"不得抹平敬语"的规则。
- 校准。一个 50 对的试点暴露出三处关于语域边界情形的分歧;每一处在规模化之前都变成了一条写下来的规则。
- 生产。1,200 对 chosen / rejected 配对,每一对都附带一句理由,在整个批次中坚守锁定的标准。
- 质检与交付。一次一致性复核,然后按他们的 schema 交付 JSONL,附一份简短的错误报告。两轮澄清,然后签收。
关键的胜利不在速度。而在于每一对都带着一个理由,让他们的团队可以审计标准,而不是凭信任接受它。
发来任务规范,一天内拿到方案。
没有固定菜单。告诉我任务,我按你的指南界定范围。