母语越南语语言学家 · SFT · RLHF · 转写 · 评估

你的模型,好不过它学到的

我是 Dao Huy(Lucas),一位母语越南语语言学家。我构建并评估那些教会你的模型真正越南语的数据,包括 SFT 配对、RLHF 与偏好标注、提示词、转写和评估,带着众包标注者欠缺的判断力,并为每一条标注写下理由。

500+
已标注小时数
Scale AI · Mindrift
信赖来自
4.99★
Upwork,81 条评价
是谁
母语越南语语言学家,岘港,7+ 年经验
服务
SFT · RLHF / 偏好 · 提示词与红队 · 转写 / ASR · 评估 · 语言质检
实绩
500+ 小时 · Scale AI(200+)· Mindrift / Turing(300+)· Upwork Top-Rated Plus
语言对
英语 · 中文 · 法语 → 越南语
格式
JSONL · CSV · XLIFF · CoNLL · ELAN / TextGrid · 你的 schema
ngang · 母语判断力

说一口流利越南语很容易。知道它哪里错了,才是真功夫。

一个声调符号,就是"朋友"与"坟墓"的区别。点一个音节,依次走过它的各个意思,唯一变化的就是 dấu。

为什么越南语对 AI 来说很难

在抓取或众包标注的越南语上训练的模型,会在六处悄悄出错,而这正是母语判断力发挥价值的地方。

声调ma · má · mà · mả · mã · mạ

六个声调,同一个音节就是六个不同的词。抹平声调的模型只会自信地输出胡话。

声调符号cà phê → ca phe

去掉 dấu,词义就变了或者死了。抓取的越南语常被剥离声调,这会悄悄毒害训练数据。

语域与敬语em · anh · chị · dạ

代词承载着身份与年龄的高低。把"em/anh"抹平成"我/你",母语者总能听出的那层等级关系就消失了。

方言Bắc · Trung · Nam

北部、中部、南部在词汇和声调上各不相同。所谓"正确",取决于目标受众是谁。

量词con · cái · chiếc

越南语需要为每个名词配上正确的量词。模型靠猜;母语者一眼就能抓住。

语码转换"chốt deadline nhé"

真实的越南语会混入英语科技词。何时保留、注释还是翻译,靠的是判断力,而不是某条规则。

dấu · 网络抹掉了什么

没有声调符号的越南语,是一场猜谜游戏。

抓取的越南语会丢掉它的声调符号,连同意思一起丢掉。挑一行被剥离的句子,看那些符号,也就是 dấu,重新落回原位。

sắc · 我如何评分

每一次拒绝,都附带一个理由。

这就是我为 Scale AI 和 Mindrift 运行的同一套流程:读提示词、对比输出、做出选择,并写下原因,让偏好数据可被审计,而不是凭感觉。

errors · 修正前后对照

那些以自信越南语之名交付出去的错误。

来自机器和众包输出的真实失败模式:错误的版本、母语者的修正,以及它为什么重要。

huyền · 语域

同一句话,四种语域。

"我要请两天假。"越南语在每一个代词和语气词里都编码了人与人之间的关系。切换语域,看同样的意图如何变换形态。

hỏi · 六个声调

同一个音节上的六个声调。

"ma"会随着声调的曲线变化承载六个不同的词。点一个声调,画出它的音高,并听一个风格化的版本。

ngã · 辨别母语者

哪一个是母语者会交付的?

三轮。挑出你愿意收进越南语数据集的那条输出。理由和判定会在你选择之后才揭晓。

nặng · 田野笔记

七年来,我都在细读越南语。

把鼠标悬停在标记的术语上,看看它们背后的工作笔记。这正是我带进标注规范的那份判断力。

悬停一个标记术语 →

我涉足的领域

母语判断力贯穿各类实验室真正用来训练模型的内容类型。

母语专家 vs 众包 vs 合成

什么区分了模型可以信赖的数据,和那种教它犯自信错误的数据。

质量信号母语专家(我)众包合成 / 抓取
语域与敬语可控常常出错被抹平
假朋友能抓住被漏掉被放大
事实性经核验参差不齐被臆造
声调符号完整性完整保留参差不齐常被剥离
每条标注的理由每一条都有没有没有
规模化下的一致性单一标准评分者间漂移统一但错误
deliver · 你收到什么

按你的 schema 交付干净的记录,而不是一份让人摸不着头脑的导出。

每一批都以你的流水线所期望的格式交付,每一条都自带说明。切换格式,看一条真实记录。

流程 · 数据是如何做出来的

从规范到已评分的数据。

无论是五十条的校准集还是五百小时的项目,都是同一套流程。

1

界定范围与指南

我们先就任务、标注规范、schema 和边界情形评分细则达成一致。在标注任何一条之前,我会先指出含糊之处。

2

校准批次

一个供你审阅的小型试点,在规模化之前锁定标准。每一处分歧都变成一条写下来的规则,而不是重复一千遍的猜测。

3

带理由的生产

在规模上撰写或评分数据,每一条都附带其背后的理由,让质量可审计,而非黑箱。

4

质检与交付

对整批做一致性复核,然后按你的格式交付,附一份简短的错误报告。修订直到干净为止。

case · 一个批次,从头到尾

一个偏好批次,从简报到交付。

一个有代表性的合作。数字是典型情况,客户在 NDA 下保持匿名。

~1,200
偏好配对
EN→VI
助手对话
3 → 0
未决规则冲突
100%
附带理由的条目
  1. 简报。该实验室需要关于助手语气的越南语偏好数据,使用他们自己的 schema,并带有一条"不得抹平敬语"的规则。
  2. 校准。一个 50 对的试点暴露出三处关于语域边界情形的分歧;每一处在规模化之前都变成了一条写下来的规则。
  3. 生产。1,200 对 chosen / rejected 配对,每一对都附带一句理由,在整个批次中坚守锁定的标准。
  4. 质检与交付。一次一致性复核,然后按他们的 schema 交付 JSONL,附一份简短的错误报告。两轮澄清,然后签收。

关键的胜利不在速度。而在于每一对都带着一个理由,让他们的团队可以审计标准,而不是凭信任接受它。

报价 · 合作方式

发来任务规范,一天内拿到方案。

没有固定菜单。告诉我任务,我按你的指南界定范围。

告诉我任务、语言对、数量和你的 schema。你会收到一套思路、一个报价和一份校准计划,通常在一个工作日内。

SFT / 指令RLHF / 偏好Prompt 与红队转写 / ASR评估与细则语言质检

价格:按小时或按条计,在一个简短的付费校准批次后锁定 · 接收任何数据前先签 NDA · 一个工作日内回复 · 通过 Upwork、银行转账、PayPal、Wise 以美元结算。

常见问题

常见问题。

术语表

用大白话解释这些术语。

获取报价

发我一个样本。我会评分,并告诉你你的标注者漏掉了什么。

任何数据前先签 NDA · 一个工作日内回复 · 以美元结算,可通过 Upwork、银行、PayPal、Wise

发一个样本来评分 →