Question 1

你能生产哪些类型的越南语 AI 训练数据？

Accepted Answer

SFT / 指令数据集、RLHF 与偏好 / DPO 标注、提示词工程与红队测试、转写与语音，以及模型或机器翻译评估，全部为母语越南语并配有语言质检。

Question 2

母语标注与众包标注有何不同？

Accepted Answer

众包标注追求速度与表面流畅，会漏掉语域、声调和假朋友，且没有理由，因此错误会反复出现。作为母语语言学家，我以准确和自然为目标，为每一条标注附上书面理由，并在整个项目中坚持同一标准。

Question 3

你交付哪些格式？

Accepted Answer

JSONL、CSV、XLIFF、CoNLL，以及用于语音的 ELAN / TextGrid，或你自己的 schema。偏好数据以 prompt / chosen / rejected / reason 的形式交付。

Question 4

你涵盖越南语方言吗？

Accepted Answer

是的。北部、中部和南部的语域与词汇，加上正式 / 职场 / 街头这一轴线，相关约定会事先商定好。

Question 5

你能在我们的平台和规范内工作吗？

Accepted Answer

可以。我会在你的标注平台和标注规范中工作，并先跑一个小型校准批次，以便在规模化之前锁定标准。

Question 6

如何计价？

Accepted Answer

视任务按小时或按条计价，在一个简短的校准批次后商定。任何数据前先签 NDA；以美元结算，可通过 Upwork、银行、PayPal 或 Wise。

Question 7

你能处理越南语与英语的语码转换及混合数据吗？

Accepted Answer

可以。真实的越南语会混入英语科技与品牌词；我会逐条判断何时保留、注释或本地化一个借词，并在整套数据中保持该策略一致。

Question 8

你如何衡量质量与评分者间一致性？

Accepted Answer

依据你的评分标准：每条记录错误类型、严重程度和书面理由，再加上一个校准批次和抽查复核。对于多标注者项目，我也可以充当金标 / 仲裁环节。

Question 9

你能为评估构建金标或参考集吗？

Accepted Answer

可以。带有评分标准和边界情况、经专家核验的金标回答与评估集，用于对模型做基准测试，或以母语标准为基准为其他标注者打分。

Question 10

你能承接多大体量、多快交付？

Accepted Answer

校准批次一两天内完成；持续产出的规模按项目商定。我宁愿交付一套较小、干净、有理由支撑的数据集，也不愿交付一套又快又嘈杂的数据。

Question 11

为什么不直接用机器翻译或合成的越南语数据？

Accepted Answer

合成和抓取的越南语流畅却以会叠加放大的方式出错：声调符号被剥离、语域被抹平、事实被臆造、假朋友被放大，且没有理由。母语金标数据才是模型学习真正越南语所需要的。

质量信号	母语专家（我）	众包	合成 / 抓取
语域与敬语	可控	常常出错	被抹平
假朋友	能抓住	被漏掉	被放大
事实性	经核验	参差不齐	被臆造
声调符号完整性	完整保留	参差不齐	常被剥离
每条标注的理由	每一条都有	没有	没有
规模化下的一致性	单一标准	评分者间漂移	统一但错误

你的模型，好不过它学到的

说一口流利越南语很容易。知道它哪里错了，才是真功夫。