Viết tiếng Việt trôi chảy thì dễ. Biết khi nào nó sai mới là việc.
Một dấu thanh là khác biệt giữa một người bạn và một nấm mồ. Chạm vào một âm tiết để lướt qua các nghĩa của nó, thứ duy nhất thay đổi là cái dấu.
Vì sao tiếng Việt khó với AI
Sáu chỗ mà một mô hình huấn luyện trên tiếng Việt thu thập từ web hoặc gán nhãn đại trà âm thầm sai, và là nơi phán đoán bản ngữ phát huy giá trị.
Sáu thanh, sáu từ khác nhau trên một âm tiết. Mô hình san phẳng thanh điệu sẽ tự tin tuôn ra những điều vô nghĩa.
Bỏ dấu đi thì từ đổi nghĩa hoặc chết hẳn. Tiếng Việt thu thập từ web thường bị mất dấu, âm thầm đầu độc dữ liệu huấn luyện.
Đại từ mã hóa thứ bậc và tuổi tác. San phẳng "em/anh" thành "I/you" là xóa luôn cái trật tự mà người bản ngữ luôn nghe thấy.
Miền Bắc, miền Trung và miền Nam khác nhau về từ vựng và thanh điệu. "Đúng" tùy thuộc vào đối tượng người nghe.
Tiếng Việt cần đúng loại từ cho mỗi danh từ. Mô hình thì đoán; người bản ngữ bắt được ngay.
Tiếng Việt thực tế trộn lẫn thuật ngữ công nghệ tiếng Anh. Biết khi nào giữ nguyên, chú giải hay dịch là phán đoán, không phải một quy tắc.
Tiếng Việt mất dấu là một trò đoán mò.
Tiếng Việt thu thập từ web mất đi dấu thanh, và mất luôn cả nghĩa. Chọn một dòng đã bị tước dấu và xem các dấu, các dấu, rơi trở lại đúng chỗ.
Mỗi lần loại bỏ đều kèm một lý do.
Cùng một quy trình tôi chạy cho Scale AI và Mindrift: đọc prompt, so sánh các đầu ra, chọn, và viết ra lý do, để dữ liệu ưu tiên có thể kiểm chứng được, không phải cảm tính.
Những sai sót xuất xưởng dưới dạng tiếng Việt đầy tự tin.
Các kiểu lỗi thực tế từ đầu ra của máy và của đám đông: phiên bản sai, bản sửa của người bản ngữ, và vì sao nó quan trọng.
Một thông điệp, bốn văn phong.
"Tôi cần nghỉ hai ngày." Tiếng Việt mã hóa mối quan hệ trong từng đại từ và tiểu từ. Đổi văn phong và nhìn cùng một ý định thay hình đổi dạng.
Sáu thanh trên một âm tiết.
"ma" mang sáu từ khác nhau tùy theo đường nét thanh điệu. Bấm vào một thanh để vẽ cao độ của nó và nghe một phiên bản cách điệu.
Cái nào người bản ngữ sẽ giao?
Ba vòng. Chọn đầu ra mà bạn sẽ chấp nhận đưa vào một bộ dữ liệu tiếng Việt. Lý do và phán quyết chỉ hiện ra sau khi bạn chọn.
Bảy năm đọc tiếng Việt một cách kỹ lưỡng.
Rê chuột vào các thuật ngữ được đánh dấu để xem ghi chú đằng sau chúng. Chính khả năng phán đoán này là thứ tôi mang đến cho một bộ quy ước nhãn.
Các lĩnh vực tôi làm
Phán đoán bản ngữ áp dụng được xuyên suốt các loại nội dung mà các phòng lab thực sự huấn luyện.
Chuyên gia bản ngữ vs đại trà vs tổng hợp
Điều phân biệt dữ liệu mà mô hình có thể tin tưởng với dữ liệu dạy nó những sai lầm đầy tự tin.
| Tín hiệu chất lượng | Chuyên gia bản ngữ (tôi) | Đại trà | Tổng hợp / thu thập web |
|---|---|---|---|
| Văn phong & kính ngữ | Kiểm soát được | Thường sai | Bị san phẳng |
| Từ dễ nhầm | Bắt được | Bỏ sót | Bị khuếch đại |
| Tính chính xác về sự kiện | Đã kiểm chứng | Tùy lúc | Bịa ra |
| Tính toàn vẹn của dấu thanh | Nguyên vẹn | Tùy lúc | Thường bị lược |
| Lý do cho mỗi nhãn | Mọi mục | Không có | Không có |
| Tính nhất quán ở quy mô lớn | Một chuẩn duy nhất | Lệch giữa người gán nhãn | Đồng đều nhưng sai |
Bản ghi sạch theo schema của bạn, không phải một bản xuất bí ẩn.
Mỗi mẻ được giao đúng định dạng mà pipeline của bạn mong đợi, mỗi mục tự mô tả. Chuyển định dạng để xem một bản ghi thật.
Từ spec đến dữ liệu đã chấm.
Cùng một vòng lặp, dù là bộ hiệu chỉnh năm mươi mục hay dự án năm trăm giờ.
Xác định phạm vi & guideline
Chúng ta thống nhất về task, label spec, schema và rubric cho ca biên. Tôi nêu các điểm mơ hồ trước khi gán nhãn dù chỉ một mục.
Mẻ hiệu chỉnh
Một mẻ thử nhỏ để bạn duyệt, để chốt chuẩn trước khi làm quy mô. Mỗi bất đồng trở thành một quy tắc được ghi lại, không phải một phỏng đoán lặp lại nghìn lần.
Sản xuất kèm lý do
Dữ liệu được viết hoặc chấm ở quy mô lớn, mỗi mục mang theo lý do đằng sau nó, để chất lượng luôn kiểm chứng được thay vì là một hộp đen.
QA & bàn giao
Một lượt rà tính nhất quán trên cả mẻ, rồi bàn giao đúng định dạng của bạn kèm báo cáo lỗi ngắn. Chỉnh sửa cho đến khi sạch.
Một mẻ dữ liệu ưu tiên, từ brief đến bàn giao.
Một dự án tiêu biểu. Các con số là điển hình, khách hàng ẩn danh theo NDA.
- Brief. Phòng lab cần dữ liệu ưu tiên tiếng Việt về giọng điệu trợ lý, theo schema riêng của họ, kèm quy tắc "không san phẳng kính ngữ".
- Hiệu chỉnh. Một mẻ thử 50 cặp làm lộ ra ba bất đồng về các ca biên văn phong; mỗi điểm trở thành một quy tắc được ghi lại trước khi mở rộng.
- Sản xuất. 1.200 cặp được chọn / bị loại, mỗi cặp kèm một lý do một dòng, giữ đúng chuẩn đã khóa trên cả mẻ.
- QA & bàn giao. Một lượt rà tính nhất quán, rồi JSONL theo schema của họ kèm báo cáo lỗi ngắn. Hai vòng làm rõ, rồi nghiệm thu.
Cái được không phải là tốc độ. Đó là mỗi cặp đều mang theo một lý do, nên đội của họ có thể kiểm chứng chuẩn thay vì phải tin nó.
Gửi spec của task, nhận kế hoạch trong một ngày.
Không có bảng giá cố định. Cho tôi biết task, tôi định phạm vi theo guideline của bạn.
Cho tôi biết task, cặp ngôn ngữ, khối lượng và schema của bạn. Bạn sẽ nhận lại hướng tiếp cận, mức giá và kế hoạch hiệu chỉnh, thường trong vòng một ngày làm việc.
Giá: theo giờ hoặc theo mục, chốt sau một mẻ hiệu chỉnh ngắn có trả phí · NDA trước khi nhận bất kỳ dữ liệu nào · Phản hồi trong một ngày làm việc · USD qua Upwork, chuyển khoản, PayPal, Wise.