Chuyên gia ngôn ngữ tiếng Việt bản ngữ · SFT · RLHF · gỡ băng · đánh giá

Mô hình của bạn chỉ tốt ngang với

Tôi là Dao Huy (Lucas), một chuyên gia ngôn ngữ tiếng Việt bản ngữ. Tôi xây dựng và chấm dữ liệu dạy mô hình của bạn tiếng Việt thật: cặp SFT, gán nhãn RLHF và ưu tiên, prompt, gỡ băng và đánh giá, với khả năng phán đoán mà người gán nhãn đại trà bỏ sót, và một lý do viết rõ trên mỗi nhãn.

500+
giờ đã gán nhãn
Scale AI · Mindrift
tin dùng
4.99★
Upwork, 81 đánh giá
Ai
Chuyên gia ngôn ngữ tiếng Việt bản ngữ, Đà Nẵng, 7+ năm
Dịch vụ
SFT · RLHF / ưu tiên · prompt & dò lỗi · gỡ băng / ASR · đánh giá · kiểm định ngôn ngữ
Bằng chứng
500+ giờ · Scale AI (200+) · Mindrift / Turing (300+) · Upwork Top-Rated Plus
Cặp ngôn ngữ
Anh · Trung · Pháp → Việt
Định dạng
JSONL · CSV · XLIFF · CoNLL · ELAN / TextGrid · schema của bạn
ngang · phán đoán bản ngữ

Viết tiếng Việt trôi chảy thì dễ. Biết khi nào nó sai mới là việc.

Một dấu thanh là khác biệt giữa một người bạn và một nấm mồ. Chạm vào một âm tiết để lướt qua các nghĩa của nó, thứ duy nhất thay đổi là cái dấu.

Vì sao tiếng Việt khó với AI

Sáu chỗ mà một mô hình huấn luyện trên tiếng Việt thu thập từ web hoặc gán nhãn đại trà âm thầm sai, và là nơi phán đoán bản ngữ phát huy giá trị.

Thanh điệuma · má · mà · mả · mã · mạ

Sáu thanh, sáu từ khác nhau trên một âm tiết. Mô hình san phẳng thanh điệu sẽ tự tin tuôn ra những điều vô nghĩa.

Dấu thanhcà phê → ca phe

Bỏ dấu đi thì từ đổi nghĩa hoặc chết hẳn. Tiếng Việt thu thập từ web thường bị mất dấu, âm thầm đầu độc dữ liệu huấn luyện.

Văn phong & kính ngữem · anh · chị · dạ

Đại từ mã hóa thứ bậc và tuổi tác. San phẳng "em/anh" thành "I/you" là xóa luôn cái trật tự mà người bản ngữ luôn nghe thấy.

Phương ngữBắc · Trung · Nam

Miền Bắc, miền Trung và miền Nam khác nhau về từ vựng và thanh điệu. "Đúng" tùy thuộc vào đối tượng người nghe.

Loại từcon · cái · chiếc

Tiếng Việt cần đúng loại từ cho mỗi danh từ. Mô hình thì đoán; người bản ngữ bắt được ngay.

Chuyển mã"chốt deadline nhé"

Tiếng Việt thực tế trộn lẫn thuật ngữ công nghệ tiếng Anh. Biết khi nào giữ nguyên, chú giải hay dịch là phán đoán, không phải một quy tắc.

dấu · những gì web lược bỏ

Tiếng Việt mất dấu là một trò đoán mò.

Tiếng Việt thu thập từ web mất đi dấu thanh, và mất luôn cả nghĩa. Chọn một dòng đã bị tước dấu và xem các dấu, các dấu, rơi trở lại đúng chỗ.

sắc · cách tôi chấm

Mỗi lần loại bỏ đều kèm một lý do.

Cùng một quy trình tôi chạy cho Scale AI và Mindrift: đọc prompt, so sánh các đầu ra, chọn, và viết ra lý do, để dữ liệu ưu tiên có thể kiểm chứng được, không phải cảm tính.

lỗi · trước và sau

Những sai sót xuất xưởng dưới dạng tiếng Việt đầy tự tin.

Các kiểu lỗi thực tế từ đầu ra của máy và của đám đông: phiên bản sai, bản sửa của người bản ngữ, và vì sao nó quan trọng.

huyền · văn phong

Một thông điệp, bốn văn phong.

"Tôi cần nghỉ hai ngày." Tiếng Việt mã hóa mối quan hệ trong từng đại từ và tiểu từ. Đổi văn phong và nhìn cùng một ý định thay hình đổi dạng.

hỏi · sáu thanh điệu

Sáu thanh trên một âm tiết.

"ma" mang sáu từ khác nhau tùy theo đường nét thanh điệu. Bấm vào một thanh để vẽ cao độ của nó và nghe một phiên bản cách điệu.

ngã · đoán bản ngữ

Cái nào người bản ngữ sẽ giao?

Ba vòng. Chọn đầu ra mà bạn sẽ chấp nhận đưa vào một bộ dữ liệu tiếng Việt. Lý do và phán quyết chỉ hiện ra sau khi bạn chọn.

nặng · sổ tay điền dã

Bảy năm đọc tiếng Việt một cách kỹ lưỡng.

Rê chuột vào các thuật ngữ được đánh dấu để xem ghi chú đằng sau chúng. Chính khả năng phán đoán này là thứ tôi mang đến cho một bộ quy ước nhãn.

Rê chuột vào một thuật ngữ được đánh dấu →

Các lĩnh vực tôi làm

Phán đoán bản ngữ áp dụng được xuyên suốt các loại nội dung mà các phòng lab thực sự huấn luyện.

Chuyên gia bản ngữ vs đại trà vs tổng hợp

Điều phân biệt dữ liệu mà mô hình có thể tin tưởng với dữ liệu dạy nó những sai lầm đầy tự tin.

Tín hiệu chất lượngChuyên gia bản ngữ (tôi)Đại tràTổng hợp / thu thập web
Văn phong & kính ngữKiểm soát đượcThường saiBị san phẳng
Từ dễ nhầmBắt đượcBỏ sótBị khuếch đại
Tính chính xác về sự kiệnĐã kiểm chứngTùy lúcBịa ra
Tính toàn vẹn của dấu thanhNguyên vẹnTùy lúcThường bị lược
Lý do cho mỗi nhãnMọi mụcKhông cóKhông có
Tính nhất quán ở quy mô lớnMột chuẩn duy nhấtLệch giữa người gán nhãnĐồng đều nhưng sai
bàn giao · những gì bạn nhận được

Bản ghi sạch theo schema của bạn, không phải một bản xuất bí ẩn.

Mỗi mẻ được giao đúng định dạng mà pipeline của bạn mong đợi, mỗi mục tự mô tả. Chuyển định dạng để xem một bản ghi thật.

quy trình · cách dữ liệu được tạo ra

Từ spec đến dữ liệu đã chấm.

Cùng một vòng lặp, dù là bộ hiệu chỉnh năm mươi mục hay dự án năm trăm giờ.

1

Xác định phạm vi & guideline

Chúng ta thống nhất về task, label spec, schema và rubric cho ca biên. Tôi nêu các điểm mơ hồ trước khi gán nhãn dù chỉ một mục.

2

Mẻ hiệu chỉnh

Một mẻ thử nhỏ để bạn duyệt, để chốt chuẩn trước khi làm quy mô. Mỗi bất đồng trở thành một quy tắc được ghi lại, không phải một phỏng đoán lặp lại nghìn lần.

3

Sản xuất kèm lý do

Dữ liệu được viết hoặc chấm ở quy mô lớn, mỗi mục mang theo lý do đằng sau nó, để chất lượng luôn kiểm chứng được thay vì là một hộp đen.

4

QA & bàn giao

Một lượt rà tính nhất quán trên cả mẻ, rồi bàn giao đúng định dạng của bạn kèm báo cáo lỗi ngắn. Chỉnh sửa cho đến khi sạch.

case · một mẻ, từ đầu đến cuối

Một mẻ dữ liệu ưu tiên, từ brief đến bàn giao.

Một dự án tiêu biểu. Các con số là điển hình, khách hàng ẩn danh theo NDA.

~1,200
cặp ưu tiên
EN→VI
hội thoại trợ lý
3 → 0
xung đột quy tắc còn mở
100%
mục có lý do
  1. Brief. Phòng lab cần dữ liệu ưu tiên tiếng Việt về giọng điệu trợ lý, theo schema riêng của họ, kèm quy tắc "không san phẳng kính ngữ".
  2. Hiệu chỉnh. Một mẻ thử 50 cặp làm lộ ra ba bất đồng về các ca biên văn phong; mỗi điểm trở thành một quy tắc được ghi lại trước khi mở rộng.
  3. Sản xuất. 1.200 cặp được chọn / bị loại, mỗi cặp kèm một lý do một dòng, giữ đúng chuẩn đã khóa trên cả mẻ.
  4. QA & bàn giao. Một lượt rà tính nhất quán, rồi JSONL theo schema của họ kèm báo cáo lỗi ngắn. Hai vòng làm rõ, rồi nghiệm thu.

Cái được không phải là tốc độ. Đó là mỗi cặp đều mang theo một lý do, nên đội của họ có thể kiểm chứng chuẩn thay vì phải tin nó.

báo giá · cách làm việc cùng nhau

Gửi spec của task, nhận kế hoạch trong một ngày.

Không có bảng giá cố định. Cho tôi biết task, tôi định phạm vi theo guideline của bạn.

Cho tôi biết task, cặp ngôn ngữ, khối lượng và schema của bạn. Bạn sẽ nhận lại hướng tiếp cận, mức giá và kế hoạch hiệu chỉnh, thường trong vòng một ngày làm việc.

SFT / instructionRLHF / ưu tiênPrompt & red-teamGỡ băng / ASRĐánh giá & rubricQA ngôn ngữ

Giá: theo giờ hoặc theo mục, chốt sau một mẻ hiệu chỉnh ngắn có trả phí · NDA trước khi nhận bất kỳ dữ liệu nào · Phản hồi trong một ngày làm việc · USD qua Upwork, chuyển khoản, PayPal, Wise.

faq

Câu hỏi thường gặp.

thuật ngữ

Các thuật ngữ, nói cho dễ hiểu.

nhận báo giá

Gửi tôi một mẫu. Tôi sẽ chấm nó và nói cho bạn biết người gán nhãn của bạn đã bỏ sót gì.

Ký NDA trước khi nhận dữ liệu · phản hồi trong một ngày làm việc · USD qua Upwork, ngân hàng, PayPal, Wise

Gửi email một mẫu để chấm →