Chúng tôi xin giới thiệu bài viết rất hay của tác giả Nguyễn Hiền về việc train dữ liệu cho ChatGPT.
“GPT này được train từ 100 tài liệu”,
“GPT kia được train từ 20.000 kịch bản video”…
Nghe giật tít có kinh không các bạn? Còn mình thấy mấy bài này mình chỉ buồn cười.

Nhiều người vẫn nghĩ: chỉ cần đưa vài tài liệu vào là gọi là huấn luyện GPT. Nghe cho sang, nhưng thực chất lại chưa đúng bản chất.
Sai lầm về huấn luyện ChatGPT bằng dữ liệu của bạn!
GPT không phải tờ giấy trắng – nó là mô hình đã được huấn luyện từ trước trên khối lượng dữ liệu khổng lồ: Internet, sách vở, báo cáo nghiên cứu, diễn đàn, v.v.
Nói cách khác: cái gì đại chúng, GPT biết hết rồi.
Thứ bạn thực sự cần không phải là nhồi thêm kiến thức, mà là hướng dẫn nó dùng kiến thức đúng cách.
Và để làm được điều đó, có 3 yếu tố bạn bắt buộc phải hiểu khi làm việc với GPT:
1. Ngữ cảnh (Context)
Đây là phần định hình ‘bộ não’ của GPT trong một phiên làm việc hoặc Custom GPT.
Bạn cần xác định rõ: GPT là ai, đang nói chuyện với ai, phong cách phản hồi ra sao, giới hạn kiến thức nào.
Nói nôm na: context là khung tư duy cho toàn bộ cuộc trò chuyện.
2. Prompt
Là chỉ dẫn ngắn hạn trong từng lần hỏi.
Một prompt tốt cần rõ ràng, cụ thể, không mâu thuẫn với context.
Nếu context là vai diễn, thì prompt là lời thoại bạn giao cho diễn viên.
Xem thêm Prompt Engineering là gì?
3. Tài liệu bổ sung
Chỉ nên dùng khi tài liệu thực sự đặc thù: quy trình nội bộ, thông tin chưa công khai, insight độc quyền.
Còn nếu GPT đã biết rồi, đừng bắt nó học lại lần nữa.
Tóm lại: GPT không cần bạn “train” lại. Nó cần bạn “định hướng” thông minh. Còn nếu bạn cứ đưa sách giáo khoa lớp 3 cho tiến sĩ rồi bắt họ “học lại từ đầu”… thì, xin lỗi, đó không phải huấn luyện – mà là lãng phí!