8. Đa dạng hóa ví dụ khi huấn luyện few-shot

Mở đầu: Khi ví dụ của bạn quá “một màu”

Giả sử bạn đang dạy ChatGPT phân loại cảm xúc trong câu: “Vui, Buồn, Tức giận.” Bạn viết prompt kiểu few-shot (tức là cho vài ví dụ mẫu):

Hãy phân loại cảm xúc trong câu sau:
Ví dụ:
1. Tôi trúng xổ số! → Vui
2. Trời ơi, tôi mất ví rồi. → Buồn
3. Tôi ghét anh ta! → Tức giận
Câu mới: Hôm nay tôi rất hạnh phúc.

Kết quả: mô hình trả lời “Vui” — đúng rồi! Bạn thử thêm vài câu khác… vẫn ổn. Nhưng rồi, đến một câu hơi “mập mờ”:

“Tôi chẳng quan tâm nữa.”

Mô hình bắt đầu… đoán bừa. Vì sao vậy? Bởi vì toàn bộ ví dụ bạn đưa ra đều quá đơn giản và giống nhau – mô hình không học được cách “phân biệt tinh tế”. Đó là lúc nguyên tắc “Mix It Up” trở nên quan trọng.

Giải thích ý tưởng chính: Đa dạng để mô hình hiểu sâu hơn

“Few-shot prompting” là kỹ thuật bạn đưa cho mô hình vài ví dụ mẫu trước khi yêu cầu nó làm bài tương tự. Nhưng nếu các ví dụ đó đều quá giống nhau, mô hình sẽ “bắt chước hời hợt” thay vì hiểu được bản chất.

👉 Khi bạn đa dạng hóa ví dụ, mô hình học được nhiều “góc nhìn” khác nhau của cùng một nhiệm vụ.

Ví dụ:

Nếu bạn muốn mô hình phân loại cảm xúc, hãy đưa ví dụ ở nhiều tông giọng khác nhau – nhẹ nhàng, mỉa mai, gián tiếp, v.v.
Nếu bạn muốn mô hình viết mô tả sản phẩm, hãy cho ví dụ ở nhiều phong cách – ngắn, dài, nghiêm túc, hài hước,…

Càng phong phú, mô hình càng hiểu đúng phạm vi công việc bạn muốn nó làm.

Vì sao nguyên tắc này quan trọng?

Trong thực tế, ngôn ngữ không bao giờ đồng nhất. Cùng một ý “buồn” có thể được diễn đạt theo vô số cách:

“Tôi khóc suốt cả đêm.” “Chẳng còn gì khiến tôi vui nữa.” “Ờ, mọi thứ đều ổn thôi… (nhưng không ổn chút nào).”

Nếu mô hình chỉ được “nhìn” một kiểu ví dụ, nó sẽ thiếu linh hoạt và dễ hiểu sai khi gặp trường hợp mới.

Bởi vậy, đa dạng hóa ví dụ là cách giúp mô hình:

Hiểu được ý nghĩa thật, không chỉ học thuộc mẫu.
Trả lời ổn định hơn trong nhiều tình huống khác nhau.
Giảm nguy cơ lệch hướng hoặc đoán sai khi gặp câu lạ.

Ví dụ minh họa

Ví dụ 1: Phân loại cảm xúc

Prompt kém (ví dụ một màu):

Hãy phân loại cảm xúc: Vui, Buồn, Tức giận.
Ví dụ:
1. Tôi trúng số! → Vui
2. Tôi mất ví rồi. → Buồn
3. Tôi ghét anh ta! → Tức giận
Câu mới: Tôi thấy hơi mệt mỏi.

→ Mô hình dễ bị “ngộp” vì các ví dụ quá đơn giản.

Prompt tốt (đa dạng hơn):

Hãy phân loại cảm xúc: Vui, Buồn, Tức giận.
Ví dụ:
1. Cuối cùng mình cũng được thăng chức! → Vui
2. Không biết bao giờ mọi chuyện mới khá hơn. → Buồn
3. Đừng có nói với tôi nữa! → Tức giận
4. Thật nhẹ nhõm khi mọi thứ đã qua. → Vui
5. Tôi không muốn ai làm phiền lúc này. → Buồn
Câu mới: Tôi thấy hơi mệt mỏi.

→ Mô hình học được nhiều sắc thái cảm xúc hơn, nên kết quả chính xác hơn.

Ví dụ 2: Viết mô tả sản phẩm

Prompt 1 (đơn điệu):

Viết mô tả sản phẩm cà phê.
Ví dụ:
- Cà phê đen thơm ngon, giúp bạn tỉnh táo.
Sản phẩm mới: Cà phê sữa đá.

→ Kết quả khá “một màu”, mô hình chỉ lặp lại cấu trúc cũ.

Prompt 2 (đa dạng hóa):

Viết mô tả sản phẩm cà phê, mỗi ví dụ có phong cách khác nhau.
Ví dụ:
1. Cà phê đen thơm ngát – lựa chọn hoàn hảo cho buổi sáng năng động.
2. Ly cà phê lạnh mang đến hương vị mát lành giữa trưa hè.
3. Một tách espresso đậm đà – đánh thức mọi giác quan.
Sản phẩm mới: Cà phê sữa đá.

→ Kết quả đa dạng, sáng tạo và tự nhiên hơn rõ rệt.

Khi nào nên – và không nên – áp dụng

Nên áp dụng khi:

Bạn đang huấn luyện mô hình với ví dụ mẫu (few-shot).
Nhiệm vụ có nhiều cách diễn đạt khác nhau (phân loại cảm xúc, tóm tắt, viết sáng tạo, v.v.).
Bạn muốn mô hình linh hoạt và bền vững hơn trong kết quả.

Không cần áp dụng khi:

Nhiệm vụ rất rõ ràng, có quy tắc cố định (ví dụ: tính toán, chuyển đổi đơn vị, định dạng dữ liệu).
Bạn chỉ cần kết quả nhất quán trong một dạng cụ thể (ví dụ: chỉ viết email chuyên nghiệp).

Mẹo nhỏ cuối chương

🧩 Đưa ví dụ cân bằng giữa các nhóm: nếu bạn có 3 loại kết quả (như “Vui – Buồn – Tức giận”), hãy cho ví dụ cho cả ba, đừng để nhóm nào bị thiếu.
✍️ Thử thay đổi giọng văn: từ trang trọng → thân mật, từ trực tiếp → gián tiếp.
🧠 Coi mỗi ví dụ như một góc nhìn khác của cùng bài toán – càng phong phú, mô hình càng “hiểu sâu”.

Tóm lại:

Khi huấn luyện mô hình bằng ví dụ (few-shot), đừng chỉ cho nó thấy một kiểu — hãy đa dạng hóa để nó thật sự hiểu bạn muốn gì.