Chương 8: ReAct: Lý luận và hành động

Chương 8: ReAct – Lý luận và hành động

Mở đầu: Khi AI không chỉ “nghĩ” mà còn “làm”

Bạn có bao giờ thấy ChatGPT đang làm toán, rồi bỗng “nhảy cóc” ra kết luận sai toét? Hay bạn bảo AI tra cứu thông tin, nó lại “bịa” ra một câu trả lời nghe rất thuyết phục nhưng hoàn toàn sai?

Đó là vì trong nhiều trường hợp, AI chỉ suy luận một mạch mà không dừng lại để “nghĩ xem nên làm gì tiếp theo”. Để khắc phục điều này, các nhà nghiên cứu đã phát triển một kỹ thuật rất thú vị – ReAct, viết tắt của Reasoning + Acting (Lý luận + Hành động).

Nói một cách dễ hiểu: ReAct dạy AI vừa suy nghĩ vừa hành động – giống như cách con người giải quyết vấn đề phức tạp vậy.

Phần 1: ReAct là gì?

ReAct là một kỹ thuật prompting giúp AI:

Lý luận (Reasoning) – phân tích, suy nghĩ logic để hiểu vấn đề.
Hành động (Acting) – thực hiện các bước cụ thể như tìm kiếm thông tin, tra dữ liệu, hoặc tính toán.

Cứ sau mỗi hành động, AI lại quay về lý luận tiếp để quyết định bước kế tiếp. Chu trình này diễn ra lặp lại cho đến khi tìm ra câu trả lời hợp lý.

Nếu “Chain of Thought” là cách để AI suy nghĩ có trật tự, thì “ReAct” là cách để AI vừa suy nghĩ vừa làm, tức là tư duy chủ động hơn.

Phần 2: Cách hoạt động của ReAct (hiểu đơn giản)

Giả sử bạn nhờ ChatGPT:

“Cho tôi biết năm sinh của nhà văn Nam Cao và tác phẩm nổi bật nhất của ông.”

Nếu AI không có truy cập Internet, nó sẽ dựa vào kiến thức đã học để trả lời trực tiếp. Nhưng nếu bạn dùng ReAct, prompt của bạn có thể giống như sau:

“Hãy suy nghĩ từng bước. Nếu cần thông tin mới, hãy tra cứu. Mỗi lần hãy:

Viết ra suy nghĩ (Reasoning)

Thực hiện hành động (Action)

Quan sát kết quả (Observation)

Tiếp tục cho đến khi có câu trả lời cuối cùng.”

Khi đó, ChatGPT sẽ “diễn tập” một chuỗi hành vi như:

Reasoning: “Tôi cần biết năm sinh của Nam Cao. Tôi sẽ tra cứu.”
Action: “Tìm kiếm: Nam Cao sinh năm nào?”
Observation: “Kết quả: Nam Cao sinh năm 1917.”
Reasoning: “Ông nổi tiếng với tác phẩm ‘Chí Phèo’.”
Final Answer: “Nam Cao sinh năm 1917, tác phẩm nổi bật là ‘Chí Phèo’.”

ReAct giúp AI chia nhỏ vấn đề, ra quyết định, và tự điều chỉnh cách làm – thay vì chỉ đưa ra câu trả lời một mạch.

Phần 3: Khi nào nên dùng ReAct?

Nên dùng ReAct khi:

Bài toán phức tạp, cần suy luận nhiều bước hoặc hành động theo giai đoạn.
Cần kết hợp giữa tư duy logic và truy xuất dữ liệu (ví dụ như tra web, đọc file, tính toán, hoặc lập kế hoạch).
Muốn AI giải thích cách nó đi đến kết quả, chứ không chỉ nêu đáp án.

Không nên dùng ReAct khi:

Câu hỏi quá đơn giản, ví dụ: “Việt Nam ở châu nào?”, “1 + 1 = ?”
Môi trường không hỗ trợ hành động thực (ví dụ ChatGPT không được phép gọi API hoặc truy cập Internet).

Phần 4: Ví dụ minh hoạ với ChatGPT

🧩 Ví dụ 1: Giải toán nhiều bước

Prompt thường:

“Tính diện tích tam giác có các cạnh 3, 4, 5.”

AI trả lời:

“Diện tích là 6.” (Đúng, nhưng không biết nó làm sao ra kết quả đó.)

Prompt ReAct:

“Hãy suy nghĩ từng bước. Viết rõ phần lý luận và hành động ở mỗi bước.”

AI trả lời:

Reasoning: “Đây là tam giác vuông vì 3² + 4² = 5².” Action: “Tính diện tích = ½ × 3 × 4 = 6.” Final Answer: “Diện tích là 6.”

Kết quả vẫn vậy, nhưng bạn hiểu rõ quá trình – và có thể kiểm tra được nếu AI sai ở đâu.

🌐 Ví dụ 2: Lập kế hoạch du lịch

Prompt thường:

“Lên kế hoạch du lịch 3 ngày ở Đà Lạt.”

Prompt ReAct:

“Hãy suy nghĩ từng bước, nêu lý do cho từng quyết định. Nếu cần, hãy tra cứu thời tiết để chọn hoạt động phù hợp.”

AI trả lời:

Reasoning: “Trước tiên, tôi cần biết thời tiết ở Đà Lạt.” Action: “Tìm kiếm thông tin thời tiết Đà Lạt 3 ngày tới.” Observation: “Thời tiết: có mưa nhẹ buổi chiều.” Reasoning: “Vì có mưa chiều, nên nên ưu tiên tham quan buổi sáng.” Action: “Lập lịch trình buổi sáng là tham quan, buổi chiều là nghỉ quán cà phê.” Final Answer: “Lịch trình 3 ngày...”

→ Cách này khiến AI tư duy thực tế hơn, chứ không “chém gió” theo trí nhớ.

Phần 5: Điểm mạnh – điểm yếu

✅ Ưu điểm

Giúp AI tư duy có tổ chức, bớt “ảo tưởng”.
Kết quả thường logic hơn, ít sai hơn trong bài toán nhiều bước.
Có thể áp dụng cho các mô hình có plugin hoặc công cụ mở rộng (như ChatGPT có truy cập web).

⚠️ Hạn chế

Tốn token hơn vì phải ghi rõ từng bước.
Nếu không hướng dẫn rõ, AI có thể “làm rối” và sa vào vòng lặp “nghĩ – làm – nghĩ”.
Một số trường hợp chỉ cần “suy nghĩ” chứ không cần “hành động” – ReAct có thể quá phức tạp.

Ghi chú & Tips cuối chương

💡 Mẹo nhỏ:

Nếu bạn chỉ muốn AI nghĩ kỹ hơn, dùng CoT (Chain of Thought).
Nếu bạn muốn AI nghĩ và hành động xen kẽ, hãy thử ReAct.
Bạn có thể gộp hai cách này bằng prompt kiểu:

“Hãy suy nghĩ từng bước và thực hiện hành động phù hợp ở mỗi giai đoạn.”

💬 Tóm gọn dễ nhớ:

CoT = Nghĩ sâu. ReAct = Nghĩ sâu + Làm thật.

Tổng kết

ReAct là một trong những kỹ thuật nâng cao nhất trong thế giới prompting – nhưng ý tưởng lại rất con người: Đừng chỉ nghĩ – hãy hành động. Nhờ vậy, ChatGPT (và các mô hình tương tự) có thể trở nên linh hoạt, chính xác và đáng tin cậy hơn.

Nếu bạn hiểu được ReAct, bạn đã tiến một bước dài trong việc “nói chuyện” với AI như nói chuyện với một đồng nghiệp thông minh – biết suy nghĩ, biết làm, và biết rút kinh nghiệm.