Quiet-STaR: Phương pháp huấn luyện AI tự học và suy luận thông minh hơn hoạt động thế nào
Quiet-STaR: Phương pháp huấn luyện AI tự học và suy luận thông minh hơn. Liệu thuật toán mới của OpenAI là Strawberry có dựa trên Quiet-STaR để tiến tới AGI không?
Quiet-STaR có thể học cách suy luận bằng cách dự đoán các lý do ẩn trong văn bản.
Đoạn văn ví dụ:
“Năm 1492, Christopher Columbus khởi hành từ Tây Ban Nha. Hành trình của ông dẫn đến việc người châu Âu khám phá ra châu Mỹ. Sự kiện này đánh dấu sự khởi đầu của Cuộc trao đổi Colombia.”
Một mô hình ngôn ngữ thông thường có thể chỉ dự đoán các từ tiếp theo dựa trên các mẫu mà nó đã thấy. Tuy nhiên, Quiet-STaR hướng đến việc tạo ra các lý do ẩn (implicit rationales) kết nối các đoạn văn này. Hãy cùng phân tích:
Sau “Năm 1492, Christopher Columbus khởi hành từ Tây Ban Nha.”:
Quiet-STaR có thể tạo ra một lý do ẩn như:
<suy nghĩ>Columbus là một nhà thám hiểm. Ông có thể đang tìm kiếm một tuyến đường thương mại mới. Tây Ban Nha là một cường quốc hàng hải lớn vào thời điểm đó.</suy nghĩ>
Quá trình suy nghĩ này giúp mô hình kết nối câu đầu tiên với câu tiếp theo, hiểu tại sao hành trình của Columbus lại có ý nghĩa.
Sau “Hành trình của ông dẫn đến việc người châu Âu khám phá ra châu Mỹ.”:
Mô hình có thể tạo ra:
<suy nghĩ>Đây là một sự kiện trọng đại. Nó sẽ dẫn đến những thay đổi đáng kể cho cả châu Âu và châu Mỹ. Có thể sẽ có trao đổi hàng hóa, con người và ý tưởng.</suy nghĩ>
Lý do này giúp mô hình dự đoán và hiểu được tầm quan trọng của câu tiếp theo về Cuộc trao đổi Colombia.
Sau “Sự kiện này đánh dấu sự khởi đầu của Cuộc trao đổi Colombia.”:
Mô hình có thể suy nghĩ:
<suy nghĩ>Cuộc trao đổi Colombia liên quan đến việc chuyển giao cây trồng, động vật, văn hóa, dân cư, công nghệ và dịch bệnh giữa Thế giới Cũ và Thế giới Mới. Điều này sẽ có những hậu quả sâu rộng.</suy nghĩ>
Quá trình suy nghĩ này giúp mô hình dự đoán loại thông tin nào có thể xuất hiện tiếp theo trong văn bản, chẳng hạn như các ví dụ cụ thể về các mặt hàng được trao đổi hoặc tác động của cuộc trao đổi này.
Bằng cách tạo ra những lý do ẩn này, Quiet-STaR đang học cách:
-Kết nối các ý tưởng: Nó không chỉ dự đoán các từ, mà còn hiểu cách các ý tưởng liên quan đến nhau.
-Suy luận ngữ cảnh: Nó đang học cách điền vào thông tin nền chưa được nêu rõ giúp làm cho văn bản có ý nghĩa.
-Dự đoán hậu quả: Nó đang suy luận về những tác động tiềm ẩn của các sự kiện, giúp dự đoán thông tin nào có thể xuất hiện tiếp theo.
-Áp dụng kiến thức chuyên môn: Nó đang học cách áp dụng kiến thức lịch sử và địa lý liên quan để hiểu văn bản.
Quá trình tạo ra các lý do ẩn này cho phép mô hình phát triển khả năng suy luận cao hơn. Thay vì chỉ học các mẫu ở cấp độ nông trong văn bản, nó học cách suy nghĩ sâu hơn về nội dung, giống như cách một con người sẽ làm.
Điều quan trọng là việc học này đang diễn ra trên dữ liệu văn bản chung, không phải trên các vấn đề suy luận được thiết kế đặc biệt. Nhờ thực hành dạng suy luận ẩn này trên nhiều loại văn bản khác nhau, mô hình phát triển được các kỹ năng suy luận chung, được thể hiện bằng việc tăng hiệu suất trên các bài tập kiểm tra như GSM8K và CommonsenseQA.