NHỎ LÀ ĐẸP: Chuyên gia AI nổi tiếng thế giới, Andrej Karpathy nhận định về xu hướng “nhỏ dần”
NHỎ LÀ ĐẸP: Chuyên gia AI nổi tiếng thế giới, Andrej Karpathy nhận định về xu hướng “nhỏ dần” này: “Tôi cho rằng chúng ta sẽ thấy những mô hình có thể “tư duy” rất tốt và đáng tin cậy mặc dù có kích thước rất nhỏ. Nhỏ kiểu như tham số chỉ bằng GPT-2 nhưng vẫn được nhiều người cho rằng GPT-2 “thông minh”.
“Nguyên nhân các mô hình hiện tại quá lớn là vì chúng ta đang lãng phí rất nhiều trong quá trình huấn luyện – chúng ta yêu cầu các mô hình ghi nhớ toàn bộ thông tin trên internet và điều đáng kinh ngạc là chúng làm được. Chúng có thể đọc thuộc lòng các mã hash SHA của các số thông thường, hoặc nhớ những dữ liệu rất khó nhớ. (Trên thực tế, các mô hình ngôn ngữ lớn giỏi nhớ hơn con người rất nhiều, đôi khi chỉ cần một lần cập nhật để nhớ chi tiết rất lâu). Đây là mục tiêu của việc tiền huấn luyện phổ biến cho các mô hình hiện nay. Ngày càng khó để cải thiện hiệu suất các mô hình do tư duy bị trộn lẫn với kiến thức trong dữ liệu huấn luyện”.
“Do đó, đầu tiên các mô hình cần phải có quy mô lớn sau đó mới có thể nhỏ đi, bởi vì chúng ta cần sự trợ giúp (tự động) của chúng để tái cấu trúc và định hình dữ liệu huấn luyện thành các định dạng lý tưởng và synthetic”.
“Việc cải thiện diễn ra theo từng bước – mô hình này tạo ra dữ liệu huấn luyện cho mô hình tiếp theo, cho đến khi chúng ta có được “tập dữ liệu huấn luyện hoàn hảo”. Khi huấn luyện GPT-2 trên tập dữ liệu này, nó sẽ là một mô hình rất mạnh/thông minh theo tiêu chuẩn hiện nay. Có thể điểm số MMLU sẽ thấp hơn một chút vì nó sẽ không nhớ được tất cả các chi tiết. Có thể thỉnh thoảng nó sẽ cần tra cứu thông tin từ bên ngoài để bổ sung cơ sở kiến thức (nhỏ hơn).”
Hình (techcrunch): GPT-4o Mini mới ra đã trở thành đàn anh của các model nhỏ và vừa cả về hiệu năng và giá.