SỰ THẬT VỀ KHẢ NĂNG “NHÌN” CỦA MÔ HÌNH NGÔN NGỮ THỊ GIÁC
Bài báo “Vision language models are blind” đã chỉ ra những hạn chế đáng kể của các mô hình ngôn ngữ thị giác (VLMs) trong việc nhận thức thông tin thị giác cơ bản. Nghiên cứu này đã giới thiệu BlindTest – một bộ tiêu chuẩn gồm 7 nhiệm vụ thị giác đơn giản nhằm đánh giá khả năng nhận biết các yếu tố hình học cơ bản của VLMs.
Vision language models are blind: https://arxiv.org/abs/2407.06581
Bốn mô hình VLM hàng đầu được kiểm tra: GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet và Claude-3.5 Sonnet. Những nhiệm vụ trong BlindTest bao gồm đếm giao điểm của các đường thẳng, xác định xem các hình tròn có chồng lên nhau hay không, xác định chữ cái được khoanh tròn, đếm các hình chồng lên nhau, đếm các hình vuông lồng nhau, đếm hàng và cột trong lưới, và theo dõi đường đi có màu sắc.
Kết quả cho thấy các VLM gặp khó khăn trong việc hoàn thành những nhiệm vụ tưởng chừng đơn giản mà trẻ con cũng làm được này. Chúng thường không thể đếm chính xác giao điểm của hai đường thẳng, xác định xem hai hình tròn có chồng lên nhau hay không, hay xác định chữ cái được khoanh tròn trong một từ. Các VLM cũng gặp khó khăn trong việc đếm các hình chồng lên nhau hoặc lồng nhau, đếm hàng và cột trong lưới, và theo dõi đường đi được tô màu trong bản đồ tàu điện ngầm đơn giản.
Kết quả còn cho thấy hiệu suất của VLMs thường không nhất quán khi có thay đổi về prompt, độ phân giải hình ảnh và các thuộc tính thị giác (như độ dày của đường kẻ). Một số mô hình còn thể hiện sự thiên vị, ví dụ như Gemini-1.5 thường dự đoán “5” khi đếm các hình tròn, có thể do được huấn luyện nhiều về logo Olympic.
Bài báo cho rằng những phát hiện này cho thấy các VLMs hiện tại có những hạn chế đáng kể trong khả năng nhận thức và xử lý thông tin thị giác ở cấp độ thấp, mặc dù chúng có hiệu suất cao trong các nhiệm vụ thị giác phức tạp hơn. Các tác giả cho rằng VLMs có thể đưa ra những phỏng đoán dựa trên sự hiểu biết về ngôn ngữ của chúng thay vì thực sự “nhìn” thấy hình ảnh.
Bài báo kết luận cần khắc phục những hạn chế này để cải thiện hiệu suất của VLMs trong các nhiệm vụ thị giác thực tế đòi hỏi nhận thức chi tiết.