Công cụ AIKiến thức AI

Kiến trúc “Tổ chuyên gia” (Mixture of Experts) là gì và có làm giảm hiệu suất của GPT-4 không?

GPT-4 của OpenAI hiện đang là mô hình ngôn ngữ lớn (LLM) phức tạp và có khả năng nhất, vượt trội so với những phiên bản trước đó về khả năng và sự phức tạp.

Xem thêm: 45 cách ứng dụng Code Interpreter (ChatGPT) để phân tích tài chính

OpenAI chưa công khai bình luận về bất kỳ thông số kỹ thuật nào của GPT-4, nhưng có nhiều tin đồn cho rằng nó sử dụng mô hình Mixture of Experts (MoE). MoE là một kỹ thuật học tập tổ hợp sử dụng nhiều mô hình chuyên gia, được gọi là ‘ tổ chuyên gia’, để đưa ra quyết định. Các chuyên gia này giỏi trong việc xử lý các phần khác nhau của đầu vào, một chiến lược đã được chứng minh hiệu quả đối với các tập dữ liệu lớn và phức tạp. Mô hình MoE của GPT-4 có thể có 1,76 ngàn tỷ tham số, vượt trội so với GPT-3, và được phát hành vào ngày 14 tháng 3 năm 2023.

Tinh chỉnh các mô hình Chuyên gia

Có tin đồn rằng mô hình MoE của GPT-4 có 16 mô hình chuyên gia nhỏ, mỗi mô hình có khoảng 111 tỷ tham số. Có lẽ có ít nhất một chuyên gia được thiết kế để đảm bảo an toàn cho kết quả của mô hình, trong khi một chuyên gia khác có thể được tinh chỉnh để chuyên viết mã, một tính năng quan trọng của Code Interpreter của GPT-4.

Nhưng còn những chuyên gia khác? Làm thế nào để tinh chỉnh để cải thiện hiệu suất so với GPT-3.5?

OpenAI đã nêu rõ rằng GPT-4 “đáng tin cậy hơn, sáng tạo hơn và có thể xử lý các hướng dẫn phức tạp hơn nhiều so với GPT-3.5”. Vì vậy, chúng ta hãy phân tích cách tinh chỉnh 16 mô hình chuyên gia này dựa trên sự cải tiến hiệu suất so với GPT-3.5:

Với nhiều cải thiện hiệu suất ấn tượng của GPT-4 và tính linh hoạt mà mô hình Mixture of Experts (MoE) mang lại, có nhiều cách mà các mô hình chuyên gia có thể được tinh chỉnh để nâng cao khả năng của nó. Dưới đây là dự đoán danh sách các mô hình chuyên gia trong GPT-4:

  • Chuyên gia chuẩn bị làm các bài thi chuyên ngành: Dựa vào thành công của GPT-4 trong một loạt các bài thi, họ có thể đã tinh chỉnh một chuyên gia để chuẩn bị cho các bài thi chuyên ngành, có kiến thức về các lĩnh vực cụ thể và các mẫu câu hỏi thông thường. Các lĩnh vực có thể tinh chỉnh bao gồm khoa học, luật và chương trình giảng dạy chung.
  • Chuyên gia Python: Không thể phủ nhận rằng có một mô hình chuyên gia được tinh chỉnh đặc biệt cho Python sẽ là cơ sở của Code Interpreter của OpenAI cũng như khả năng của GPT-4 để tương tác với API và điều hướng trang web. Chuyên gia này không chỉ tạo ra và hiểu mã Python, mà còn hiểu biết về các giao thức web cụ thể, HTML và các phản hồi API.
  • Chuyên gia Phát triển Phần mềm và Giải mã Lỗi: Ngoài việc tạo ra và gỡ lỗi mã, GPT-4 có thể có một chuyên gia được đào tạo để hiểu các ngôn ngữ lập trình khác nhau, các framework và thậm chí các quy tắc cụ thể trong phát triển phần mềm.
  • Chuyên gia Đọc Hình ảnh Nâng cao: Với khả năng mới của GPT-4 trong việc phân tích và bình luận về hình ảnh, có thể có một chuyên gia được đào tạo đặc biệt để hiểu các loại hình ảnh khác nhau, chẳng hạn như hình ảnh y học (CT, MRI), hình ảnh vệ tinh, kế hoạch kiến trúc hoặc thậm chí các tác phẩm nghệ thuật.
  • Chuyên gia Giải toán và Khoa học: Với khả năng giải quyết vấn đề phức tạp của GPT-4, có thể có các chuyên gia được đào tạo đặc biệt trong các ngành khoa học khác nhau hoặc các nhánh toán học.
  • Chuyên gia Tổng hợp và Phân tích dữ liệu: Để trả lời những câu hỏi phức tạp yêu cầu tổng hợp thông tin từ nhiều nguồn, có thể có một chuyên gia được fine-tuned đặc biệt để phân tích và trích xuất thông tin từ các tập dữ liệu lớn, các bài báo học thuật hoặc các tài liệu phức tạp.
  • Chuyên gia Kiểm chứng sự thật Chuyên sâu: Với sự chính xác cao hơn của GPT-4, có thể có một chuyên gia được fine-tuned để kiểm chứng sự thật. Mô hình này sẽ chuyên về xác minh thông tin, so sánh trên nhiều nguồn và xác định những không chính xác.
  • Chuyên gia An toàn và Đạo đức: Với nhu cầu an toàn trong trí tuệ nhân tạo tạo sinh, có một chuyên gia quan trọng chuyên xác định và điều chỉnh các kết quả đầu ra để lọc thông tin định kiến, phản cảm hoặc có tiềm năng gây hại. Chuyên gia này có thể đã được fine-tuned với kiến thức về lĩnh vực cụ thể mà OpenAI không muốn người dùng dễ dàng truy cập.
  • Chuyên gia Văn hóa: Để nâng cao khả năng đa ngôn ngữ và hiểu biết về các ngữ cảnh văn hóa khác nhau, một mô hình chuyên gia có thể được fine-tuned với sự hiểu biết sâu sắc về văn hóa, ngôn ngữ và những sắc thái của chúng. Mô hình này sẽ giỏi trong việc nhận ra các tham chiếu văn hóa, thành ngữ và tình cảm, từ đó cải thiện sự giao tiếp tổng thể.
  • Chuyên gia Phân tích cảm xúc: Để hiểu và tạo ra cảm xúc được thể hiện trong văn bản một cách tốt hơn, một mô hình chuyên gia có thể được đào tạo cho phân tích sâu về cảm xúc, giúp GPT-4 hiểu được những gợi ý cảm xúc tinh tế và phản ứng một cách phù hợp.
  • Chuyên gia Giải trí và Trò chơi: Với khả năng của GPT-4 trong việc giải câu đố, đố vui và viết sáng tạo, có thể có một chuyên gia chuyên môn trong các hình thức giải trí khác nhau, trò chơi hoặc viết sáng tạo.
  • Chuyên gia Quản lý chất lượng và Tự đánh giá: Chuyên gia này sẽ được thiết kế để quản lý đầu ra của tất cả các mô hình chuyên gia khác. Vai trò quan trọng của mô hình này là đảm bảo chất lượng và logic của đầu ra cuối cùng. Sử dụng kỹ thuật tự đánh giá, chuyên gia này sẽ đánh giá hiệu suất của các chuyên gia khác và sự phù hợp của các chuyên gia này với kết quả mong đợi. Nó có thể khả năng đánh giá lại đầu vào và điều chỉnh trọng số của việc chọn mô hình chuyên gia dựa trên chất lượng phản hồi.

Phân bổ chuyên gia


Câu hỏi lớn là – GPT-4 sẽ chọn chuyên gia nào cho một yêu cầu cụ thể? Rất khó có khả năng tất cả 16 chuyên gia được triệu tập cho từng nhiệm vụ. Thay vào đó, một mạng lưới lọc có thể chọn các mô hình chuyên gia phù hợp nhất cho công việc và mô hình chuyên gia cuối cùng sẽ kết hợp đầu ra của chúng để tạo ra phản hồi cuối cùng.

Gần đây có nhiều tin về việc ChatGPT (và GPT-4) đã giảm khả năng trả lời trong vài tháng qua. Thậm chí có nghiên cứu chứng minh điều này với một lý thuyết là việc GPT-4 đã fine-tune bổ sung để giảm đầu ra gây hại. Nếu có bất kỳ fine-tuning thêm nào trong vài tháng qua bởi OpenAI thì tôi nghi ngờ rằng nó có thể liên quan đến chuyên gia Quản lý chất lượng và/hoặc các trọng số được gán cho đầu ra của mỗi chuyên gia trong mô hình tổng thể. Điều này có ý nghĩa rất lớn đối với tôi khi phương pháp MoE của OpenAI chưa bao giờ được sử dụng ở quy mô này trước đây và có thể cần được điều chỉnh khi mức độg sử dụng tăng lên.

Kết luận


Những đột phá của GPT-4 là một minh chứng cho tiềm năng của công nghệ trí tuệ nhân tạo tạo sinh. Giả thuyết về các mô hình tổ chuyên gia trong GPT-4 được đưa ra ở đây chỉ là sự suy đoán, nhưng được đặt trên cơ sở về khả năng và cải tiến đã được biết đến của mô hình ngôn ngữ ấn này.

Cơ chế chính xác để chọn mô hình chuyên gia và phân phối nhiệm vụ trong GPT-4 vẫn là một chủ đề đang được suy đoán, và việc fine-tune bổ sung mà OpenAI có thể đang thực hiện để nâng cao an toàn và hiệu suất là một chủ đề thú vị. Sự thực là mô hình này tiếp tục thay đổi và được fine-tune bổ sung khi nhu cầu sử dụng tăng lên, nói lên rất nhiều về tiềm năng phát triển và hoàn thiện liên tục trong lĩnh vực trí tuệ nhân tạo tạo sinh.

Tôi hi vọng rằng một ngày nào đó OpenAI sẽ công bố thêm thông tin về GPT-4 (có lẽ khi họ công bố GPT-5!) và chúng ta sẽ có thể hiểu đầy đủ về cơ chế Mixture of Experts trong GPT-4. 
Nguồn: Peering Inside GPT-4: Understanding Its Mixture of Experts (MoE) Architecture

Hoàng Dũng AI

AI Trainer and Automation Specialist | Passionate about Empowering Individuals with AI Skills.