Mistral AI vừa ra mắt một mô hình AI đầu tiên trên thế giới KHÔNG DÙNG TRANSFORMER mà dùng MAMBA
Mistral AI vừa ra mắt một mô hình mới chuyên về lập trình có tên là Codestral Mamba, KHÔNG DÙNG TRANSFORMER là kiến trúc chính hiện đang được dùng trong hầu hết các mô hình AI hiện nay. Mô hình này được fine-tune cho các nhiệm vụ lập trình với giấy phép Apache 2.0, cho phép sử dụng thương mại. Nó có context windows lên đến 256.000 token, đây là điều các dev cực thích. Mô hình cung cấp suy luận thời gian tuyến tính (linear time inference) và có thể xử lý các chuỗi dài mà không mở rộng bộ nhớ đáng kể.
Mamba là một cuộc cách mạng về kiến trúc so với Transfomer. Transformer, như trong GPT-4, đã trở thành tiêu chuẩn trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, hiệu quả của chúng giảm xuống khi xử lý các chuỗi dài. Trong khi Transformer giải quyết vấn đề về chuỗi dài bằng cách sử dụng các cơ chế chú ý phức tạp thì Mamba sử dụng phương pháp mô hình không gian trạng thái (State Space Model). Khi đầu vào tăng, thời gian xử lý dữ liệu của Mamba chỉ tăng tuyến tính (linear), trong khi thời gian xử lý của Transformers tăng theo cấp số nhân (quadratic). Điều này cho phép Mamba xử lý các chuỗi dài hơn nhiều, lên đến hàng triệu token, mà không gặp phải các giới hạn về bộ nhớ hoặc tính toán.
Mamba chạy nhanh hơn Transformers tới 5 lần khi suy luận, giúp tiết kiệm thời gian và tài nguyên. Sự xuất hiện của Mamba có thể đánh dấu sự kết thúc của thời kỳ thống trị của Transformers. Với những cải tiến vượt bậc về hiệu suất và tốc độ, Mamba có tiềm năng thay thế Transformers trong nhiều ứng dụng, từ phân tích gen đến tạo nội dung dài và xử lý dữ liệu đa phương tiện. Tuy nhiên, sự thay thế hoàn toàn sẽ phụ thuộc vào khả năng của Mamba trong việc mở rộng quy mô và duy trì hiệu suất vượt trội so với các mô hình Transformer tiên tiến nhất hiện nay.