DALL-E 3 của ChatGPT Đe Dọa MidJourney nhờ các tính năng mới
Xem thêm:
- Lấy prompt của tất cả các loại ảnh với lệnh Describe trong Midjourney
- So sánh Ideogram AI và Midjourney về khả năng tạo ảnh và văn bản
- Hướng dẫn sử dụng Midjourney để tạo ảnh AI đẹp
- 10 Cách kiểm soát góc máy trong Stable Diffusion để có bức ảnh như ý năm 2023
- Các kỹ sư Prompt bật mí mẹo viết prompt cho ChatGPT, Midjourney, Bing Chat
- Biến hình ảnh thành tác phẩm nghệ thuật với Stable Diffusion AI
ChatGPT hiện có thể tạo ra hình ảnh chi tiết một cách đáng kinh ngạc.
Ngày 20/9/2023, OpenAI đã phát hành phiên bản mới của trình tạo hình ảnh DALL-E cho một nhóm người thử nghiệm nhỏ và tích hợp công nghệ này vào ChatGPT.
Được gọi là DALL-E 3, nó có thể tạo ra những hình ảnh chất lượng hơn so với các phiên bản trước của công nghệ này, đặc biệt là trong việc tạo ra hình ảnh chứa chữ cái, số và bàn tay người, theo công ty cho biết.
Khi bổ sung phiên bản mới nhất của DALL-E vào ChatGPT, OpenAI đang củng cố chatbot của mình thành một công cụ đa năng có thể tạo ra văn bản, hình ảnh, âm thanh, phần mềm và các phương tiện số khác một cách tự động. Cuộc đua giữa các ông lớn công nghệ ngày càng nóng. Một ngày trước đó, Google đã phát hành một phiên bản mới của chatbot Bard, được kết nối với một số dịch vụ phổ biến nhất của công ty, bao gồm Gmail, YouTube và Docs. Midjourney và Stable Diffusion, hai trình tạo hình ảnh khác, trước đó đã cập nhật mô hình của họ vào mùa hè này.
CEO của OpenAI, Sam Altman chia sẻ video dùng ChatGPT tích hợp DALL-E 3
OpenAI vốn đã cung cấp các kết nối giữa ChatGPT với các dịch vụ trực tuyến khác, bao gồm Expedia, OpenTable và Wikipedia. Nhưng đây là lần đầu tiên công ty khởi nghiệp này kết hợp một chatbot với một trình tạo hình ảnh.
DALL-E và ChatGPT trước đây là hai ứng dụng riêng biệt. Nhưng với phiên bản mới nhất, người dùng hiện có thể sử dụng dịch vụ của ChatGPT để tạo ra hình ảnh kỹ thuật số chỉ bằng cách mô tả những gì họ muốn nhìn thấy. Hoặc họ có thể tạo ra hình ảnh bằng cách sử dụng các mô tả được tạo ra bởi chatbot, từ đó tự động hóa việc tạo ra đồ họa, nghệ thuật và các phương tiện truyền thông khác.
Trong một bài thuyết trình tuần này, Gabriel Goh, một nhà nghiên cứu của OpenAI, đã demo cách dùng ChatGPT để viết prompt sau đó dùng prompt để tạo ra hình ảnh. Ví dụ, sau khi tạo ra các mô tả về logo cho một nhà hàng mang tên Mountain Ramen, bot đã tạo ra một số hình ảnh từ những mô tả đó chỉ trong vài giây.
Phiên bản mới của DALL-E có thể tạo ra hình ảnh từ các prompt dài và tuân thủ chặt chẽ các hướng dẫn trong prompt với chi tiết đầy đủ rõ ràng, ông Goh nói. Giống như tất cả các trình tạo hình ảnh khác – và các hệ thống trí tuệ nhân tạo khác – nó cũng dễ mắc lỗi, ông nói.
OpenAI đang hoàn thiện công nghệ này, nhưng cho đến tháng sau, họ sẽ chưa chia sẻ DALL-E 3 với công chúng rộng rãi. DALL-E 3 sẽ chỉ có trong gói ChatGPT Plus, với mức phí là 20 đô la mỗi tháng.
Các chuyên gia đã cảnh báo rằng công nghệ tạo hình ảnh có thể được sử dụng để lan truyền lượng lớn thông tin sai lệch trực tuyến. Để ngăn chặn điều đó xảy ra với DALL-E 3, OpenAI đã tích hợp các công cụ nhằm ngăn chặn những chủ đề có hại, như hình ảnh khiêu dâm và hình ảnh về nhân vật nổi tiếng. Công ty cũng đang cố gắng hạn chế khả năng DALL-E mô phỏng phong cách của các nghệ sĩ cụ thể.
Trong những tháng gần đây, trí tuệ nhân tạo đã được sử dụng như một nguồn thông tin hình ảnh sai lệch. Một tin giả khá vụng về về một vụ nổ tại Pentagon đã khiến thị trường chứng khoán giảm nhẹ vào tháng 5. Các chuyên gia về bầu cử cũng lo ngại rằng công nghệ này có thể được sử dụng một cách độc hại trong các cuộc bầu cử quan trọng.
Sandhini Agarwal, một nhà nghiên cứu của OpenAI chuyên về an toàn và chính sách, cho biết DALL-E 3 có xu hướng tạo ra những hình ảnh mang tính chất nghệ thuật hơn là chân thực. Tuy nhiên, cô nhận thức rằng mô hình có thể được khuyến khích để tạo ra những cảnh có tính thuyết phục cao, chẳng hạn như loại hình ảnh mờ được ghi lại bởi camera an ninh.
Đối với phần lớn, OpenAI không có kế hoạch chặn nội dung có tiềm năng gây hại từ DALL-E 3. Bà Agarwal cho biết cách tiếp cận như vậy là “quá rộng” vì hình ảnh có thể vô hại hoặc nguy hiểm tùy thuộc vào ngữ cảnh mà chúng xuất hiện.
“Thực sự phụ thuộc vào bối cảnh sử dụng, cách mọi người nói về nó,” bà nói.
Nguồn: ChatGPT Can Now Generate Images, Too – The New York Times (nytimes.com)