Hướng dẫn sử dụng GPT4-Vision để đọc hình ảnh

October 20, 2023 Hoàng Dũng AI

Chia sẻ

Xem thêm:

GPT-4 Vision, hay còn được gọi là GPT-4V, là một đột phá đáng chú ý của OpenAI. Nó đã được huấn luyện trên lượng lớn dữ liệu văn bản và hình ảnh, hứa hẹn sẽ tái định nghĩa cách chúng ta tương tác với công nghệ.

GPT-4 Vision là phiên bản thông minh hơn của GPT-4 là phiên bản được biết đến với khả năng hiểu và tạo ra văn bản. Tuy nhiên, GPT-4V đi một bước xa hơn. Nó không chỉ liên quan đến từ ngữ nữa, mà còn liên quan đến việc “nhìn”.

Hãy tưởng tượng bạn có thể trò chuyện với một người không chỉ biết lắng nghe những gì bạn nói mà còn quan sát những hình ảnh bạn hiển thị. Đó chính là GPT-4V. Nó được thiết kế để phân tích các hình ảnh mà bạn cung cấp, điều này biến nó thành một trí tuệ nhân tạo đa năng, hiểu được cả văn bản và hình ảnh.

Nhưng tại sao điều này lại quan trọng đến vậy? Việc kết hợp đầu vào hình ảnh với mô hình ngôn ngữ được xem là một bước đột phá trong nghiên cứu trí tuệ nhân tạo. Đó giống như đưa cho trí tuệ nhân tạo của chúng ta một cặp mắt, mở rộng khả năng và cho phép nó giải quyết các nhiệm vụ mới và mang đến trải nghiệm mới.

Đơn giản mà nói, nếu GPT-4 là công nghệ đã làm chúng ta ngạc nhiên với khả năng xử lý văn bản của nó, thì GPT-4V sẽ làm chúng ta say mê hơn khả năng đọc hình ảnh của nó.

Nội dung

GPT-4 Vision hoạt động như thế nào?

GPT-4V giống như một học sinh siêu thông minh được cung cấp một lượng lớn sách và hình ảnh. Giống như anh trai lớn hơn của nó, GPT-4, nó đã được đào tạo vào năm 2022. Nhưng thay vì chỉ đọc văn bản, GPT-4V còn xem qua một bộ sưu tập hình ảnh khổng lồ từ internet và các nguồn khác. Hãy tưởng tượng nó như đang lật qua một cuốn album ảnh khổng lồ trong khi đọc các chú thích.

Sau giai đoạn học ban đầu này, OpenAI không chỉ dừng lại ở đó. Họ đã sử dụng một kỹ thuật gọi là “học tăng cường từ phản hồi của con người” (RLHF). Giống như cung cấp một người hướng dẫn (những người huấn luyện con người) cho mô hình, họ đã hướng dẫn nó, sửa lỗi và giúp nó cải thiện câu trả lời của mình. Quá trình điều chỉnh này đảm bảo rằng các phản hồi của GPT-4V phù hợp hơn với những gì con người ưa thích.

Cách sử dụng GPT-4 Vision?

Tải ảnh lên Khi bạn sẵn sàng để hỏi GPT-4 về một bức ảnh:

Tìm biểu tượng đính kèm hình ảnh.

Nếu bạn đang sử dụng ứng dụng GPT-4 Plus, bạn sẽ thấy các biểu tượng màu xanh lá cây bên cạnh thanh tìm kiếm. Các biểu tượng này cho phép bạn chụp một bức ảnh mới hoặc chọn một bức ảnh từ thư viện của bạn.

Hướng dẫn AI tập trung vào các chi tiết trong ảnh Sau khi tải ảnh lên:

GPT-4 Vision sẽ quét toàn bộ hình ảnh. Nhưng nếu bạn muốn nó chỉ đọc một vài chi tiết cụ thể, bạn có thể hướng dẫn nó.
Vẽ hoặc chỉ vào các khu vực trong hình ảnh mà bạn muốn AI chú ý xem. Dùng bút tô phần hình ảnh bạn quan tâm.

Đặt câu hỏi Chỉ cần gõ câu hỏi của bạn về hình ảnh. Ví dụ, nếu bạn đã tải lên một bức ảnh về một cuốn sách cổ bí ẩn, bạn có thể hỏi: “Tên của cuốn sách này là gì?”

Cách truy cập GPT-4 Vision:

Nếu bạn là người đăng ký GPT-4 Plus, tính năng này đang được triển khai dần dần. Vì vậy, nếu bạn không thấy nó ngay lập tức, đừng lo lắng!
Mẹo nhanh: Để kiểm tra xem bạn đã nhận được cập nhật Vision trên ứng dụng hay chưa, chỉ cần đóng ứng dụng và sau đó mở lại. Giống như làm mới và bạn có thể tìm thấy tính năng Vision đang chờ bạn.

Các cách sử dụng GPT-4 Vision

GPT-4 Vision, hoặc GPT-4V, không chỉ là một kỳ tích công nghệ; nó còn là một công cụ với vô số ứng dụng. Hãy khám phá một số cách sử dụng nổi bật sau đây:

Giải thích và mô tả hình ảnh: Một trong những ứng dụng chính của GPT-4V là trả lời câu hỏi về hình ảnh. Người dùng thường hỏi những điều như “gì”, “ở đâu” hoặc “ai là người này?” để hiểu rõ hơn về một hình ảnh. Đó giống như có một người bạn hiểu biết mô tả một bức tranh cho bạn.

Lĩnh vực y tế: GPT-4V đã tiến vào lĩnh vực y tế, hỗ trợ các nhiệm vụ như chẩn đoán bệnh hoặc đề xuất phương pháp điều trị dựa trên hình ảnh. Tuy nhiên, cần tiếp cận thông tin y tế mà nó cung cấp một cách cẩn thận.

Ví dụ, Hình 7 trong bài báo phân tích một số thách thức của mô hình trong việc giải thích hình ảnh y tế. Mặc dù đôi khi nó có thể cung cấp thông tin chính xác, nhưng cũng có những lúc nó có thể hiểu sai các chi tiết quan trọng.

Ví dụ về sự không đáng tin cậy của GPT-4V

Chuyên môn khoa học: Đối với những người đam mê khoa học, GPT-4V có thể đi sâu vào hình ảnh khoa học phức tạp. Cho dù đó là một biểu đồ chi tiết từ một bài báo nghiên cứu hay một hình ảnh chuyên ngành, GPT-4V cố gắng hết sức để hiểu bức ảnh. Một ví dụ là khả năng nhận dạng cấu trúc hóa học hoặc thậm chí các loại thực phẩm độc hại, như được minh họa trong Hình 6.

Ví dụ về hiệu suất không đáng tin cậy của GPT-4V trong việc nhận dạng cấu trúc hóa học hoặc thực phẩm độc hại.

Hỗ trợ cho người khiếm thị: Một trong những ứng dụng đáng yêu của GPT-4V là sự hợp tác với Be My Eyes. Cùng nhau, họ đã phát triển “Be My AI”, một công cụ giúp mô tả thế giới bằng lời cho những người không thể nhìn thấy.

Những trường hợp sử dụng này chỉ là một phần nhỏ của những gì GPT-4V có thể làm. Khi GPT-4V tiếp tục phát triển, chúng ta chỉ có thể tưởng tượng những khả năng vô tận mà nó sẽ mở ra trong tương lai.

Đánh giá và biện pháp an toàn

Đảm bảo an toàn và đáng tin cậy của GPT-4V là rất quan trọng. OpenAI đã đánh giá mô hình một cách nghiêm ngặt để đảm bảo rằng nó không chỉ thông minh mà còn đáng tin cậy. Hãy cùng tìm hiểu về các biện pháp kiểm tra an toàn và cân nhắc mà họ đã đưa ra:

Đánh giá từ chối: GPT-4V đã được đào tạo để nhận ra và từ chối một số đầu vào nguy hiểm. Ví dụ, nó đã được dạy để tránh đưa ra những suy luận không có căn cứ – những kết luận không dựa trên thông tin thực tế được cung cấp. Nếu bạn cho nó xem một bức ảnh và hỏi: “Cô ấy làm công việc gì?”, GPT-4V biết rằng nó không nên đoán một cách không căn cứ. Hình 2 minh họa tiến bộ đã đạt được trong việc từ chối những yêu cầu như vậy, nhờ những cải tiến liên tục về an toàn và những biện pháp giảm thiểu ở mức mô hình.

Hình 2: Sự kết hợp giữa tiến bộ an toàn liên tục,

Nhận dạng người: OpenAI đã kiểm tra khả năng của GPT-4V trong việc nhận dạng người trong các bức ảnh. Mô hình đã được điều chỉnh để từ chối những yêu cầu như vậy hơn 98% thời gian, đảm bảo sự riêng tư và an toàn. Điều này được thể hiện trực quan trong Hình 3, đánh giá hệ thống từ chối của GPT-4V dựa trên một tập dữ liệu những lời từ chối.

Hình 3: Đánh giá GPT-4V + Hệ thống từ chối dựa trên ảnh chụp màn hình

Nhược điểm về hình ảnh: OpenAI đã xác định một số điểm yếu trong cách GPT-4V hiểu hình ảnh. Ví dụ, họ đã phát hiện ra rằng mô hình có thể nhạy cảm với thứ tự của các hình ảnh hoặc cách thông tin được trình bày trong đó.

Hình 11: Ví dụ về nhược điểm hình ảnh mà GPT-4V thể hiện. Ví dụ này cho thấy các thế hệ mô hình có thể nhạy cảm với thứ tự các hình ảnh được đưa cho mô hình.

Phá vỡ CAPTCHA và xác định vị trí địa lý: Bạn đã từng thử giải những câu đố “Tôi không phải là một con robot” trên các trang web chưa? OpenAI đã kiểm tra khả năng của GPT-4V trong việc phá vỡ CAPTCHA và cả việc xác định địa điểm. Mặc dù điều này thể hiện sự thông minh của mô hình, nhưng cũng là một lời nhắc về sức mạnh của trí tuệ nhân tạo và nhu cầu sử dụng có trách nhiệm.

Kiểm tra độc lập từ bên ngoài: Hãy tưởng tượng đây như việc thuê một nhóm chuyên gia để kiểm tra giới hạn của hệ thống. OpenAI đã hợp tác với các chuyên gia bên ngoài để đánh giá bất kỳ rủi ro nào liên quan đến GPT-4V, đặc biệt là khả năng nhận dạng hình ảnh mới.

Biện pháp giảm thiểu: OpenAI không chỉ xác định các rủi ro; họ đã hành động để khắc phục chúng. GPT-4V được hưởng lợi từ các biện pháp an toàn đã có cho các phiên bản trước đó. Ngoài ra, họ liên tục cải thiện cách mô hình xử lý thông tin hình ảnh nhạy cảm, đảm bảo sự tôn trọng quyền riêng tư và các yếu tố đạo đức khác.

7 Tác động thực tế và xem xét đạo đức

Trong lĩnh vực trí tuệ nhân tạo, ranh giới giữa công nghệ và đạo đức thường mờ nhạt. Với sự mở rộng của khả năng của GPT-4V, quan trọng là hiểu rõ những tác động rộng lớn của việc sử dụng nó trong cuộc sống hàng ngày của chúng ta. Hãy cùng khám phá một số vấn đề đạo đức được OpenAI nêu bật:

Quan ngại về quyền riêng tư: Một trong những câu hỏi đang nóng là: “Các mô hình trí tuệ nhân tạo có nên nhận dạng người từ hình ảnh của họ không?” Dù đó là nhân vật nổi tiếng như Alan Turing hay chỉ là những người thông thường, có một ranh giới mỏng manh giữa việc nhận dạng hữu ích và tiềm năng xâm phạm quyền riêng tư. OpenAI đã thận trọng, với GPT-4V từ chối nhận dạng cá nhân hơn 98% thời gian.
Công bằng và việc mô tả con người: Trí tuệ nhân tạo không chỉ là về mã; nó liên quan đến con người. Và con người có các đặc điểm về giới tính, chủng tộc và cảm xúc đa dạng. Có những lo ngại về việc các mô hình trí tuệ nhân tạo, bao gồm GPT-4V, có thể suy luận hoặc kỳ thị về các đặc điểm này từ hình ảnh. Ví dụ, một trí tuệ nhân tạo có được phép đoán công việc của một người dựa trên diện mạo của họ không? Hoặc nó có được phép suy đoán về cảm xúc từ biểu hiện khuôn mặt không? Đây không chỉ là những câu hỏi kỹ thuật mà còn là những câu hỏi đạo đức sâu sắc, liên quan đến công bằng và mô tả con người.
Vai trò của trí tuệ nhân tạo trong xã hội: Khi các mô hình trí tuệ nhân tạo như GPT-4V trở nên ngày càng tích hợp vào thế giới của chúng ta, cần suy nghĩ về vai trò của chúng trong xã hội. Ví dụ, trong khi GPT-4V có thể hỗ trợ người mù, nên đặt ra những câu hỏi về loại thông tin mà nó nên cung cấp. Nó có được phép suy luận về các chi tiết nhạy cảm từ hình ảnh không? Những cân nhắc này làm nổi bật sự cân bằng giữa quyền tiếp cận thông tin và quyền riêng tư.
Sự lan rộng toàn cầu: Khi GPT-4V được áp dụng trên toàn thế giới, quan trọng là đảm bảo nó hiểu và tôn trọng các văn hóa và ngôn ngữ đa dạng. OpenAI dự định đầu tư vào việc nâng cao khả năng của GPT-4V trong các ngôn ngữ khác nhau và khả năng nhận dạng hình ảnh phù hợp với khán giả trên toàn cầu.
Xử lý thông tin nhạy cảm: OpenAI đang tập trung vào việc cải thiện cách GPT-4V xử lý việc tải lên hình ảnh chứa con người. Mục tiêu là nâng cao phương pháp tiếp cận của mô hình đối với thông tin nhạy cảm, chẳng hạn như danh tính của một người hoặc các đặc điểm được bảo vệ, đảm bảo nó được xử lý một cách cẩn thận nhất.

Kết luận, trong khi GPT-4V là một kỳ tích công nghệ, nó đặt ra một loạt các vấn đề về đạo đức. Điều quan trọng không chỉ quan tâm đến những gì trí tuệ nhân tạo có thể làm, mà còn những gì nó nên làm.

Giới hạn của GPT-4 Vision (gpt4-v)

Suy luận không có căn cứ: GPT-4V có thể tạo ra những giả định không mong muốn hoặc có hại mà không dựa trên thông tin thực tế được cung cấp cho mô hình. Ví dụ, nó có thể tạo ra các định kiến hoặc suy luận không có căn cứ khi được hỏi các câu hỏi mở kết hợp với một hình ảnh.
Giới hạn về chuyên môn khoa học: Mặc dù GPT-4V có khả năng trong các lĩnh vực khoa học, nó cũng có một số giới hạn quan trọng. Ví dụ, nếu hai thành phần văn bản riêng biệt nằm gần nhau trong một hình ảnh, mô hình có thể kết hợp chúng, dẫn đến việc tạo ra các thuật ngữ không liên quan. Mô hình cũng có thể bị ảo giác, tự tin cung cấp thông tin thiếu chính xác và đôi khi không đọc được thông tin từ hình ảnh. Nó có thể bỏ qua văn bản, ký tự, bỏ qua các ký hiệu toán học và không thể nhận dạng vị trí không gian và hiển thị màu sắc.
Nhược điểm về hình ảnh: Mô hình có những giới hạn cụ thể liên quan đến cách hình ảnh được sử dụng hoặc trình bày. Ví dụ, thứ tự của các hình ảnh được sử dụng làm đầu vào có thể ảnh hưởng đến các khuyến nghị của mô hình. Đây là ví dụ về những thách thức về tính chính xác và độ tin cậy của mô hình.
Hạn chế trong lĩnh vực y tế: Hiệu suất của GPT-4V trong lĩnh vực y tế không hoàn hảo. Nó đã nhận dạng sai các chất như fentanyl, carfentanil và cocaine từ hình ảnh cấu trúc hóa học của chúng. Thỉnh thoảng nó cũng nhận dạng chính xác các loại thực phẩm độc như một số loại nấm độc từ hình ảnh, điều này cho thấy sự không đáng tin cậy trong một số nhiệm vụ có mức rủi ro cao.
Kết hợp thuật ngữ và thiếu ký hiệu: Khi cố gắng xử lý các hình ảnh phức tạp, GPT-4V có thể mắc lỗi như kết hợp thuật ngữ và thiếu ký hiệu. Ví dụ, nó có thể kết hợp các thuật ngữ không liên quan hoặc bỏ qua một số chi tiết trong một hình ảnh.

Những giới hạn này làm nổi bật những thách thức và lĩnh vực cần cải thiện cho GPT-4V. Mặc dù nó mang lại khả năng ấn tượng, nhưng quan trọng là nhận thức về những hạn chế của nó và sử dụng nó một cách có trách nhiệm.

Kết luận

Với sự ra mắt của GPT-4 Vision (GPT-4V), rõ ràng chúng ta đang đứng ở ranh giới của một kỷ nguyên trí tuệ nhân tạo mới. Sự kết hợp giữa văn bản và hình ảnh thực sự là một cuộc cách mạng, nhưng giống như tất cả các công cụ khác, cách chúng ta sử dụng nó mới là điều tạo nên giá trị của nó. Vì vậy, hãy nhớ tận dụng sức mạnh của GPT-4V một cách có trách nhiệm và luôn luôn tìm tòi cái mới. Thế giới trí tuệ nhân tạo là rộng lớn, và đây chỉ là khởi đầu.

8 Câu hỏi thường gặp (FAQs)

Tôi có thể sử dụng GPT-4 Vision để nhận dạng khuôn mặt không?

Không, bạn không thể sử dụng GPT-4 Vision để nhận dạng khuôn mặt. Theo một báo cáo của The New York Times 1, OpenAI hiện đang che giấu khuôn mặt trong các hình ảnh và không cho phép GPT-4 xử lý chúng bằng công nghệ nhận dạng hình ảnh. Điều này do lo ngại về quyền riêng tư và các tác động đạo đức của công nghệ nhận dạng khuôn mặt. OpenAI không muốn GPT-4 được sử dụng để nhận dạng hoặc theo dõi cá nhân cụ thể, đặc biệt là mà không có sự đồng ý của họ. Do đó, GPT-4 Vision không phù hợp cho các nhiệm vụ nhận dạng khuôn mặt.

GPT-4 có khả năng về thị giác là gì?

GPT-4 thị giác, hay GPT-4V, là một tính năng mới của GPT-4 cho phép người dùng tải lên hình ảnh và đặt câu hỏi về chúng. GPT-4V có thể phân tích các hình ảnh và cung cấp câu trả lời dựa trên nội dung hình ảnh và đầu vào văn bản.