Kiến thức AICông cụ AI

Các kỹ sư Prompt bật mí mẹo viết prompt cho ChatGPT, Midjourney, Bing Chat


Cách đây bảy tháng, khi Jason dùng AI để giành giải nhất trong một cuộc thi nghệ thuật tại Colorado, ông ta ngay lập tức bị cáo buộc gian lận. Khi đó, ít người sử dụng các công cụ này và ít người biết ông ta làm thế nào. Các chương trình tạo hình ảnh từ văn bản như Midjourney hay Stable Diffusion vừa ra đời và ChatGPT còn chưa được công bố. Kể từ đó, đã có nhiều thay đổi diễn ra. Các công cụ này đã trở nên rất phổ biến và một ngành nghề mới ra đời. Từng bị gọi là “gian lận”, kỹ năng này hiện có một cái tên khá kêu: “kỹ thuật tạo prompt.”


Hiện nay, các trang web việc làm đã đăng quảng cáo tuyển kỹ sư tạo prompt, trong khi các công ty tiếp thị của Úc đang yêu cầu “kiến thức về cách tạo prompt cho ChatGPT.” Nhiều chuyên gia cho rằng việc biết cách nói chuyện với AI để đạt được kết quả tốt nhất sẽ trở thành một kỹ năng cơ bản, giống như gửi email hoặc tìm kiếm trên Google. Tuy nhiên kỹ năng tạo prompt đang gặp rắc rối liên quan đến luật bản quyền. Các nhà chức trách Hoa Kỳ gần đây đã từ chối đơn đăng ký bản quyền của Allen cho hình ảnh giành giải của ông, vì cho rằng “nó không có dấu ấn của con người”.


“Tôi nghĩ rằng chúng ta sẽ ăn mừng AI,” ông Allen, đang sống tại Colorado, nói về quá trình tạo ra hình ảnh này. “Thay vào đó, tôi giống như người đã mở hộp Pandora (hộp chứa đựng những phép thuật tà ma).” Vậy, kỹ thuật tạo prompt là gì? Và kỹ năng mới này sẽ trở nên cần thiết như thế nào?


Học viết các câu prompt quyền lực


Hầu hết các công cụ AI hiện nay đều tạo ra văn bản, ví dụ ChatGPT, hoặc hình ảnh, ví dụ Midjourney. Một vài công cụ khác tạo ra nhạc, video từ văn bản, v.v. Bing Chat AI là một ngoại lệ. Nó có thể tạo ra cả văn bản và hình ảnh từ một câu prompt văn bản.
Tạo hình ảnh từ văn bản. Để hiểu cách giao tiếp với AI, chúng ta cần biết một chút về cách nó hoạt động. Các AI tạo hình ảnh từ văn bản được đào tạo trên một số lượng lớn hình ảnh được thu thập từ internet, cùng với các văn bản liên quan.
Hình ảnh được thu thập từ nhiều thứ, ví dụ, một diễn đàn chơi game Unreal, sẽ được tự động gắn thẻ “Unreal” (cùng với những từ khác, ví dụ chú thích). Bởi vì nhiều hình ảnh có thẻ này (Unreal là một trang web phổ biến, vì vậy có rất nhiều hình ảnh), từ “Unreal” có “trọng số” trong tập dữ liệu đào tạo AI. Trọng số này làm cho từ “unreal” trở thành một prompt rất có ảnh hưởng đối với AI, tạo ra một các hình ảnh có thể dự đoán được. Dùng prompt “Unreal” sẽ tạo ra một hình ảnh giống như game concept art. Các từ ngữ liên quan đến điện ảnh, đạo diễn nghệ thuật, thiết kế đồ họa và phê bình nghệ thuật cũng vậy. Tuy nhiên, không có sách nào hướng dẫn cách viết prompt cụ thể. Viết prompt là một quá trình thử sai (thử nghiệm).
Vài tháng sau khi Midjourney phát hành, các cộng đồng chuyên về giải mã và chia sẻ các bí mật viết prompt AI đã phát sinh trên mạng. Một trong những cộng đồng lớn nhất trong số đó là PromptHero, ra đời vào tháng Chín và có 150.000 người dùng. “Vấn đề thường thấy khi bạn dùng AI lần đầu là kết quả khá tồi,” đồng sáng lập của PromptHero Javier Ramirez, đang sống tại Bồ Đào Nha, nói. “Bạn cần tạo prompt đúng cách để có được kết quả chất lượng cao.”
Anh ấy giới thiệu cho chúng tôi một trong những thành viên của cộng đồng, một người đàn ông sống ở miền Tây Trung Quốc có nick là JHawkk. Prompt của anh ấy gồm “phong cách analog” và “Ống kính Canon EF 50mm f / 1.8 STM”, “cyberpunk”. JHawkk cũng sử dụng 31 prompt phủ định, mô tả những gì anh không muốn thấy trong ảnh, như “xấu xí”, “chân vẽ sai”. Bí quyết tạo tranh ảnh AI là biết viết đúng prompt, JHawkk nói. Giống như một kỹ sư chuyển bản thiết kế thành những con số toán học, anh ta chuyển các yếu tố hình ảnh (“ray tracing”, “rim lighting”) thành câu prompt.
“Khi thấy một bức ảnh, bạn tìm cách sử dụng nhiều prompt ngắn để mô tả hình ảnh,” anh nói. “Đó là cách bạn mô tả hình ảnh đó và đó cũng là cách mà mô hình AI hiểu hình ảnh đó.”


Quá trình tạo ra bức ảnh đoạt giải Théâtre D’opéra Spatial


Jason Allen cho biết ông sẽ “không bao giờ” chia sẻ chuỗi prompt đã tạo ra hình ảnh giành giải của ông, Théâtre D’opéra Spatial, nhưng sẵn sàng chia sẻ về quá trình tạo ra ảnh đó. Giống như JHawkk, ông học cách chọn đúng từ.
“Tôi muốn tạo ra một cảnh điện ảnh như bạn có thể thấy trong một bộ phim,” ông nói. “Vì vậy, tôi lên mạng và tìm từ điển có từ vựng về điện ảnh. Tôi học để trở thành đạo diễn điện ảnh.” Ông đã dành “nhiều tuần” để thử nghiệm tạo ra nhiều hình ảnh khác nhau trong Midjourney, cho đến khi ông tự tin có thể tạo ra hình ảnh như tưởng tượng. *Lúc đó tôi đang nửa ngủ nửa mơ tưởng tượng ra những người phụ nữ trong chiếc áo choàng Victoria đội mũ phi hành gia” – Ông muốn kết hợp thời trang thời Victoria của Anh thế kỷ 19 và tình yêu lãng mạn và kịch tính của một cuộc phiêu lưu ngoài không gian giống như bộ phim Star Wars.
Sau đó, ông đã tạo nhiều biến thể về chủ đề này bằng cách chỉnh sửa các prompt. Tổng cộng, ông đã dành khoảng 80 giờ để tạo ra bức ảnh dự thi. Ông Allen đã thuê một luật sư và kháng cáo quyết định của Văn phòng Bản quyền Hoa Kỳ không trao giấy phép bản quyền. Ông cho rằng Văn phòng không hiểu rằng AI chỉ là “một công cụ”. “Anh nói gì vậy? Nó không phải là một người. Tôi là con người”, ông nói. “Chúng ta đều có giấc mơ sáng tạo của mình. Chúng ta đều có ý tưởng của mình. Nếu không có điều đó, AI không thể làm gì.”


Kỹ sư tạo prompt, lương $ 335.000


Viết prompt cho AI tạo hình ảnh thường yêu cầu kết hợp các yếu tố theo chủ đề theo cách ngẫu hứng. Nhưng viết prompt để tạo văn bản thì không giống như vậy đòi hỏi câu lệnh phải rõ ràng. Tại Luân Đôn, công ty luật Mishcon de Raya đang tìm kiếm một kỹ sư tạo prompt, có khả năng “thiết kế và phát triển các prompt chất lượng cao cho các tình huống pháp lý và các tình huống khác”. Nick West, giám đốc chiến lược của công ty, cho biết một ” tình huống ” có thể là phân tích các bản hợp đồng. “Có những phương pháp viết prompt. Đó là công việc của kỹ sư tạo prompt.”


Ở San Francisco, công ty công nghệ Anthropic đang đưa ra mức lương lên đến 335.000 USD cho một kỹ sư tạo prompt. “Công việc kết hợp lập trình, viết hướng dẫn và huấn luyện”, quảng cáo viết. Matt Bell, một nhân viên kỹ thuật của Anthropic, cho biết công ty đã nhận được hơn 1.000 đơn xin việc. Mặc dù kiến thức về lập trình và nền tảng về học máy rất hữu ích, “prompt không đòi hỏi kiến thức nền về lập trình”, ông nói. “Trên thực tế, người tạo prompt tốt nhất của chúng tôi là một nhà triết học. “Prompt tốt đòi hỏi viết giải thích rất rõ ràng … và tìm ra nguyên nhân gây ra hiểu nhầm và cách khắc phục.”


Cách nói chuyện với ChatGPT hoặc Bing Chat AI


Chìa khóa cho kỹ thuật tạo prompt hiệu quả là chia nhỏ nhiệm vụ phức tạp thành một tập hợp các nhiệm vụ đơn giản, theo Lingqiao Liu, giảng viên cấp cao tại Viện Máy học Úc (AIML) thuộc Đại học Adelaide. Các mô hình AI như ChatGPT có xu hướng tìm chọn cách dễ nhất. Nếu bạn hỏi nó một câu hỏi đơn giản (còn gọi là “zero-shot prompt”), nó sẽ cho câu trả lời khá “nhạt”, thiếu chi tiết hoặc kết cấu.
Nhưng chúng ta cần khuyến khích AI trả lời tốt hơn. Một phương pháp có tên là “prompt một lần”. Giải thích nhanh cho AI về yêu cầu của bạn, cho nó ví dụ dưới dạng câu hỏi- câu trả lời. Khi bạn hỏi câu tiếp theo, AI sẽ sử dụng mẫu câu trả lời đó. Một phương pháp khác được gọi là prompt nhập trò. Giao cho AI một vai trò phù hợp với câu trả lời mà bạn muốn nhận được.


Phương pháp thứ ba là tự đánh giá. Bạn có thể yêu cầu ChatGPT viết một câu chuyện, sau đó yêu cầu nó phê bình và viết lại câu chuyện theo gợi ý của chính nó. Một chiến lược cuối cùng, “chuỗi tư duy”, là cách khuyến khích AI tư duy một vấn đề phức tạp: yêu cầu AI liệt kê các bước mà nó đã thực hiện để đưa ra câu trả lời của nó. Thay vì yêu cầu nó “viết một bài giới thiệu về các loài chim Úc”, bạn sẽ có câu trả lời hay hơn nếu yêu cầu nó “viết dàn bài cho phần giới thiệu” cho chủ đề này. Sau đó, yêu cầu nó viết theo dàn bài đó. Anna Bernstein, một kỹ sư tạo prompt toàn thời gian tại copy.ai, cho biết “rõ ràng” là yếu tố hang đầu. “Nếu bạn in prompt ra và đưa cho nhân vật Data trong phime Star Trek, anh ấy sẽ làm gì?” cô Bernstein nói.


“Bạn cần chú ý cách gọi tên, đánh dấu sự vật và cách đưa ra các hướng dẫn.” Một lời khuyên khác là, “Đưa trọng tâm của nhiệm vụ vào động từ.” “Thay vì viết: ‘Viết lại câu này để ngắn gọn hơn’, nên viết ‘Hãy cô động câu này’.” Cuối cùng, tránh các câu phủ định. Thay vì nói, “Đừng quá nghiêm túc”, hãy viết “Giọng văn thân mật”. “Rất tiếc, nhiều bí mật của tôi được bảo vệ bằng sở hữu trí tuệ và không thể chia sẻ.”


Kỹ thuật tạo prompt sẽ trở thành một kỹ năng thông dụng?


Một số người cho rằng kỹ thuật tạo prompt sẽ không phải là kỹ năng chuyên gia và nó sẽ trở nên ngày càng lỗi thời khi các công cụ AI ngày càng tiến bộ trong việc hiểu các truy vấn của con người. Ví dụ kiến thức về HTML, không còn cần thiết để tạo ra một trang web cơ bản, giống như những gì đã xảy ra vào những năm 90. Một số người khác cho rằng kỹ thuật tạo prompt sẽ trở thành kỹ năng cơ bản cho những người làm công việc văn phòng, và các công cụ này sẽ được tích hợp vào nhiều nhiệm vụ hàng ngày.
Quan điểm của Tiến sĩ Liu nằm giữa hai dự đoán này: kỹ thuật tạo prompt sẽ trở thành một kỹ năng thông dụng, ông nói, nhưng một số người sẽ giỏi hơn người khác. Đối với một số người, đó sẽ là một kỹ năng chuyên môn, giống như khả năng lập trình.
“Kỹ năng chính của một lập trình viên thực sự không phải là viết mã lệnh. Kỹ năng quan trọng là cách chia nhỏ một nhiệm vụ phức tạp thành một chuỗi các nhiệm vụ nhỏ hơn,” ông nói. “Kỹ năng này sẽ chuyển sang ứng dụng cho kỹ thuật tạo prompt.”
Ông West của Mishcon de Raya có cách nhìn tương tự về tương lai.
“Kỹ năng sử dụng GPT4 hoặc các mô hình khác sẽ trở nên cần thiết để làm việc giống như khả năng sử dụng Word hoặc các chương trình tương tự.
(James Purtill, 1/4/2023 )

Xem thêm

Hoàng Dũng AI

AI Trainer and Automation Specialist | Passionate about Empowering Individuals with AI Skills.