Biến hình ảnh thành tác phẩm nghệ thuật với Stable Diffusion AI
Xem thêm:
- [Review] Midjourney vs Stable Diffusion: Công cụ nào tạo ảnh đẹp hơn?
- Top 5 Extension cho A1111 của Stable Diffusion Web UI năm 2023
- Lấy prompt của tất cả các loại ảnh với lệnh Describe trong Midjourney
- Hướng dẫn sử dụng Midjourney để tạo ảnh AI đẹp
- 10 Cách kiểm soát góc máy trong Stable Diffusion để có bức ảnh như ý năm 2023
- Các kỹ sư Prompt bật mí mẹo viết prompt cho ChatGPT, Midjourney, Bing Chat
Việc tạo phong cách cho hình ảnh là quá trình biến đổi phong cách của một hình ảnh thành phong cách mới. Ví dụ, bạn muốn tạo ra một bức vẽ bằng bút chì từ một bức ảnh bạn đã chụp.
Nhiều nghiên cứu đã được thực hiện về việc chuyển đổi phong cách, bắt đầu từ các thuật toán vẻ ảnh bằng tay đến các phương pháp dựa trên mạng neural hiện đại nhất.
Trong bài viết này, tôi sẽ tìm hiểu việc tạo phong cách cho hình ảnh bằng Stable Diffusion, một mô hình chuyển đổi văn bản thành hình ảnh được huấn luyện với hàng triệu cặp văn bản-hình ảnh.
Trong khi các phương pháp hiện nay đã tạo ra các kết quả ấn tượng, lợi ích của việc sử dụng mô hình chuyển đổi văn bản thành hình ảnh là tất cả các phong cách đã được nhúng sẵn trong mô hình. Không cần huấn luyện. Bạn chỉ cần chỉ định phong cách bạn muốn bằng các câu lệnh prompt. Cuối cùng, nếu bạn không hài lòng với kết quả của mô hình nhúng, bạn có thể điều chỉnh và tạo ra mô hình riêng của mình.
Giao diện đồ họa người dùng (GUI)
Tôi sẽ chỉ cho bạn cách làm điều đó với GUI AUTOMATIC1111. Xem hướng dẫn bắt đầu nhanh của tôi để thiết lập trên máy chủ đám mây của Google.
Quy trình làm việc để tạo phong cách cho hình ảnh
Ý tưởng cơ bản
Ý tưởng cơ bản là sử dụng img2img để chỉnh sửa một hình ảnh với phong cách mới được chỉ định trong câu lệnh prompt.
Thay vì sử dụng một trạng thái ẩn ngẫu nhiên, hình ảnh gốc được sử dụng để mã hóa trạng thái ẩn ban đầu. Với một lượng ngẫu nhiên nhỏ được bổ sung thêm vào, thông qua denoising strength, mô hình xây dựng một hình ảnh mới theo câu lệnh prompt.
Vì vậy, nếu prompt của bạn yêu cầu bức vẽ bằng bút chì thì hình ảnh được tổng hợp sẽ bao gồm các yếu tố hình ảnh của bức vẽ bằng bút chì nhưng nội dung của hình ảnh vẫn tuân theo hình ảnh gốc.
Quy trình từng bước
Đó là lý thuyết! Bây giờ hãy chuyển sang thực hành.
Tôi sẽ sử dụng hình ảnh ban đầu bên dưới tạo bởi câu lệnh prompt Victorian girl:
Trong GUI AUTOMATIC1111, hãy nhấp chuột vào tab img2img. Tải lên ảnh lên ô chứa hình ảnh img2img.
Tiếp theo, bạn cần viết prompt mô tả cả phong cách mới và nội dung của hình ảnh gốc. Không cần phải chi tiết quá. Dưới đây là những gì tôi sẽ sử dụng.
một _______về một người phụ nữ xinh đẹp
Thêm phong cách nghệ thuật vào chỗ trống. (Ví dụ: một bức vẽ bằng than chì về một người phụ nữ xinh đẹp)
Đối với việc tạo phong cách cho hình ảnh, bạn sẽ điều chỉnh hai tham số chính: CFG scale và denoising strength,.
TỔNG KẾT
CFG scale điều khiển mức độ mà mô hình tuân theo câu lệnh prompt. Càng cao thì mô hình càng tuân theo nhiều. Denoising strength điều khiển mức độ thay đổi của hình ảnh. Càng thấp thì sự thay đổi càng ít.
Nếu bạn muốn dùng phương pháp có hệ thống, bạn có thể sử dụng Script X/Y plot để tìm hiểu sự tương tác giữa CFG scale và denoising strength. Hình ảnh được xác định bằng seed value.
Thiết lập Script X/Y plot.
Sử dụng prompt:
Một bức vẽ bằng bút chì về một người phụ nữ xinh đẹp
Dưới đây là những gì bạn sẽ nhận được.
Biểu đồ X/Y của CFG scale so với denoising strength
Khi denoising strength cao, hình ảnh thay đổi nhiều khác hẳn nội dung gốc. Khi giá trị thấp thì ít thay đổi.
CFG scale càng cao thì phong cách càng mạnh.
Phương pháp Euler sampling với 50 steps áp dụng được cho hầu hết các tình huống.
Quy tắc chung là đặt cho CFG scale một giá trị cao trong khoảng từ 20-30 và thay đổi độ denoising strength trong khoảng từ 0.2 đến 0.6 để đạt được một phong cách tốt trong khi vẫn giữ nội dung.
Ví dụ về hình ảnh được chuyển phong cách
Tất cả các hình ảnh được chuyển phong cách trong phần này được tạo ra từ từ prompt dựa trên hình ảnh gốc dưới đây.
Dưới đây là một số hình ảnh được chuyển phong cách. Prompt là
Một ______ về một người phụ nữ xinh đẹp
Điền phong cách vào chỗ trống
Bút than
Họa sĩ ấn tượng
Nghệ thuật Pop
Nghệ thuật Art Deco
Nhiếp ảnh
Nghệ thuật Art Nouveau
Chủ nghĩa Cubism
John Sargent
Greg Rutkowski
Nhân vật 3D
Tượng đá
Van Gogh
Truyện tranh
Thời trang hiện đại
Cũng có thể chuyển đổi mô hình sang một dân tộc khác.
Người Nhật
Người Phi
Người Mỹ Latinh
Phương pháp khác
Độc giả thích tìm tìm có thể thử nghiệm phương pháp gọi là thử nghiệm img2img thay thế có thể giữ nội dung của hình ảnh gốc tốt hơn phương pháp trên.
Cách làm là sử dụng hình ảnh gốc để tạo ra mẫu nhiễu ẩn (latent noise pattern) sao cho nó chứa thông tin về nội dung gốc.
Để sử dụng nhiễu thay thế, chọn img2img alternative test trong menu Script.
Người dùng mới nên xem qua ví dụ trong bản demo. Khác với bản demo, tôi thấy tăng CFG scale giúp ảnh đầu ra tuân theo prompt. Đôi khi cần tăng trọng số của từ khóa phong cách.
Dưới đây là một ví dụ về phong cách nghệ thuật Pop được tạo ra bằng phương pháp img2img thay thế.
Phong cách nghệ thuật Pop sử dụng img2img thay thế.
Việc phương pháp nào tốt hơn sẽ là vấn đề cá nhân nhưng nó chắc chắn tuân theo nội dung gốc.
Tóm tắt
Tôi đã chỉ cho bạn cách sử dụng Stable Diffusion dễ dàng để tạo phong cách cho hình ảnh. Bạn chỉ cần sử dụng phương pháp img2img,viết prompt, tăng CFG scale, và điều chỉnh denoising strength.
Hy vọng điều này sẽ truyền cảm hứng cho bạn để tạo ra một số tác phẩm nghệ thuật mới!