Biến hình ảnh thành tác phẩm nghệ thuật với Stable Diffusion AI

September 9, 2023 Hoàng Dũng AI

Chia sẻ

Xem thêm:

Việc tạo phong cách cho hình ảnh là quá trình biến đổi phong cách của một hình ảnh thành phong cách mới. Ví dụ, bạn muốn tạo ra một bức vẽ bằng bút chì từ một bức ảnh bạn đã chụp.

Nhiều nghiên cứu đã được thực hiện về việc chuyển đổi phong cách, bắt đầu từ các thuật toán vẻ ảnh bằng tay đến các phương pháp dựa trên mạng neural hiện đại nhất.

Trong bài viết này, tôi sẽ tìm hiểu việc tạo phong cách cho hình ảnh bằng Stable Diffusion, một mô hình chuyển đổi văn bản thành hình ảnh được huấn luyện với hàng triệu cặp văn bản-hình ảnh.

Trong khi các phương pháp hiện nay đã tạo ra các kết quả ấn tượng, lợi ích của việc sử dụng mô hình chuyển đổi văn bản thành hình ảnh là tất cả các phong cách đã được nhúng sẵn trong mô hình. Không cần huấn luyện. Bạn chỉ cần chỉ định phong cách bạn muốn bằng các câu lệnh prompt. Cuối cùng, nếu bạn không hài lòng với kết quả của mô hình nhúng, bạn có thể điều chỉnh và tạo ra mô hình riêng của mình.

Nội dung

Giao diện đồ họa người dùng (GUI)

Tôi sẽ chỉ cho bạn cách làm điều đó với GUI AUTOMATIC1111. Xem hướng dẫn bắt đầu nhanh của tôi để thiết lập trên máy chủ đám mây của Google.

Quy trình làm việc để tạo phong cách cho hình ảnh

Ý tưởng cơ bản

Ý tưởng cơ bản là sử dụng img2img để chỉnh sửa một hình ảnh với phong cách mới được chỉ định trong câu lệnh prompt.

Thay vì sử dụng một trạng thái ẩn ngẫu nhiên, hình ảnh gốc được sử dụng để mã hóa trạng thái ẩn ban đầu. Với một lượng ngẫu nhiên nhỏ được bổ sung thêm vào, thông qua denoising strength, mô hình xây dựng một hình ảnh mới theo câu lệnh prompt.

Vì vậy, nếu prompt của bạn yêu cầu bức vẽ bằng bút chì thì hình ảnh được tổng hợp sẽ bao gồm các yếu tố hình ảnh của bức vẽ bằng bút chì nhưng nội dung của hình ảnh vẫn tuân theo hình ảnh gốc.

Quy trình từng bước

Đó là lý thuyết! Bây giờ hãy chuyển sang thực hành.

Tôi sẽ sử dụng hình ảnh ban đầu bên dưới tạo bởi câu lệnh prompt Victorian girl:

Trong GUI AUTOMATIC1111, hãy nhấp chuột vào tab img2img. Tải lên ảnh lên ô chứa hình ảnh img2img.

Tiếp theo, bạn cần viết prompt mô tả cả phong cách mới và nội dung của hình ảnh gốc. Không cần phải chi tiết quá. Dưới đây là những gì tôi sẽ sử dụng.

một _______về một người phụ nữ xinh đẹp

Thêm phong cách nghệ thuật vào chỗ trống. (Ví dụ: một bức vẽ bằng than chì về một người phụ nữ xinh đẹp)

Đối với việc tạo phong cách cho hình ảnh, bạn sẽ điều chỉnh hai tham số chính: CFG scale và denoising strength,.

TỔNG KẾT
CFG scale điều khiển mức độ mà mô hình tuân theo câu lệnh prompt. Càng cao thì mô hình càng tuân theo nhiều. Denoising strength điều khiển mức độ thay đổi của hình ảnh. Càng thấp thì sự thay đổi càng ít.

Nếu bạn muốn dùng phương pháp có hệ thống, bạn có thể sử dụng Script X/Y plot để tìm hiểu sự tương tác giữa CFG scale và denoising strength. Hình ảnh được xác định bằng seed value.

Thiết lập Script X/Y plot.

Sử dụng prompt:

Một bức vẽ bằng bút chì về một người phụ nữ xinh đẹp

Dưới đây là những gì bạn sẽ nhận được.

Biểu đồ X/Y của CFG scale so với denoising strength

Khi denoising strength cao, hình ảnh thay đổi nhiều khác hẳn nội dung gốc. Khi giá trị thấp thì ít thay đổi.

CFG scale càng cao thì phong cách càng mạnh.

Phương pháp Euler sampling với 50 steps áp dụng được cho hầu hết các tình huống.

Quy tắc chung là đặt cho CFG scale một giá trị cao trong khoảng từ 20-30 và thay đổi độ denoising strength trong khoảng từ 0.2 đến 0.6 để đạt được một phong cách tốt trong khi vẫn giữ nội dung.

Ví dụ về hình ảnh được chuyển phong cách

Tất cả các hình ảnh được chuyển phong cách trong phần này được tạo ra từ từ prompt dựa trên hình ảnh gốc dưới đây.

Dưới đây là một số hình ảnh được chuyển phong cách. Prompt là

Một ______ về một người phụ nữ xinh đẹp

Điền phong cách vào chỗ trống

Bút than

Họa sĩ ấn tượng

Nghệ thuật Pop

Nghệ thuật Art Deco

Nhiếp ảnh

Nghệ thuật Art Nouveau

Chủ nghĩa Cubism

John Sargent

Greg Rutkowski

Nhân vật 3D

Tượng đá

Van Gogh

Truyện tranh

Thời trang hiện đại

Cũng có thể chuyển đổi mô hình sang một dân tộc khác.

Người Nhật

Người Phi

Người Mỹ Latinh

Phương pháp khác

Độc giả thích tìm tìm có thể thử nghiệm phương pháp gọi là thử nghiệm img2img thay thế có thể giữ nội dung của hình ảnh gốc tốt hơn phương pháp trên.

Cách làm là sử dụng hình ảnh gốc để tạo ra mẫu nhiễu ẩn (latent noise pattern) sao cho nó chứa thông tin về nội dung gốc.

Để sử dụng nhiễu thay thế, chọn img2img alternative test trong menu Script.

Người dùng mới nên xem qua ví dụ trong bản demo. Khác với bản demo, tôi thấy tăng CFG scale giúp ảnh đầu ra tuân theo prompt. Đôi khi cần tăng trọng số của từ khóa phong cách.

Dưới đây là một ví dụ về phong cách nghệ thuật Pop được tạo ra bằng phương pháp img2img thay thế.

Phong cách nghệ thuật Pop sử dụng img2img thay thế.

Việc phương pháp nào tốt hơn sẽ là vấn đề cá nhân nhưng nó chắc chắn tuân theo nội dung gốc.

Tóm tắt

Tôi đã chỉ cho bạn cách sử dụng Stable Diffusion dễ dàng để tạo phong cách cho hình ảnh. Bạn chỉ cần sử dụng phương pháp img2img,viết prompt, tăng CFG scale, và điều chỉnh denoising strength.

Hy vọng điều này sẽ truyền cảm hứng cho bạn để tạo ra một số tác phẩm nghệ thuật mới!