Hướng dẫn cài đặt SDXL Stable Diffusion để tạo ảnh đẹp long lanh năm 2023

September 2, 2023 Hoàng Dũng AI

Chia sẻ

Xem thêm:

Nội dung

SDXL là gì?

Mô hình Stable Diffusion XL (SDXL) là phiên bản nâng cấp chính thức của mô hình v1.5. Mô hình này được phát hành dưới dạng phần mềm mã nguồn mở.

Mô hình lớn hơn khá nhiều so với mô hình trước. Trong lĩnh vực trí tuệ nhân tạo, điều này thường đồng nghĩa với tốt hơn. Tổng tham số của mô hình SDXL là 6,6 tỷ, so với 0,98 tỷ của mô hình v1.5.

Sự khác biệt giữa mô hình SDXL và mô hình v1.5

Mô hình SDXL bao gồm hai mô hình – mô hình cơ bản và mô hình tinh chỉnh (mô hình trích từ bài nghiên cứu).

Thực tế, mô hình SDXL bao gồm hai mô hình. Bạn chạy mô hình cơ bản trước, sau đó là mô hình tinh chỉnh. Mô hình cơ bản xác định cấu trúc chung của bức ảnh. Mô hình tinh chỉnh bố sung thêm vào các chi tiết nhỏ. (Bạn có thể chỉ chạy mô hình cơ bản nếu muốn.)

Mô hình ngôn ngữ (mô-đun hiểu yêu cầu của bạn) được xây dựng từ sự kết hợp của mô hình OpenClip lớn nhất (ViT-G/14) và mô hình CLIP ViT-L độc quyền của OpenAI. Đây là một lựa chọn thông minh vì phiên bản SDXL v2 chỉ sử dụng mô hình OpenClip và gặp khó khăn khi xử lý yêu cầu. Việc sử dụng lại mô hình CLIP của OpenAI làm cho việc xử lý yêu cầu dễ dàng hơn. Các yêu cầu hoạt động trên mô hình v1.5 có khả năng hoạt động tốt trên mô hình SDXL.

Mô hình SDXL dùng phương pháp mới để xử lý kích thước ảnh, chấp nhận các ảnh huấn luyện nhỏ hơn với kích thước 256×256. Nhờ vậy số lượng ảnh dùng trong dữ liệu huấn luyện tăng đáng kể.

Phần quan trọng nhất của mô hình Stable Diffusion, là mạch U-Net, đã tăng gấp ba lần. Kết hợp với mô hình ngôn ngữ lớn hơn, mô hình SDXL tạo ra những hình ảnh chất lượng cao, chính xác với yêu cầu.

Kích thước ảnh mặc định của mô hình SDXL là 1024×1024, lớn gấp bốn lần so với kích thước ảnh 512×512 của mô hình v1.5.

So sánh chất lượng ảnh của SDXL

Theo nghiên cứu của Stability AI, phần lớn người dùng thích những hình ảnh từ mô hình SDXL hơn so với mô hình cơ bản v1.5. Các hình ảnh bên dưới được tạo ra từ các prompt giống nhau cho hai mô hình v1.5 và SDXL 0.9. Bạn tự đánh giá chất lượng ảnh nào đẹp hơn.

Thể loại ảnh hiện thực

Trước tiên, hãy so sánh những hình ảnh hiện thực

Prompt:

Hình ảnh một phụ nữ trẻ da trắng, tóc nổi bật, đang ngồi ngoài một nhà hàng, mặc váy, ánh sáng viền, ánh sáng trong phòng studio, hướng mắt vào máy ảnh, máy ảnh DSLR, chất lượng siêu cao, nét rõ, tiêu điểm nét, sâu rộng của trường ảnh, hiệu ứng mờ phim, máy ảnh Fujifilm XT3, rõ ràng như pha lê, độ phân giải 8K UHD, đôi mắt sáng bóng với độ chi tiết cao, da có độ chi tiết cao, lỗ chân lông của da. (photo of young Caucasian woman, highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores)

Negative prompt:

Biến dạng, xấu xí, tồi tệ, chưa trưởng thành, phong cách hoạt hình, phong cách anime, hình ảnh 3D, hội họa, hình ảnh đen trắng. (disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w)

Ngoại trừ kích thước ảnh, tất cả các tham số đều giữ nguyên để so sánh. Kích thước cho mô hình v1 là 512×512. Kích thước cho mô hình SDXL là 1024×1024.

Dưới đây là một số hình ảnh từ mô hình SD 1.5.

SD v1.5

Dưới đây là mô hình cơ bản của SDXL.

SDXL cơ bản

Dưới đây là mô hình cơ bản của SDXL kèm theo mô hình tinh chỉnh.

Như bạn có thể thấy, mô hình tinh chỉnh là cần thiết để tạo ra những hình ảnh sống động như thật.

Nếu chỉ sử dụng mô hình cơ bản v1.5 thì có vẻ không công bằng cho các mô hình v1 vì hầu hết người dùng sử dụng các mô hình v1.5 đã được tinh chỉnh để tạo ra những hình ảnh hiện thực về người. Vì vậy, dưới đây là kết quả sử dụng URPM, một mô hình hiện thực xuất sắc.

Hình ảnh từ URPM (được điều chỉnh tốt từ mô hình v1.5)

Dưới đây là một bộ hình ảnh so sánh khác sử dụng các giá trị seed khác nhau.

Hình ảnh từ mô hình SD v1.5

Hình ảnh từ mô hình SDXL cơ bản

Hình ảnh từ mô hình SDXL cơ bản kèm theo mô hình tinh chỉnh

Hình ảnh từ URPM (được điều chỉnh tốt từ mô hình v1.5)

Mô hình cơ bản của SDXL đã tạo ra một hình ảnh chấp nhận được, mặc dù khuôn mặt có thể trông mịn hơn một chút so với hình ảnh thực tế. Mô hình tinh chỉnh thêm vào những chi tiết thực tế sinh động cho khuôn mặt.

Tạo văn bản đã bớt bị lỗi

Khả năng tạo ra văn bản chính xác hơn là một đột phá khi tôi thử nghiệm mô hình SDXL Beta. SDXL chí ít cũng phải làm được như vậy.

Prompt:

Một nhà hàng nhanh trên mặt trăng được gọi là “Moon Burger.” (A fast food restaurant on the moon with name “Moon Burger”)

Negative prompt:

Biến dạng, xấu xí, tồi tệ, chưa trưởng thành, phong cách hoạt hình, phong cách anime, hình ảnh 3D, hội họa, hình ảnh đen trắng. (disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w)

Dưới đây là các hình ảnh từ mô hình cơ bản của SDXL và mô hình cơ bản của SDXL kèm theo mô hình tinh chỉnh.

Hình ảnh từ mô hình SDXL cơ bản

Hình ảnh từ mô hình SDXL cơ bản kèm theo mô hình tinh chỉnh

Trong khi đó mô hình cơ bản của v1.5 đã thất bại một cách thảm hại. Không những không thể tạo ra văn bản đúng ngữ pháp, mà nó cũng không thể tạo ra hình ảnh chuẩn.

Hình ảnh từ mô hình v1.5

Phong cách Anime

Thể loại ảnh với phong cách Anime.

Prompt:

Phong cách hoạt hình, sống động như thật, một cô gái, cổ xương, tóc xoăn, nhìn vào người xem, phần trên cơ thể, dây chuyền cổ, hoa văn hoa, đuôi ngựa, tàn nhang, tóc đỏ, ánh sáng mặt trời. (anime, photorealistic, 1girl, collarbone, wavy hair, looking at viewer, upper body, necklace, floral print, ponytail, freckles, red hair, sunlight)

Negative prompt:

Biến dạng, xấu xí, tồi tệ, chưa trưởng thành, hình ảnh, dành cho người dùng không chuyên, quá sáng, dưới sáng. (disfigured, ugly, bad, immature, photo, amateur, overexposed, underexposed)

Dưới đây là các hình ảnh từ mô hình SDXL có và không có mô hình tinh chỉnh.

Hình ảnh từ mô hình SDXL cơ bản

Hình ảnh từ mô hình SDXL cơ bản kèm theo mô hình tinh chỉnh

Dưới đây là các hình ảnh từ mô hình v1.5 và mô hình Anything v4.5 (được fine-tuned từ v1.5).

Hình ảnh từ mô hình v1.5

Hình ảnh từ mô hình Anything v4.5

Mô hình cơ bản của SDXL đã tạo ra những hình ảnh Anime tuyệt vời. Với một mô hình cơ bản thìn hững hình ảnh này rất tốt. Mô hình tinh chỉnh sẽ thêm vào những chi tiết sống động, mặc dù có thể sẽ có một số chi tiết lặp. Để đạt được một phong cách cụ thể, có thể cần sử dụng các mô hình fine-tuned như v1.

Cảnh quan

Cuối cùng, dưới đây là một số hình ảnh thành phố với prompt đơn giản.

Prompt:

Bức tranh đẹp về cảnh đường phố của họa sĩ Brad Rigney. (Painting of a beautiful city by Brad Rigney.)

Hình ảnh từ mô hình SDXL cơ bản

Hình ảnh từ mô hình SDXL cơ bản kèm theo mô hình tinh chỉnh.

So sánh hình ảnh từ mô hình v1.5.

Hình ảnh so sánh từ mô hình SD v1.5

Tải mô hình SDXL 1.0

Mô hình SDXL base, refiner and VAE tại các trang sau.

SDXL 1.0 base model page

SDXL 1.0 refiner model page

SDXL VAE page

Llink tải trực tiếp

Download SDXL 1.0 base model

Download SDXL 1.0 refiner model

Download SDXL VAE file

Mẹo sử dụng mô hình SDXL 1.0

Nhân viên của Stability AI đã chia sẻ một số mẹo về cách sử dụng mô hình SDXL 1.0. Dưới đây là tóm tắt.

Kích thước hình ảnh

Kích thước gốc là 1024×1024. SDXL hỗ trợ các tỷ lệ khía cạnh khác nhau nhưng chất lượng nhạy cảm đối với kích thước. Dưới đây là kích thước hình ảnh được sử dụng trong DreamStudio, công cụ tạo ảnh chính thức của Stability AI:

1:1 – 1024 x 1024
5:4 – 1152 x 896
3:2 – 1216 x 832
16:9 – 1344 x 768
21:9 – 1536 x 640

Sử dụng tiện ích Aspect Ratio Selector để dễ dàng chuyển đổi sang các kích thước hình ảnh này. Thêm các dòng sau vào tệp resolutions.txt trong thư mục của tiện ích (stable-diffusion-webui\extensions\sd-webui-ar).

XL1:1, 1024, 1024
XL5:4, 1152, 896
XL3:2, 1216, 832
XL16:9, 1344, 768
XL21:9, 1536, 640

Negative prompt

Các negative prompt không cần thiết như trong các mô hình 1.5 và 2.0. Nhiều negative prompt thông thường không cần thiết, ví dụ như “Extra fingers.”

Trọng số từ khóa

Bạn không cần sử dụng trọng số từ khóa cao như các mô hình v1.0. Trong mô hình 1.5, trọng số rất cao cho mô hình SDXL. Có thể bạn cần giảm trọng số khi tái sử dụng các gợi ý từ các mô hình v1.0. Giảm trọng số hoạt động tốt hơn là tăng trọng số.

Safetensor

Luôn sử dụng phiên bản safetensor, không phải phiên bản checkpoint. Nó an toàn hơn và sẽ không chạy mã trên máy tính của bạn.

Độ mạnh của bộ tinh chỉnh (Refiner strength)

Sử dụng độ mạnh của bộ tinh chỉnh (refiner) thấp để đạt được kết quả tốt nhất.

Bộ tinh chỉnh (Refiner)

Sử dụng một hình ảnh nhiễu để đạt được kết quả tốt nhất từ bộ tinh chỉnh (refiner).

Chạy mô hình SDXL bằng cách sử dụng phần mở rộng AUTOMATIC1111

Hiện tại, AUTOMATIC1111 (giao diện đồ họa người dùng) đã hỗ trợ SDXL một cách tự nhiên. Không còn cần sử dụng phần mở rộng SDXL Demo để chạy mô hình SDXL. Bản cập nhật hỗ trợ cho SDXL đã được phát hành vào ngày 24 tháng 7 năm 2023. Bạn có thể cần cập nhật AUTOMATIC1111 của bạn để sử dụng các mô hình SDXL.

Bạn có thể thiết lập AUTOMATIC1111 trên Google Colab, Windows hoặc Mac.

Cài đặt mô hình SDXL trên Google Colab

Cài đặt mô hình SDXL trong Colab Notebook theo Hướng dẫn Bắt đầu Nhanh rất đơn giản. Bạn chỉ cần chọn mô hình SDXL_1 trước khi chạy Notebook.

Cài đặt phần mở rộng SDXL trên Windows hoặc Mac

Tải về các mô hình cơ bản và bộ tinh chỉnh (refiner) của SDXL và đặt chúng vào thư mục models/Stable-diffusion như thường lệ. Nếu bạn mới làm quen với việc cài đặt mô hình, hãy xem hướng dẫn cài đặt mô hình để biết thêm thông tin.

Download SDXL 1.0 base model

Download SDXL 1.0 refiner model

Sau khi nhấp vào biểu tượng làm mới bên cạnh menu thả xuống Stable Diffusion Checkpoint, bạn sẽ thấy hai mô hình SDXL hiển thị trong menu đó.

Sử dụng mô hình cơ sở SDXL để chuyển văn bản thành hình ảnh

Sử dụng mô hình cơ sở SDXL trên trang txt2img không khác gì việc sử dụng các mô hình khác. Các bước cơ bản là:

Chọn mô hình cơ sở SDXL 1.0 trong menu thả xuống Stable Diffusion Checkpoint.
Nhập prompt và tùy chọn một negative prompt nếu cần.
Đặt kích thước hình ảnh là 1024×1024 hoặc gần bằng 1024 cho tỷ lệ khía cạnh khác. (xem phần mẹo ở trên)

QUAN TRỌNG: Không chọn một VAE của một mô hình v1. Đi tới Cài đặt > Stable Diffusion. Đặt SD VAE thành None hoặc Automatic.

MẸO: Trong Cài đặt > Giao diện người dùng > QuickSetting: Thêm sd_vae để thêm một menu thả xuống để chọn VAE gần khung thả xuống checkpoint.

Prompt:

1 cô gái, đơn độc, tương phản cao, đặt tay trong túi, (mặc váy đen trắng, nhìn vào người xem, gam màu trắng và xanh nhạt, nền màu trắng và xanh nhạt, tóc màu trắng, mắt màu xanh, toàn bộ cơ thể, giày đen, nước xanh nhạt trên bầu trời và mây trắng và ngày từ phía trên, tranh mực) (1girl ,solo,high contrast, hands on the pocket, (black and white dress, looking at viewer, white and light blue theme, white and light blue background, white hair, blue eyes, full body, black footwear the light blue water on sky and white cloud and day from above, Ink painting)

Negative prompt:

phác thảo, xấu xí, mắt to, văn bản, logo, đơn sắc, nghệ thuật kém (sketch, ugly, huge eyes, text, logo, monochrome, bad art)

Kích thước: 896 x 1152

20 sampling steps

Sử dụng mô hình tinh chỉnh (refiner)

Bước tinh chỉnh được thực hiện trên trang img2img.

Nhấp vào “Gửi đến img2img” dưới ảnh đầu ra.

Chọn mô hình tinh chỉnh (refiner) SDXL 1.0 trong menu thả xuống Stable Diffusion Checkpoint.

Đặt denoising strength) từ 0.1-0.3 (Đây LÀ độ mạnh của bộ tinh chỉnh. Tăng lên để thêm nhiều chi tiết hơn).

Sử dụng các kiểu mẫu được thiết lập sẵn (preset style) cho SDXL

DreamStudio, công cụ tạo ảnh chính thức của Stable Diffusion, có một danh sách các kiểu mẫu được thiết lập sẵn. Thực tế, chúng được thực hiện bằng cách thêm các từ khóa vào gợi ý và gợi ý phủ định. Bạn có thể cài đặt tiện ích StyleSelectorXL để thêm cùng danh sách các kiểu mẫu được thiết lập sẵn vào AUTOMATIC1111.

Cài đặt tiện ích mở rộng StyleSelectorXL

Để cài đặt tiện ích mở rộng, điều hướng đến trang Extensions trong AUTOMATIC1111. Chọn tab Install from URL. Đặt đường dẫn sau vào URL cho kho lưu trữ git của tiện ích mở rộng.

https://github.com/ahgsql/StyleSelectorXL

Nhấn Cài đặt. Sau khi bạn thấy xác nhận cài đặt thành công, khởi động lại hoàn toàn giao diện web AUTOMATIC1111.

Sử dụng bộ chọn kiểu (style selector) SDXL

Bạn sẽ thấy một phần mới xuất hiện trên trang txt2img.

Viết prompt và negative prompt như bình thường. Bật SDXL Styles option. Chọn một style (không phải style cơ bản)