Công cụ AI

Hướng dẫn sử dụng Stable Diffusion A1111 cho người mới bắt đầu

Xem thêm:

Stable Diffusion WebUI (AUTOMATIC1111 hoặc A1111 để gọi tắt) là giao diện dành cho người dùng nâng cao. Nhờ các thành viên đầy đam mê của cộng đồng, hầu hết các tính năng mới đều được ưu tiên đưa vào giao diện người dùng miễn phí này trước. Tuy nhiên, đây không phải là phần mềm dễ sử dụng nhất. Tài liệu hướng dẫn còn thiếu. Danh sách các tính năng mở rộng mà nó cung cấp có thể làm người dùng cảm thấy nản lòng.

Hướng dẫn này sẽ dạy bạn cách sử dụng giao diện người dùng AUTOMATIC1111. Có rất nhiều ví dụ bạn có thể làm theo từng bước.

Bạn cũng có thể sử dụng hướng dẫn này làm tài liệu tham khảo để tra cứu khi bạn thực sự muốn biết cách sử dụng một tính năng nào đó.

Bạn sẽ thấy nhiều ví dụ minh họa cho hiệu ứng của việc điều chỉnh vì tôi tin rằng đây là cách duy nhất để bạn biết cách dùng.

Cập nhật:

  • Ngày 20 tháng 8 năm 2023: Thêm Canvas Zoom cho Inpainting.

Tải và cài đặt Stable Diffusion WebUI

Bạn có thể sử dụng Stable Diffusion WebUI trên Windows, Mac hoặc Google Colab.

Đọc Hướng dẫn Bắt đầu Nhanh để biết nên sử dụng Stable Diffusion nào.

Xem qua một số extension hữu ích cho người mới bắt đầu.

Text-to-image tab – Tab Văn bản-ảnh

Bạn sẽ thấy tab “txt2img” khi bạn khởi động giao diện người dùng lần đầu tiên. Tab này thực hiện chức năng cơ bản nhất của Stable Diffusion: chuyển đổi prompt thành hình ảnh.
![[Pasted image 20230912125534.png]]

Cách sử dụng cơ bản

Đây là các cài đặt bạn có thể cần thay đổi nếu đây là lần đầu tiên bạn sử dụng AUTOMATIC1111.
![[Pasted image 20230912125610.png]]

Stable Diffusion Checkpoint: Hãy chọn mô hình mà bạn muốn sử dụng. Người dùng lần đầu có thể sử dụng mô hình cơ bản v1.5.

Prompt: Mô tả những gì bạn muốn xuất hiện trong hình ảnh. Dưới đây là một ví dụ. Xem hướng dẫn đầy đủ về cách tạo Prompt để biết thêm chi tiết.

Một bức tranh siêu thực về một con mèo do họa sỹ Salvador Dali vẽ. (A surrealist painting of a cat by Salvador Dali)

Width and height (Chiều rộng và chiều cao): Kích thước của hình ảnh đầu ra. Bạn nên đặt ít nhất một chiều là 512 pixel khi sử dụng mô hình v1. Ví dụ, đặt chiều rộng là 512 và chiều cao là 768 cho một hình ảnh chân dung với tỷ lệ 2:3.

Batch size (Số ảnh trong một lần tạo): Số lượng hình ảnh được tạo ra mỗi lần. Bạn nên tạo ra ít nhất một vài hình ảnh khi thử nghiệm prompt vì mỗi hình ảnh sẽ khác nhau.

Cuối cùng, nhấn nút Generate (Tạo). Sau một thời gian ngắn chờ đợi, bạn sẽ nhận được hình ảnh của mình!

Theo mặc định, bạn sẽ nhận được một hình ảnh gồm các hình thu nhỏ.

Bạn có thể lưu hình ảnh vào máy tính. Đầu tiên, chọn hình ảnh bằng cách sử dụng các hình thu nhỏ dưới khung hình chính. Nhấp chuột phải vào hình ảnh để hiển thị menu ngữ cảnh. Bạn có các tùy chọn để lưu hình ảnh hoặc sao chép hình ảnh vào clipboard.

Đó là tất cả những gì bạn cần biết về kỹ năng cơ bản! Phần còn lại của bài này sẽ giải thích từng chức năng chi tiết hơn.

Tham số tạo hình ảnh

Tab txt2img trong AUTOMATIC1111.

Tab txt2img.

Stable Diffusion checkpoint là một menu thả xuống để chọn mô hình. Bạn cần đặt các tệp mô hình trong thư mục stable-diffusion-webui > models > Stable-diffusion. Xem thêm về cách cài đặt mô hình.

Nút refresh (làm mới) bên cạnh menu thả xuống được sử dụng để làm mới danh sách các mô hình. Nó được sử dụng khi bạn vừa đặt một mô hình mới trong thư mục mô hình và muốn cập nhật danh sách.

Hộp văn bản Prompt: Viết nội dung của hình ảnh. Hãy viết chi tiết và cụ thể. Sử dụng một số từ khóa đã được kiểm chứng. Bạn có thể tìm thấy một danh sách ngắn ở đây hoặc một danh sách chi tiết hơn trong trình tạo Prompt.

Hộp văn bản Negative prompt: Viết ra những gì bạn không muốn xuất hiện trong ảnh. Bạn nên dùng negative prompt khi sử dụng các mô hình v2. Bạn có thể sử dụng một negative prompt chung cho các prompt. Xem bài viết này để biết chi tiết.

Sampling method (Phương pháp lấy mẫu): Thuật toán cho quá trình làm mờ nhiễu (denoising process). Tôi sử dụng DPM++ 2M Karras vì nó cân bằng tốc độ và chất lượng tốt. Xem phần này để biết thêm chi tiết. Bạn có thể tránh các bộ lấy mẫu đời đầu (Các bộ có chữ a) vì hình ảnh của chúng không ổn định ngay cả ở các bước lấy mẫu lớn. Điều này làm cho việc điều chỉnh hình ảnh trở nên khó khăn.

Sampling steps (Bước lấy mẫu): Số bước lấy mẫu cho quá trình làm mờ nhiễu. Càng nhiều càng tốt, nhưng cũng mất thời gian hơn. Hầu hết các trường hợp chỉ cần dùng 25 bước là được.

Width and height (Chiều rộng và chiều cao): Kích thước của hình ảnh đầu ra. Bạn nên đặt ít nhất một chiều là 512 pixel cho các mô hình v1. Ví dụ, đặt chiều rộng là 512 và chiều cao là 768 cho một hình ảnh chân dung với tỷ lệ 2:3. Đặt ít nhất một bên là 768 khi sử dụng mô hình v2-768px.

Batch count (Số lô): Số lần bạn chạy quy trình tạo hình ảnh.

Batch size (Kích thước lô): Số lượng hình ảnh được tạo ra mỗi lần bạn chạy quy trình.

Tổng số hình ảnh được tạo ra bằng số lô nhân số lượng lô. Bạn thường chỉ thay đổi kích thước lô vì nó nhanh hơn. Bạn chỉ thay đổi số lô nếu gặp vấn đề về bộ nhớ.

CFG scale (Tỷ lệ CFG -Classifier Free Guidance scale): là một tham số để điều khiển mức độ mà mô hình cần tuân theo prompt của bạn.

1 – Hầu như bỏ qua prompt của bạn.
3 – Sáng tạo hơn.
7 – Cân bằng giữa việc tuân thủ prompt và tự do sáng tạo.
15 – Tuân thủ prompt nhiều hơn.
30 – Tuân thủ prompt tuyệt đối.

Các hình ảnh dưới đây cho thấy hiệu ứng của việc thay đổi CFG khi cố định các giá trị seed. Bạn không nên đặt giá trị CFG quá cao hoặc quá thấp. Stable Diffusion sẽ bỏ qua prompt của bạn nếu giá trị CFG quá thấp. Màu sắc của hình ảnh sẽ bị bão hòa khi giá trị quá cao.

Seed

Seed: Giá trị seed được sử dụng để tạo ra tensor ngẫu nhiên ban đầu trong không gian ẩn. Trên thực tế, nó điều khiển nội dung của hình ảnh. Mỗi hình ảnh được tạo ra có giá trị seed riêng của nó. AUTOMATIC1111 sẽ sử dụng một giá trị seed ngẫu nhiên nếu được đặt thành -1.

Một lý do phổ biến để cố định seed là để cố định nội dung của hình ảnh và điều chỉnh prompt. Ví dụ tôi đã tạo ra một hình ảnh bằng cách sử dụng prompt sau đây.

ảnh của một người phụ nữ, váy, nền thành phố ban đêm (photo of woman, dress, city night background)

Tôi thích hình ảnh này và muốn điều chỉnh prompt để thêm vòng đeo tay vào cổ tay của cô ấy. Bạn sao chép giá trị seed của hình ảnh này. Giá trị seed được hiển thị trong thông báo nhật ký (log message) dưới khung hình.

Giá trị seed của một hình ảnh (chữ tô mầu vàng) được hiển thị trong thông báo nhật ký.

Sao chép giá trị này vào ô nhập giá trị seed. Hoặc sử dụng nút tái tạo (recycle) để sao chép giá trị seed.

Bây giờ thêm thuật ngữ “vòng đeo tay” vào prompt

ảnh của một người phụ nữ, váy, nền thành phố ban đêm, vòng đeo tay (photo of woman, dress, city night background, bracelet)

Bạn sẽ nhận được một hình ảnh tương tự có vòng đeo tay được thêm vào cổ tay của cô ấy.

Cảnh có thể thay đổi hoàn toàn vì một số từ khóa đủ mạnh để thay đổi bố cục. Bạn có thể thử nghiệm bằng cách thay một từ khóa trong một bước lấy mẫu sau đó.

Sử dụng biểu tượng xúc xắc để đặt giá trị seed trở lại -1 (ngẫu nhiên).

Tùy chọn seed Extra

Nhấn vào tùy chọn Extra sẽ hiển thị menu Extra Seed.

Variation seed: Một giá trị seed bổ sung mà bạn muốn dùng.

Variation strength: Mức độ nội suy giữa seedvariation seed. Đặt là 0 sẽ sử dụng giá trị seed. Đặt là 1 sẽ sử dụng giá trị variation seed.

Dưới đây là một ví dụ. Giả sử bạn đã tạo ra 2 hình ảnh dựa trên prompt và thiết lập giống nhau. Chúng có giá trị seed là 1 và 3.

Hình ảnh đầu tiên: Giá trị seed là 1.

Hình ảnh thứ hai: Giá trị seed là 3.

Bạn muốn ghép hai hình ảnh này lại với nhau. Bạn đặt giá trị seed là 1, giá trị variation seed là 3 và điều chỉnh variation strength trong khoảng từ 0 đến 1. Trong thí nghiệm dưới đây, variation strength cho phép bạn ghép nội dung hình ảnh giữa hai seed. Tư thế và nền của cô gái thay đổi dần khi mức độ biến thể tăng từ 0 đến 1.

Resize seed from width/height: Hình ảnh sẽ thay đổi nhiều nếu bạn thay đổi kích thước hình ảnh, ngay cả khi bạn sử dụng cùng một giá trị seed. Cài đặt này nhằm cố định nội dung của hình ảnh khi thay đổi kích thước hình ảnh. Bạn đặt kích thước mới trong thanh trượt widthheight và kích thước rộng và cao của hình ảnh gốc ở đây. Đặt giá trị seed gốc vào ô nhập giá trị seed. Đặt mức độ biến thể là 0 để bỏ qua giá trị variation seed.

Ví dụ bạn thích hình ảnh này, có kích thước 512×800 với giá trị seed là 3.

Bố cục ảnh sẽ thay đổi nhiều khi bạn thay đổi kích thước hình ảnh, ngay cả khi giữ cùng một giá trị seed.

Đặt một kích thước khác sẽ thay đổi hình ảnh một cách đáng kể.

Bạn sẽ nhận được ảnh gần giống với hình ảnh gốc hơn với kích thước mới khi bạn bật tùy chọn resize seed from height and width settings. Không hoàn toàn giống nhau, nhưng gần giống.

Hình ảnh gần giống với hình ảnh gốc hơn khi dùng tùy chọn resize seed.

Restore faces (Khôi phục khuôn mặt)

Restore face áp dụng một mô hình bổ sung được huấn luyện để khắc phục các khuyết điểm trên khuôn mặt. Dưới đây là ví dụ trước và sau.


Khôi phục khuôn mặt

Bạn phải chỉ định mô hình khôi phục khuôn mặt muốn sử dụng trước khi sử dụng Restore faces. Đầu tiên, truy cập tab Settings. Di chuyển đến phần Restore faces. Chọn một mô hình khôi phục khuôn mặt. CodeFormer là một lựa chọn tốt. Đặt trọng số CodeFormer thành 0 để có hiệu quả tối đa. Nhớ nhấp vào nút Apply settings (Áp dụng cài đặt) để lưu cài đặt!

Quay lại tab txt2img. Chọn Restore faces*. Mô hình khôi phục khuôn mặt sẽ được áp dụng cho mọi hình ảnh bạn tạo ra.

Bạn có thể tắt chức năng khôi phục khuôn mặt nếu bạn thấy ứng dụng ảnh hưởng đến phong cách trên khuôn mặt. Hoặc bạn có thể tăng trọng số CodeFormer để giảm hiệu ứng.

Tiling

Bạn có thể sử dụng Stable Diffusion WebUI để tạo ra các hoa văn có hình lặp lại giống như tấm vải hoa.

Sử dụng tùy chọn Tiling để tạo ra một hình ảnh có thể được lặp lại. Dưới đây là một ví dụ.

mẫu hoa (flowers pattern)

Hình ảnh này có thể được dùng làm hình nền.

Lặp lại 2×2.

Lợi ích thực sự của việc sử dụng Stable Diffusion là cho phép bạn tạo ra các hình ảnh lặp lại của bất kỳ hình ảnh nào, không chỉ là các mẫu truyền thống. Bạn chỉ cần nghĩ ra một prompt.

Hires. fix.

Tùy chọn high-resolution fix áp dụng một công cụ upsacler để tăng kích thước hình ảnh của bạn. Bạn cần công cụ này vì độ phân giải gốc của Stable Diffusion là 512 pixel (hoặc 768 pixel cho một số mô hình v2). Kích thước này quá nhỏ trong một số trường hợp cần dùng ảnh to.

Tại sao bạn không tăng luôn chiều rộng và chiều cao, ví dụ 1024 pixel? Làm như vậy sẽ ảnh hưởng đến bố cục và tạo ra các vấn đề như tạo ra ảnh có hai đầu người.

Vì vậy, bạn phải trước tiên tạo ra một hình ảnh nhỏ có kích thước 512 pixel mỗi chiều. Sau đó, tăng kích thước lên thành một hình ảnh lớn hơn.

Chọn Hires. fix để bật chế độ chuyển độ phân giải cao hơn.

Upscaler: Hãy chọn một công cụ upscaler để sử dụng. Xem bài viết này để biết thêm thông tin.

Các tùy chọn Latent upscaler khác nhau thu phóng hình ảnh trong không gian ẩn (latent space). Quá trình này được thực hiện sau các bước lấy mẫu của quá trình chuyển đổi text-to-image (văn bản thành hình ảnh). Quá trình tương tự với [image-to-image.](https://stable-diffusion-art.com/how-to-use-img2img-to-turn-an-amateur-drawing-to-professional-with-stable-diffusion-image-to-image/).

Các tùy chọn khác là sự kết hợp của công cụ upscaler truyền thống và công cụ upscaler AI. Xem bài viết về upscaler AI để biết thêm chi tiết.

Hires steps: Chỉ áp dụng cho các công cụ upscaler ẩn. Hires steps là số bước lấy mẫu sau khi tăng kích thước hình ảnh trong không gian ẩn.

Denoising strength: Chỉ áp dụng cho các công cụ upscaler ẩn. Tham số này có cùng ý nghĩa như trong image-to-image.. Nó điều khiển mức độ nhiễu được thêm vào hình ảnh ẩn trước khi thực hiện các bước lấy mẫu Hires (Hires sampling steps).

Bây giờ hãy xem hiệu ứng của việc tăng kích thước hình ảnh dưới đây lên 2 lần, sử dụng latent làm công cụ upscaler.

Hình ảnh gốc


Lưu ý rằng denoising strength của upscaler ẩn phải lớn hơn 0.5. Nếu không, bạn sẽ nhận được hình ảnh mờ.

Vì một lý do nào đó, denoising strength phải lớn hơn 0.5 để có được hình ảnh sắc nét. Đặt gía trị quá cao sẽ thay đổi hình ảnh nhiều.

Lợi ích của việc sử dụng upscaler ẩn là không có các trục trặc về ảnh nâng độ phân giải thường thấy ở các upscaler khác như ESRGAN. Bộ giải mã của Stable Diffusion tạo ra hình ảnh, duy trì phong cách nhất quán. Nhược điểm là nó sẽ thay đổi hình ảnh một chút, tùy thuộc vào giá trị của denoising strength.

Upscale factor điều khiển tỷ lệ tăng kích thước của hình ảnh. Ví dụ, đặt giá trị là 2 sẽ tăng kích thước hình ảnh 512×768 pixel thành 1024×1536 pixel.

Hoặc bạn có thể chỉ định giá trị của “resize width to”“resize height to” để đặt kích thước hình ảnh mới.

Bạn có thể tránh các vấn đề của việc đặt denoising strength không đúng bằng cách sử dụng các upscaler AI như ESRGAN. Nói chung, tách riêng quá trình txt2img và quá trình nâng cấp thành hai bước cho phép bạn linh hoạt hơn. Tôi không sử dụng tùy chọn sửa lỗi độ phân giải cao mà sử dụng trang Extra để thực hiện việc nâng độ phân giải.

Các nút dưới nút Generate

Từ trái sang phải:

  1. Read the last parameters (Đọc các thông số sử dụng lần gần nhất): Nó sẽ điền vào tất cả các trường để tạo ra các hình ảnh giống như khi nhấn nút Generate. Lưu ý rằng giá trị seed và override của mô hình sẽ được thiết lập. Nếu đây không phải là điều bạn muốn, hãy đặt giá trị seed thành -1 và xóa override.

Giá trị seed và override của mô hình được viền mầu đỏ.

  1. Biểu tượng thùng rác: Xóa prompt hiện tại và negative promp.

  2. Biểu tượng mô hình: Hiển thị các mạng phụ trợ. Nút này dùng để chèn các hypernetworks, embeddings, and LoRA vào prompt.

Bạn có thể sử dụng hai nút bên dưới để tải và lưu prompt và negative prompt. Cái này được gọi là một style (phong cách). Đó có thể là một cụm từ ngắn như tên của một nghệ sĩ, hoặc có thể là một prompt hoàn chỉnh.

  1. Load style (Tải phong cách): Bạn có thể chọn nhiều phong cách từ menu phong cách dưới đây. Sử dụng nút này để chèn chúng vào prompt và negative prompt.

  2. ![[Pasted image 20230912114812.png]]

  3. Save style (Lưu phong cách): Lưu prompt và negative prompt. Bạn cần đặt tên cho phong cách.
    ![[Pasted image 20230912114905.png]]

Các thao tác trên file hình ảnh

Bạn sẽ thấy một dãy các nút để thực hiện các chức năng khác nhau đối với các hình ảnh được tạo ra. Từ trái sang phải…

Mở thư mục: Mở thư mục chứa hình ảnh đã được tạo. Chức năng này có thể không hoạt động trên tất cả các hệ thống.

Save (Lưu)P: Lưu hình ảnh. Sau khi nhấp vào, sẽ hiển thị một liên kết tải xuống dưới các nút. Nếu bạn chọn lưới hình ảnh, nó sẽ lưu tất cả các hình ảnh.

Zip (Nén): Nén các hình ảnh thành file zip để tải xuống.

Send to img2img: Gửi hình ảnh đã chọn đến tab img2img.

Send to inpainting: Gửi hình ảnh đã chọn đến tab inpainting trong tab img2img.

Send to extras: Gửi hình ảnh đã chọn đến tab Extras.

Tab Img2img

Tab img2img là nơi bạn sử dụng các chức năng chuyển đổi image-to-image (hình ảnh sang hình ảnh). Hầu hết người dùng sẽ truy cập vào tab này để thực hiện việc inpainting và chuyển đổi một hình ảnh thành hình ảnh khác.

Chuyển đổi  image-to-image (hình ảnh sang hình ảnh)

Một trường hợp sử dụng hàng ngày trong tab img2img là chuyển đổi hình ảnh sang hình ảnh. Bạn có thể tạo ra những hình ảnh mới theo cấu trúc của hình ảnh gốc.

Bước 1: Kéo và thả hình ảnh gốc vào tab img2img trên trang img2img.

Hình ảnh gốc.

Bước 2: Điều chỉnh chiều rộng hoặc chiều cao để hình ảnh mới có tỷ lệ khung hình tương tự. Bạn sẽ thấy một khung hình chữ nhật trên bức tranh hình ảnh cho biết tỷ lệ khung hình. Trong hình ảnh cảnh trên, tôi đã đặt chiều rộng là 760, chiều cao giữ nguyên là 512.

Bước 3: Chọn sampling method và sampling steps. Thông thường, tôi sử dụng DPM++ 2M Karass với 25 steps.

Bước 4: Đặt batch size (kích thước lô) là 4.

Bước 5: Viết một prompt cho hình ảnh mới. Tôi sử dụng prompt sau đây.

Một bức tranh hiện thực về một con rồng (A photorealistic illustration of a dragon)

Bước 6: Nhấn nút Generate để tạo ra các hình ảnh. Điều chỉnh mức độ denoising strength and repeat. Dưới đây là các hình ảnh với mức độ denoising strength khác nhau.


Các hình ảnh được tạo bởi img2img với các mức độ denoising strength khác nhau.

Nhiều cài đặt được chia sẻ với txt2img. Tôi chỉ sẽ giải thích những cài đặt mới.

Resize mode (Chế độ thay đổi kích thước): Nếu tỷ lệ khung hình của hình ảnh mới không giống với hình ảnh đầu vào, có một số cách để điều chỉnh sự khác biệt.

  • Just resize” (Chỉ thay đổi kích thước) sẽ tỷ lệ hình ảnh đầu vào để phù hợp với kích thước hình ảnh mới. Nó sẽ kéo dãn hoặc co hình ảnh.
  • Crop and resize” (Cắt và thay đổi kích thước) sẽ đưa khung hình ảnh mới vào trong hình ảnh đầu vào. Các phần không phù hợp sẽ bị loại bỏ. Tỷ lệ khung hình ban đầu sẽ được bảo tồn.
  • “Resize and fill” (Thay đổi kích thước và điền) sẽ đưa hình ảnh đầu vào vào khung hình ảnh mới. Phần thừa sẽ được điền bằng màu trung bình của hình ảnh đầu vào. Tỷ lệ khung hình sẽ được bảo tồn.
  • “Just resize (latent upscale)”(Chỉ thay đổi kích thước (upscale tiềm ẩn)) tương tự như “Chỉ thay đổi kích thước”, nhưng việc thay đổi kích thước được thực hiện trong không gian tiềm ẩn. Sử dụng denoising strength lớn hơn 0.5 để tránh hình ảnh mờ.!


Resize mode

Denoising strength: Điều khiển mức độ thay đổi của hình ảnh. Không có gì thay đổi nếu được đặt thành 0. Hình ảnh mới sẽ không giống với hình ảnh đầu vào nếu được đặt ở 1. Giá trị 0.75 là một điểm khởi đầu tốt để có một số thay đổi đáng kể.

Bạn cũng có thể sử dụng kịch bản tích hợp sẵn poor man’s outpainting: Để mở rộng một hình ảnh. Xem hướng dẫn về outpainting.

Sketch – Vẽ phác thảo

Thay vì tải lên một hình ảnh, bạn có thể vẽ phác thảo hình ảnh ban đầu. Bạn nên bật công cụ vẽ phác thảo màu sắc bằng cách sử dụng thông số bên dưới khi bắt đầu webui. (Nó đã được bật trong Google Colab notebook trong Hướng dẫn Bắt đầu Nhanh)

--gradio-img2img-tool color-sketch

Bước 1: Di chuyển đến tab sketch trên trang img2img.

Bước 2: Tải lên một hình ảnh nền lên bảng vẽ. Bạn có thể sử dụng hình nền đen hoặc trắng dưới đây.

Hình nền đen

Hình nền trắng

Bước 3: Vẽ phác thảo sáng tạo của bạn. Với công cụ vẽ phác thảo màu sắc được bật, bạn có thể vẽ phác thảo màu sắc.

Bước 4: Viết một prompt.

Ảnh căn nhà đoạt giải thương thiết kế (award wining house)

Bước 5: Nhấn Generate.

Vẽ hình ảnh của bạn cho chức năng chuyển từ hình ảnh sang hình ảnh.

Bạn không cần phải vẽ một cái gì đó từ đầu. Bạn có thể sử dụng chức năng vẽ phác thảo để chỉnh sửa một bức ảnh. Dưới đây là một ví dụ xóa băng đô tóc bằng cách vẽ đè lên và thực hiện chuyển đổi image-to-image. Sử dụng công cụ chọn màu (eye dropper) để chọn màu từ các khu vực xung quanh.

Inpainting

Có lẽ chức năng được sử dụng nhiều nhất trong tab img2img là inpainting. Bạn đã tạo ra một hình ảnh bạn thích trong tab txt2img. Nhưng có một khuyết điểm nhỏ, và bạn muốn tạo lại bức ảnh.

Hãy giả sử bạn đã tạo ra hình ảnh sau đây trong tab txt2img. Bạn muốn tạo lại khuôn mặt vì nó bị lỗi. Bạn có thể sử dụng nút Send to inpaint để gửi một hình ảnh từ tab txt2img sang tab img2img.

Khi chuyển sang tab Inpaint của trang img2img, bạn sẽ thấy hình ảnh của mình. Sử dụng công cụ cọ vẽ (brush) để tạo một mask (mặt nạ) trên khu vực cần tạo lại.

Các tham số như kích thước hình ảnh đã được đặt đúng vì bạn đã sử dụng chức năng “Send to inpaint“. Bạn thường sẽ điều chỉnh

  • denoising strength: Bắt đầu từ 0.75. Tăng để thay đổi nhiều hơn. Giảm để thay đổi ít hơn.
  • Mask content: original
  • Mask Mode: Inpaint masked
  • Batch size: 4
    Nhấn nút Generate. Chọn bức ảnh bạn thích.

Zoom và di chuyển góc máy trong inpainting

Automatic1111 zoom and pan.

Bạn gặp khó khăn trong việc tạo lại một khu vực nhỏ? Đặt hờ chuột (hover) trên biểu tượng thông tin ở góc trên bên trái để xem các phím tắt cho phóng to và di chuyển.

  • Alt + Wheel / Opt + Wheel: Phóng to và thu nhỏ.
  • Ctrl + Wheel: Điều chỉnh kích thước cọ vẽ.
  • R: Đặt lại phóng to.
  • S: Vào/Thoát chế độ toàn màn hình.
  • Giữ phím F và di chuyển con trỏ để di chuyển.

Các phím tắt này cũng hoạt động trong SketchInpaint Sketch.

Inpaint sketch

Inpaint sketch kết hợp inpainting và sketch. Nó cho phép bạn vẽ như trong tab sketch nhưng chỉ tạo lại khu vực đã được vẽ. Khu vực chưa vẽ sẽ không thay đổi. Dưới đây là một ví dụ.

Inpaint sketch.


Kết quả từ inpaint sketch.

Tải lên Inpaint

Tải lên Inpaint cho phép bạn tải lên một tệp mặt nạ có sẵn thay vì vẽ ra.

Batch

Batch cho phép bạn inpaint hoặc thực hiện chuyển đổi hình ảnh sang hình ảnh cho nhiều hình ảnh.

Lấy prompt từ một hình ảnh

Nút Interogate CLIP của AUTOMATIC1111 lấy hình ảnh bạn tải lên vào tab img2img và đoán prompt là gì. Điều này hữu ích khi bạn muốn bắt chước các hình ảnh có sẵn mà bạn không biết prompt. Để đoán prompt từ một hình ảnh:

Bước 1: Di chuyển đến trang img2img.

Bước 2: Tải lên một hình ảnh vào tab img2img.

Bước 3: Nhấp vào nút Interrogate CLIP.

Một prompt sẽ hiển thị trong hộp văn bản prompt.

Nút Interrogate DeepBooru cung cấp một chức năng tương tự, nhưng nó được thiết kế cho hình ảnh anime.

Tăng độ phân giải

Bạn chuyển tới trang Extra để tăng kích thước cho bức ảnh. Tại sao bạn cần AUTOMATIC1111 để phóng to ảnh? Bạn có thể sử dụng một công cụ phóng to trí tuệ nhân tạo (AI upscaler) trên mạng. Nhưng thay vì trả tiền cho dịch vụ phóng to AI, bạn có thể làm điều đó miễn phí ở đây.

Cách sử dụng cơ bản

Làm theo các bước sau để phóng to một hình ảnh.

Bước 1: Di chuyển đến trang Extra.

Bước 2: Tải lên một hình ảnh lên bảng vẽ hình ảnh.

Bước 3: Đặt yếu tố Scale by dưới nhãn resize. Hình ảnh mới sẽ lớn gấp nhiều lần trên mỗi cạnh. Ví dụ, một hình ảnh 200×400 sẽ trở thành 800×1600 với yếu tố tỷ lệ là 4.

Bước 4: Chọn Upscaler 1. Một công cụ phóng to trí tuệ nhân tạo phổ biến dùng cho mục đích chung là R-ESRGAN 4x+.

Bước 5: Nhấn Generate. Bạn sẽ nhận được một hình ảnh mới bên phải.

Hãy kiểm tra hình ảnh mới ở độ phân giải đầy đủ. Ví dụ, bạn có thể mở hình ảnh mới trong một tab mới và tắt chế độ tự động điều chỉnh kích thước (auto-fit). Công cụ phóng to có thể tạo ra lỗi mà bạn có thể bỏ qua nếu chỉ xem ảnh thu nhỏ.

Ngay cả khi bạn không cần phóng to lớn gấp 4 lần, ví dụ, nó vẫn có thể phóng to lên 4 lần và sau đó thay đổi kích thước sau. Điều này có thể giúp cải thiện độ sắc nét.

Scale to: Thay vì đặt yếu tố tỷ lệ, bạn có thể chỉ định kích thước để thay đổi kích thước trong tab “scale to“.

Upscalers – Công cụ phóng to

AUTOMATIC1111 cung cấp một số công cụ phóng to theo mặc định.

Upscalers: Menu thả xuống của Upscalers liệt kê một số tùy chọn tích hợp sẵn. Bạn cũng có thể cài đặt công cụ phóng to riêng của mình. Xem bài viết AI upscaler để biết hướng dẫn.

LanczosNearest là các công cụ phóng to thường dùng. Chúng không mạnh lắm nhưng cho kết quả dễ dự đoán.

ESRGAN, R-ESRGAN, ScuNetSwinIR là các công cụ phóng to trí tuệ nhân tạo. Chúng có thể bịa ra các chi tiết mới để tăng độ phân giải. Một số công cụ được huấn luyện cho một phong cách cụ thể. Cách tốt nhất để biết xem chúng có áp dụng được cho hình ảnh của bạn hay không là thử nghiệm. Một lần nữa, hãy kiểm tra hình ảnh mới ở độ phân giải đầy đủ.

Upscaler 2: Tùy chọn này cho phép bạn kết hợp kết quả của hai công cụ phóng to. Mức độ kết hợp được điều khiển bằng thanh trượt Upscaler 2 Visibility. Giá trị cao hơn sẽ hiển thị công cụ Upscaler 2 nhiều hơn.

Không tìm thấy công cụ phóng to bạn thích? Bạn có thể cài đặt thêm công cụ phóng to từ thư viện mô hình. Xem hướng dẫn cài đặt.

Face Restoration – Khôi phục khuôn mặt

Bạn có thể chọn chức năng khôi phục khuôn mặt trong quá trình phóng to. Có hai tùy chọn: (1) GFPGAN và (2) CodeFormer. Đặt mức hiển thị của một trong hai công cụ này để thực hiện khôi phục khuôn mặt. Quy tắc chung: bạn nên đặt giá trị thấp nhất có thể để không ảnh hưởng đến phong cách của hình ảnh.

Thông tin PNG

Nhiều giao diện người dùng Stable Diffusion, bao gồm AUTOMATIC1111, ghi các thông số được ra vào tệp png của hình ảnh. Đây là một chức năng tiện lợi để nhanh chóng lấy lại các thông số tạo ra.

Nếu AUTOMATIC1111 tạo ra hình ảnh, bạn có thể sử dụng các nút Send to để nhanh chóng sao chép các thông số vào các trang khác nhau.

Lợi ích của việc này là khi bạn thấy một hình ảnh trên web và muốn xem prompt có còn trong tệp hay không.

Chức năng này có thể hữu ích ngay cả đối với một hình ảnh không được tạo ra. Bạn có thể nhanh chóng gửi hình ảnh và kích thước của nó đến một trang.

Cài đặt extension

Cài đặt extension trong AUTOMATIC1111 Stable Diffusion WebUI

Để cài đặt extension trong

  1. Khởi động AUTOMATIC1111 Web-UI bình thường.

  2. Di chuyển đến trang Extension.

  3. Nhấp vào tab Install from URL.

  4. Nhập URL của extension vào trường URL for extension’s git repository.

  5. Chờ tin nhắn xác nhận cài đặt hoàn tất.

  6. Khởi động lại AUTOMATIC1111. (Mẹo: Đừng sử dụng nút Apply and Restart. Đôi khi nó không hoạt động. Đóng và Khởi động lại Stable Diffusion WebUI hoàn toàn)

Áp dụng phong cách trong Stable Diffusion WebUI

Một câu hỏi phổ biến là áp dụng một phong cách cho các hình ảnh được tạo ra bằng trí tuệ nhân tạo trong Stable Diffusion WebUI như thế nào. Có một số cách để làm điều này.

Prompt

Chỉ cần sử dụng prompt cũng có thể có được các phong cách tuyệt vời, ngay cả khi sử dụng một mô hình cơ bản như Stable Diffusion v1.5 hoặc SDXL. Ví dụ, xem hơn một trăm phong cách được đạt được bằng cách sử dụng prompt với mô hình SDXL.

Nếu bạn muốn áp dụng phong cách một cách tự động hơn bằng cách sử dụng prompt, bạn có thể sử dụng extension SDXL Style Selector để thêm từ khóa phong cách vào prompt của bạn.

Checkpoint Models

Hàng ngàn Checkpoint Models tùy chỉnh được tinh chỉnh để tạo ra các phong cách khác nhau có sẵn miễn phí. Hãy tìm trên Civitai hoặc Huggingface.

Lora, LyCORIS, embedding and hypernetwork

Các mô hình Lora, LyCORIS, embeddinghypernetwork là các tệp nhỏ chỉnh sửa một checkpoint model. Chúng có thể được sử dụng để đạt được các phong cách khác nhau. Một lần nữa, tìm trên Civitai hoặc Huggingface.

Checkpoint merger

Checkpoint merger của AUTOMATIC1111 được sử dụng để kết hợp hai hoặc nhiều mô hình. Bạn có thể kết hợp tối đa 3 mô hình để tạo ra một mô hình mới. Thông thường, điều này được sử dụng để kết hợp các phong cách của hai hoặc nhiều mô hình. Tuy nhiên, kết quả trộn không được đảm bảo. Đôi khi nó có thể tạo ra các bức ảnh không mong muốn.

Primary model – Mô hình chính (A, B, C): Các mô hình đầu vào. Việc trộn sẽ được thực hiện theo công thức được hiển thị. Công thức sẽ thay đổi tùy theo phương pháp nội suy được chọn.

Phương pháp nội suy:

  • No interpolation (Không nội suy): Chỉ sử dụng mô hình A. Điều này dùng cho việc chuyển đổi tệp hoặc thay thế VAE.
  • Weighted sum (Tổng có trọng số): Kết hợp hai mô hình A và B, với trọng số nhân M áp dụng cho B. Công thức là A * (1 – M) + B * M.
  • Add difference (Cộng hiệu số): Kết hợp ba mô hình bằng cách sử dụng công thức A + (B – C) * M.

Định dạng checkpoint

  • ckpt: Định dạng checkpoint model ban đầu.
  • safetensors: SafeTensors là một định dạng mô hình mới được phát triển bởi Hugging Face. Nó an toàn vì, khác với các mô hình ckpt, việc tải một mô hình Safe Tensor sẽ không thực thi bất kỳ mã độc hại nào ngay cả khi chúng có trong mô hình.

Bake in VAE: Thay thế bộ giải mã VAE bằng bộ giải mã được chọn. Dùng để thay thế bộ giải mã ban đầu bằng một bộ giải mã tốt hơn được phát hành bởi Stability.

Train – Huấn luyện

Trang Huấn luyện dùng để huấn luyện các mô hình. Hiện tại, nó hỗ trợ textual inversion (embedding) và hypernetwork. Tôi không có may mắn khi sử dụng AUTOMATIC1111 để huấn luyện, nên tôi sẽ không đề cập đến phần này.

Settings – Cài đặt

Có một danh sách chi tiết các cài đặt trên trang cài đặt của AUTOMATIC1111. Tôi không thể đi vào từng cài đặt trong bài viết này. Dưới đây là một số cài đặt bạn nên tham khảo.

Hãy nhấp vào Apply settings sau khi thay đổi cài đặt.

Face Restoration – Khôi phục khuôn mặt

Hãy chọn phương pháp khôi phục khuôn mặt mặc định. Nên dùng CodeFormer.

Stable Diffusion

Tải xuống và chọn một VAE được phát hành bởi Stability để cải thiện mắt và khuôn mặt trong các mô hình v1.

Quick Settings – Cài đặt nhanh

Cài đặt nhanh

Bạn có thể bật các phím tắt tùy chỉnh ở phía trên.

Trên trang Settings, nhấp vào Show All Pages trên bảng điều khiển bên trái.

Tìm từ khóa Quicksettings sẽ đưa bạn đến trường Cài đặt nhanh.

Có rất nhiều cài đặt có sẵn để chọn. Ví dụ, sau đây là cách bật phím tắt cho Clip Skip và các thư mục đầu ra hình ảnh tùy chỉnh.

Sau khi lưu cài đặt và tải lại Web-UI, bạn sẽ thấy các phím tắt mới ở phía trên trang.

Các thư mục đầu ra tùy chỉnh rất hữu ích để quản lý hình ảnh.

Dưới đây là danh sách các cài đặt nhanh hữu ích cần bật

  • CLIP_stop_at_last_layers
  • sd_vae
  • outdir_txt2img_samples
  • outdir_img2img_samples

Hoàng Dũng AI

AI Trainer and Automation Specialist | Passionate about Empowering Individuals with AI Skills.