10 tham số của Stable Diffusion cần biết

Hiểu được các thông số kỹ thuật là một phần rất quan trọng để bạn có thể sử dụng được Stable Diffusion. Dưới đây là liệt kê các công cụ cơ bản cần thiết và ý nghĩa của nó.

⚠️ Lưu ý là thứ tự sẽ được lấy từ trên xuống dưới, chứ không phản ảnh mức độ quan trọng của công cụ.

Hiểu được các thông số kỹ thuật là một phần rất quan trọng để bạn có thể sử dụng được Stable Diffusion. Dưới đây là liệt kê các công cụ cơ bản cần thiết và ý nghĩa của nó. Lưu ý là thứ tự sẽ được lấy từ trên xuống dưới, chứ không phản ảnh mức độ quan trọng của công cụ.

1. Stable diffusion checkpoint: Chọn các mô hình (model) cho việc sử dụng SD, các mô hình được huấn luyện bằng lượng dữ liệu và thời gian huấn luyện khác nhau do đó kết quả của các mô hình cho ra sẽ khác nhau.

2. SD VAE: A VAE (Variable Auto Encoder) là file đưa vào model của bạn giúp cải thiện màu sắc và độ sắc nét. VAE thường có tác dụng lớn trong cải thiện tay và khuôn mặt. Mặc định công cụ này là “Automatic” tức là nếu có VAE sẵn trong model sẽ được áp dụng, nếu không sẽ không được áp dụng VAE.

3. Clip Skip là một tính năng trong Stable Diffusion cho phép bạn bỏ qua một số lớp của mô hình CLIP khi tạo ra hình ảnh, dẫn đến kết quả có tính độc đáo hơn. Những kết quả này cũng được hiển thị nhanh hơn, làm cho quá trình trở nên hiệu quả hơn. Có thể hiểu nó sẽ làm cho mô hình tạo ra kết quả ngẫu nhiên, lạ mắt

4. Prompt/ Negative prompt: Những gì bạn muốn có/ không muốn có trong kết quả của bạn.

5. Các tab trong generation
– Sampling method: Cách lấy mẫu là cách mà mà SD làm cho 1 bức ảnh từ toàn noise, trở nên thành 1 bức ảnh theo mô tả. Có rất nhiều phương án lấy mẫu khác nhau nên quá trình lấy mẫu phải phụ thuộc nhiều vào kinh nghiệm và mục đích của cac bạn. Cách lấy mẫu Euler cho kết quả nhanh hơn nhưng các cách lấy mẫu Karras cho kết quả đẹp hơn. UniPC là cách lấy mẫu mới được giới thiệu trong năm 2023, cách này tương đối nhanh và có kết quả tốt.

Dưới đây là biểu đồ so sánh tốc độ sử lý của các method ( thấp hơn là nhanh hơn nhưng không có nghĩa là tốt hơn)

– Sampling steps: Số bước lấy mẫu, con số này càng cao thì việc lấy mẫu càng nhiều và kết quả càng chi tiết hơn, nhưng đánh đổi là thời gian, tốc độ xử lý lâu hơn. Số bước lấy mẫu mặc định là 20. Số bước lấy mẫu khuyến nghị là từ 30 đến 50.
– Hires.fix: Phóng to ảnh để thêm chi tiết, bước này sẽ được thực hiện cuối cùng. Mặc định là phóng to x2 với phương pháp Latent.
– Refiner: Khi một mô hình là không đủ để diễn tả prompt của bạn, refiner cho phép bạn thêm một mô hình trong quá trình tạo ra ảnh. Quá trình “Refine” này sẽ tốn thêm thời gian, và cần có kinh nghiệm trong quá trình sử dụng.
– Width/ Height: Chiều rộng và dài bức ảnh. Lưu ý tỉ lệ không phổ thông sẽ tạo ra 1 ảnh biến dạng
– Batch count: Số lượt ảnh được tạo ra sau 1 lần ấn Generate
– Batch size: Số ảnh muốn xử lý trong cùng 1 thời điểm.
Ví dụ batch count 3, batch size 2: Sẽ generate 3 lần, mỗi lần 2 ảnh đồng thời, ta có 6 ảnh
– Image ratio: Tỉ lệ bức ảnh, 1:1, 3:2, 4:6.
– CFG Scale: thông số hướng dẫn quá trình tạo ảnh phụ thuộc nhiều hay ít vào prompt của bạn, mặc định của thông số này 7. Bạn không muốn CFG scale quá cao, vì nó sẽ làm phức tạp hình ảnh khi SD cố gắng tạo ra ảnh từng từ riêng lẻ như một chi tiết. Tuy nhiên, nếu CFG scale quá thấp, hình ảnh của bạn sẽ lệch khỏi prompt của bạn.
– Seed: được hiểu như ID của bức ảnh, mỗi bức ảnh tạo ra có ID khác nhau. Mặc định “-1” là random. Việc sử dụng lại ID với cùng thông số sẽ cho ra một bức ảnh y hệt với nguyên mẫu.

6. Texture inversion: Một mô hình nhỏ đè lên trên mô hình gốc, không làm ảnh hưởng quá nhiều đến model gốc nhưng giúp ảnh tạo ra TRÁNH những dữ liệu đã có trong model “texture inversion”.

7. Hypernetworks: Một mô hình nhỏ đè lên trên mô hình gốc, không làm ảnh hưởng quá nhiều đến model gốc nhưng giúp ảnh tạo ra có 1 vài phong cách hoặc điểm của mô hình nhỏ. Đây là phương pháp training cũ, và hiện giờ không còn phổ biến.

8. Checkpoints: chính là Stable Diffusion Checkpoints. Dưới thanh công cụ, các mô hình được mô tả có hình ảnh minh họa dễ hiểu và thông tin kỹ thuật.

9. Lora: (Low-Rank Adaptation): Một mô hình nhỏ đè lên trên mô hình gốc, không làm ảnh hưởng quá nhiều đến model gốc nhưng giúp ảnh tạo ra có 1 vài phong cách hoặc điểm của mô hình nhỏ. Phương pháp này thay cho hypernetworks. Ban đầu phương pháp này bao gồm ba phương pháp có cách tiếp cận khác nhau là Lora / Lycoris/ Loha. Tuy nhiên từ bản SD Automatic 1.6 đã gộp 3 phương pháp này thành Lora.

10. Denoising Strength: độ khử nhiễu. Bạn có thể gặp thông số này trong Hires.fix, tuy nhiên thấy nhiều hơn ở công cụ img2img. Chỉ số này kiểm soát khả năng tác động lên ảnh của công cụ. Strength bằng 0 là không có tác động, và 1 là thay đổi hoàn toàn bức ảnh.

Chúc các bạn thành công!

Nguồn bài viết https://discourse.kaikun.io/t/from-zero-to-hero-p1-10-thong-so-ky-thuat-can-biet-khi-su-dung-stable-diffusion/1228