Stable Diffusion prompt: Từ cơ bản đến nâng cao

Bài viết này tổng hợp và tóm tắt tất cả các bước viết prompt cho Stable Diffusion AI. Mục tiêu là note lại tất cả những gì tôi biết về Prompt từ cơ bản đến nâng cao, bạn đọc có thể bookmark lại bài viết và sử dụng để tham khảo trong quá trình sử dụng Stable Diffusion prompt để trải nghiệm AI vẽ tranh của mình.

Nội Dung Bài Viết

Những yếu tố cấu thành một Stable Diffusion prompt

Prompt là gì ?

“Prompt” có nghĩa là “lời nhắc” hoặc “yêu cầu nhanh chóng”. Trong lập trình máy tính, “prompt” là thông điệp hoặc dòng lệnh xuất hiện trên màn hình để yêu cầu người dùng nhập dữ liệu hoặc thực hiện một hành động nhất định. Nó cũng có thể được sử dụng để chỉ một câu hỏi hoặc yêu cầu thông tin từ người khác trong cuộc trò chuyện.

Trong trường hợp Prompt trong Stable Diffusion : Bạn gõ một đoạn mô tả và yêu cầu Stable Diffusion AI trả về một hình ảnh như mô tả. Prompt càng chuẩn, càng chi tiết, thì ảnh trả về sẽ càng giống như mong muốn của bạn.

Những yếu tố cấu thành một Good Prompt

Như đã nêu ở trên, Good Prompt cần phải chi tiết, cụ thể thì hệ thống máy học AI, Machine Learning mới hiểu được bạn muốn gì và trả về kết quả như bạn mong muốn. Vậy nên dưới đây là một trong những yếu tố khá quan trọng để tạo thành một Good Prompt mà tôi đã đúc rút được trong quá trình sử dụng.

Chủ thể – Subject
Chất liệu – Medium
Phong cách nghệ thuật – Style
Họa sĩ – Artist
Độ phân giải – Resolution
Màu sắc – Color
Ánh sáng – Lighting
Cú pháp – Syntax

Bạn không nhất thiết phải nhồi nhét đủ 8 yếu tổ trên vào cùng 1 prompt. Nhưng hãy thử test lần lượt các yếu tổ trên trong quá trình sử dụng để ra được kết quả như bạn mong muốn.

Trong bài hướng dẫn này, tôi sẽ sử dụng bản Stable Diffusion Web UI, Model : Chilloutmix/chilloutmix_NiPrunedFp32 và không sử dụng LORA để Demo kết quả cho quá trình sử dụng Prompt của mình. Tất cả các hình ảnh tạo ra sẽ được sampler 30 steps và sử dụng bộ lấy mẫu DPM++ 2M Karas. Size ảnh đầu ra sẽ là 512×768

Một số tips nhỏ cần lưu ý khi sử dụng Prompt:

Hãy mô tả cụ thể và chi tiết nhất có thể chủ thể mà bạn mong muốn.
Sử dụng từ khóa trong () để nhấn mạnh cho AI biết mình đang cần gì, và [] để AI hiểu bạn đang cần giảm độ ưu tiên của những thứ bạn mô rả trong dấu ngoặc.
Sử dụng chất liệu phù hợp với nghệ sĩ. Ví dụ Nếu bạn yêu cầu một bức ảnh với chất liệu là ảnh chân dung chụp bằng DSLR thì không nên yêu cầu ảnh đó được chụp với phong cách của họa sĩ Van Gogh được.

Chủ thể – Subject

Chủ thể là yếu tố chính mà tôi muốn xuất hiện trong bức ảnh của mình. Sai lầm đầu tiên của camlo5 khi sử dụng prompt là không viết đủ thông tin, mô tả, và yêu cầu cho chủ thể.

Cùng lấy ví dụ, bây giờ tôi muốn “một tấm hình chân dung của một cô gái đang chơi nhạc DJ trong quán bar”. Thủa mới làm quen tôi sẽ viết prompt kiểu :

DJ Girl

Với một Prompt đơn giản như thế này, AI vẫn có thể vẽ ra một cô gái đang chơi DJ, nhưng AI sẽ không biết chính xác tôi muốn gì ở cô gái DJ đó. và nó sẽ trả về một hình ảnh DJ Girl bất kì từ những kiến thức mà nó đã được trainning.

Mẹo nhỏ ở đây là : hãy cho Stable diffusion AI biết chính xác chúng ta cần gì ở đầu ra. Ví dụ : là con gái âu hay á, khoảng bao nhiêu tuổi, background là trong nhà hay ngoài trời, đang đứng hay đang nằm, hay đang bay …. Ngoài ra, ở bài viết nâng cao, chúng ta có thể tùy chọn mặt một người nổi tiếng để làm nhân vật chính cho tấm hình. Nâng cao hơn nữa, có thể cho chính mặt của chúng ta là mặt của chủ thể DJ Girl … Tôi sẽ giới thiệu những kiến thức nâng cao này ở những bài viết sau của chủ đề Stable diffusion này.

Để minh họa với người nổi tiếng, tôi sẽ chọn Gal Galdot làm nhân vật chính, đang đánh DJ ngoài bãi biển nào đó và mặc một bộ quần áo của wonder woman:

Gal Gadot as a DJ Girl, playing dj board, beach background, wearing headphone, wonder woman clothing

Stable Diffusion prompt - Gal Gadot as a DJ Girl, playing dj board, beach background, wearing headphone, wonder woman clothing

Tạm bỏ qua lỗi trên ngón tay của Gal Gadot, tôi sẽ hướng dẫn các bạn fix lỗi 5 ngón tay được Generate từ AI trong bài viết sau. Qua ví dụ trên, tôi hi vọng bạn sẽ phần nào hiểu được tầm quan trọng của việc mô tả prompt chi tiết để AI có thể hiểu được và trả được kết quả như bạn mong muốn

Gal Galdot as a DJ Girl, night club background, detailed wonder woman clothing

stable diffution prompt : Gal Galdot as a DJ Girl, night club background, detailed wonder woman clothing

Chất liệu – Medium

Tài liệu nước ngoài gọi là Medium, tui thì hiểu là chất liệu, đây là yếu tố được sử dụng để yêu cầu AI tạo nên đầu ra của một bức ảnh. Ví dụ : chất liệu sơn dầu, chất liệu 3D,chất liệu tranh anime, cartoon, chất liệu ảnh phi thực tế… Với mỗi keywords khác nhau, mà AI sẽ trả về cho bạn kết quả khác nhau. Tôi sẽ lấy một ví dụ bằng hình ảnh cho mọi người dễ hiểu khi add thêm từ khóa : digital painting vào prompt của mình.

Gal galdot as wonder woman, detailed clothing,fantasy, digital painting , highly detailed, sharp focus

Ví dụ như prompt này, tôi muốn AI hiểu rằng : tôi muốn chất liệu đầu ra của tôi là một bức hình digital painting ! Chứ không phải là một bức ảnh chụp bằng DSLR hay gì khác.

prompt text to image : Gal galdot as wonder woman, detailed clothing,fantasy, digital painting , highly detailed, sharp focus

Phong cách nghệ thuật – Style

Phong cách nghệ thuật tài liệu tiếng anh gọi là Style. Ví dụ các phong cách nghệ thuật phổ biến như: siêu thực, giả tưởng, pop art, ấn tượng … v.v.

Để rõ hơn, tôi sẽ thêm một số từ khóa tiếng anh như : siêu thực, giả tưởng…. vào prompt yêu cầu của mình.

Gal galdot as wonder woman, detailed clothing,hyperrealistic, highly detailed, sharp focus

Nếu không đọc bài viết này, bạn có thể tin rằng đây là bức hình được tạo ra bởi AI không? Đơn giản vì nó siêu chân thực và sát với thực tế, y hệt như ngoài đời thực.

Khi thay từ khóa siêu thực thành digital art, thì sản phẩm đầu ra của chúng ta sẽ có chất nghệ nghệ kiểu vẽ đồ họa digital hơn là ảnh chụp bằng máy ảnh DSLR.

Gal galdot as wonder woman, detailed clothing,digital art, highly detailed, sharp focus

Gal galdot as wonder woman, detailed clothing,digital art, highly detailed, sharp focus

Họa sĩ – Artist

Trong thế giới AI Generate Image, vì AI được học, và trainning bởi rất nhiều hình ảnh và tranh của các họa sĩ nổi tiếng trước đó. Vậy nên, tên của họa sĩ – artist là các từ khóa ảnh hưởng mạnh mẽ đến kết quả đầu ra của bức tranh. Từ khóa tên họa sẽ cho phép bạn điều chỉnh phong cách chính xác của một nghệ sĩ cụ thể. Ngoài ra bạn có thể mix từ khóa tên 2 họa sĩ với nhau để ra một trường phái riêng biệt chưa từng tồn tại trên thế giới này.

Tôi sẽ lấy ví dụ với bản Stable Diffusion hiện tại với model cơ bản đã được trainning trước đó, Stanley Artgerm Lau là một nghệ sĩ truyện tranh về mảnh siêu anh hùng, và Alphonse Mucha, một họa sĩ chân dung vào thế kỷ 19.

Gal galdot as wonder woman, cinematic stage, detailed clothing,fantasy, digital painting by Stanley Artgerm Lau and Alphonse Mucha

Gal galdot as wonder woman, cinematic stage, detailed clothing,fantasy, digital painting by Stanley Artgerm Lau and Alphonse Mucha

Qua ví dụ trên, chúng ta có thể thấy phong cách của cả hai nghệ sĩ đã hòa quyện và phát huy tác dụng một cách độc đáo đúng không?

Website

Theo nghiên cứu từ hiệp hội camera chạy bằng cơm tại Việt Nam, thì các thế hệ AI đã được học rất nhiều từ tất cả tranh của 2 website nổi tiếng: Artstation & Deviant Art. Vậy nên chỉ cần bạn biết tên một tài khoản nổi tiếng nào có nhiều follow trên 1 trong 2 trang web này với khoảng thời gian từ năm 2022 trở về trước, thì hoàn toàn có thể yêu cầu AI vẽ lại theo phong cách của người đó. Đơn giản bởi vì nó đã được học tất cả tranh trên 2 website này.

Trong trường hợp bạn không biết chọn ai, thì bạn hoàn toàn có thể cung cấp một từ khóa mập mờ kiểu như : trending on Artstation , hoặc famous artist on Deviant Art. AI sẽ lựa dùm bạn.

Gal galdot as wonder woman, cinematic stage, detailed clothing,fantasy, digital painting, Trending on Artstation

Gal galdot as wonder woman, cinematic stage, detailed clothing,fantasy, digital painting, Trending on Artstation

Độ phân giải – Resolution

highly detailed và sharp focus, là hai từ khóa không thể thiếu trong một prompt nếu bạn muốn hình ảnh của bạn sắc nét và rõ nhất có thể. Ngoài ra nhiều ae tôi biết còn thêm cả 4K, 8K vào prompt nữa . Nhưng về cơ bản với ảnh đầu ra của một seed là khoảng 512px cho một cạnh của hình ảnh. Thì keywork 4k và 8K không ảnh hưởng nhiều lắm tới kết quả đầu ra :D.

Gal galdot as wonder woman, detailed clothing, highly detailed, sharp focus

Gal galdot as wonder woman, detailed clothing, highly detailed, sharp focus

Màu sắc – Color

Màu sắc là một phần cảm xúc khá quan trọng trong một tấm ảnh. Ví dụ ảnh màu vàng, cam, đỏ .. sẽ cho người thẩm tranh cảm giác ấm áp, nóng, đôi khi là khó chịu . Một bức ảnh nhiều màu xanh, tím … sẽ cho cảm giác lạnh lẽo, buồn, cô đơn, lạnh lẽo.

Trong hệ thống Ai Generated Images, bạn hoàn toàn có thể kiểm soát được màu sắc tổng thể của hình ảnh của bạn yêu cầu, bằng cách thêm các từ khóa liên quan đến màu sắc vào prompt của mình. Các màu mà bạn chỉ định có thể liên quan đến toàn bức ảnh, hoặc chỉ một chi tiết cụ thể nằm trong bức ảnh.

Tôi sẽ thử thêm từ khóa “gold” vào prompt của mình xem có gì khác biệt không nhé.

Gal galdot as wonder woman, cinematic stage, detailed clothing,fantasy, digital painting by Stanley Artgerm Lau and Alphonse Mucha, gold

Gal galdot as wonder woman, cinematic stage, detailed clothing,fantasy, digital painting by Stanley Artgerm Lau and Alphonse Mucha, gold

Ánh sáng – Lighting

Một số từ khóa như : cinematic lighting, dark mood, background light, rim light, main light … thường được sử dụng trong nhiếp ảnh, cũng phần nào ảnh hưởng đến kết quả đầu ra và cảm xúc của bức ảnh. hãy thử thêm một vài từ khóa trên vào prompt của bạn để cảm nhận kết quả nhé. Viết bài dài quá, tui quên mất save hình ảnh đầu ra của prompt này rùi …

Cú pháp

Khi tham khảo prompt của nước ngoài, khả năng bạn sẽ thường nhìn thấy 2 cú pháp này : () [] . Và không hiểu nó dùng để làm gì, và cách dùng như thế nào đúng không.

Nhét từ khóa vào (), sẽ giúp AI hiểu rằng bạn đang cần tăng thêm độ mạnh của từ khóa này so với những từ khóa khác.

Nhét từ khóa vào [], sẽ giúp AI hiểu rằng bạn đang cần giảm độ mạnh của từ khóa này so với những từ khóa khác.

Prompter nước ngoài thường sử dụng “trọng số” để kiểm soát kết quả đầu ra của mình. Và bản Stable Diffusion hiện tại bạn đang dùng, bạn có thể kiểm soát giống như họ bằng cách thêm cú pháp [] vào các từ khóa muốn đánh trọng số.

Nếu đọc đến đây bạn vẫn chưa hiểu, thì tôi xin lấy một vài ví dụ minh họa như sau.

Cú pháp []

[keyword1 : keyword2: factor]

Bức ảnh đầu tiên :

Portrait of the a person [joe biden : donald trump : 0.1]

Tôi muốn một bức ảnh chân dung được kết hợp từ 2 từ khóa với thứ tự là Joe Biden & Donald Trump với cú pháp là [], và trọng số là 0.1 . Kết quả đầu ra của tôi sẽ là :

Portrait of the a person [joe biden : donald trump : 0.1]

Bức ảnh thứ 2

Portrait of the a person [joe biden : donald trump : 0.3]

Tôi muốn một bức ảnh chân dung được kết hợp từ 2 từ khóa với thứ tự là Joe Biden & Donald Trump với cú pháp là [], và trọng số là 0.3 . Kết quả đầu ra của tôi sẽ là có tí hao hao mix giữa 2 người:

Portrait of the a person [joe biden : donald trump : 0.3]

Bức ảnh thứ 3

Portrait of the a person [joe biden : donald trump : 0.75]

Tôi muốn một bức ảnh chân dung được kết hợp từ 2 từ khóa với thứ tự là Joe Biden & Donald Trump với cú pháp là [], và trọng số là 0.75 . Kết quả đầu ra của tôi sẽ hoàn toàn là ngài Joe Biden :

Portrait of the a person [joe biden : donald trump : 0.75]

Một ví dụ khác dễ hiểu hơn và thường được áp dụng khi muốn switch – đổi một thứ gì đó với keywords được chọn trước :

Albert Einstein hold [apple : fire : 0.2]

Albert Einstein hold [apple : fire : 0.2]

Albert Einstein hold [apple : fire : 0.8]

Cú pháp ()

Khi kết hợp cú pháp này với từ khóa (sexy),(boudoir).18.+… thì tốt nhất khi bạn gõ prompt thì nên ở 1 mình nhé. Vì nó toàn ra ảnh NSFW thôi đó. Cái này tự mọi người khám phá, tôi gợi ý đến đây thôi!

Trên đây là một số kinh nghiệm và tóm tắt tất cả các bước viết prompt cho Stable Diffusion AI. Hi vọng qua bài viết mọi người có thể hiểu thêm được phần nào về cách viết, cũng như cấu trúc của một prompt trong SD. Đây là bài viết đầu tiên trong serial bài viết hướng dẫn, phổ cập sử dụng AI Stable Diffusion. Rất nhiều kiến thức thú vị sẽ ở những bài viết sau, mọi người nhớ bookmark lại và theo dõi thường xuyên camlo5 nhé!

Featured

Chụp ảnh cổ trang Trung Hoa

Featured

Cách tạo dáng chụp ảnh khi mặc quần jean

Featured

Chụp ảnh chân dung thì mua lens gì?

Stable Diffusion prompt: Từ cơ bản đến nâng cao