AI สร้างภาพอย่างไร? เบื้องหลัง Stable Diffusion และ DALL-E
🖼️
AI & เกม2026-04-23

AI สร้างภาพอย่างไร? เบื้องหลัง Stable Diffusion และ DALL-E

เจาะลึกวิธีการทำงานของ AI สร้างภาพอย่าง Stable Diffusion, DALL-E และ Midjourney ตั้งแต่หลักการ diffusion ไปจนถึง text-to-image แบบเข้าใจง่าย

L

ทีม LenLearn

แพลตฟอร์มเกมการเรียนรู้ฟรี · เผยแพร่ 2026-04-23

gamepad เล่นเกมนี้เลย!

AI สร้างภาพ: การปฏิวัติครั้งใหญ่

ในช่วงไม่กี่ปีที่ผ่านมา AI สร้างภาพพัฒนาขึ้นอย่างก้าวกระโดด จากภาพที่ดูแปลกๆ ไม่เป็นธรรมชาติ กลายเป็นภาพที่สวยงามเหมือนถ่ายจริงหรือวาดโดยศิลปินมืออาชีพ แต่เบื้องหลังมันทำงานอย่างไร? บทความนี้จะอธิบายให้เข้าใจง่ายครับ

หลักการพื้นฐาน: Diffusion Model

คอนเซ็ปต์ง่ายๆ ลองนึกภาพว่าคุณมีรูปถ่ายสวยๆ แล้วค่อยๆ เติม "สัญญาณรบกวน" (noise) ทีละนิดจนกลายเป็นภาพสุ่มที่ไม่มีความหมาย เหมือนหน้าจอทีวีที่ไม่มีสัญญาณ กระบวนการนี้เรียกว่า "Forward Diffusion"

Diffusion Model เรียนรู้กระบวนการย้อนกลับ — เริ่มจาก noise สุ่มแล้ว "ลบ" noise ออกทีละนิดจนได้ภาพที่สมบูรณ์ เรียกว่า "Reverse Diffusion" คล้ายกับประติมากรที่ค่อยๆ สกัดหินออกจนเหลือรูปปั้นที่สวยงาม

การเทรน AI ถูกเทรนด้วยภาพหลายพันล้านภาพจากอินเทอร์เน็ต พร้อมคำอธิบาย (caption) ทำให้มันเรียนรู้ว่า "แมว" หน้าตาเป็นอย่างไร "พระอาทิตย์ตก" มีสีอะไรบ้าง "ภาพวาดสีน้ำ" มีลักษณะอย่างไร

DALL-E: จาก OpenAI

DALL-E (ตั้งชื่อตาม Salvador Dalí + WALL-E) เป็นหนึ่งใน AI สร้างภาพรุ่นแรกๆ ที่ทำให้คนตื่นเต้น DALL-E 2 (2022) ใช้เทคนิค CLIP ที่เชื่อมโยงข้อความกับภาพ ทำให้สามารถสร้างภาพจากคำอธิบายได้

DALL-E 3 พัฒนาขึ้นอีกมาก สามารถเข้าใจ prompt ที่ซับซ้อนได้ดีขึ้น วาดข้อความในภาพได้ถูกต้อง และสร้างภาพที่มีรายละเอียดสูง ปัจจุบัน DALL-E 3 ถูกรวมเข้ากับ ChatGPT ทำให้ใช้งานง่ายมาก

Stable Diffusion: โอเพนซอร์สเปลี่ยนเกม

Stable Diffusion จาก Stability AI เป็น game changer เพราะเป็นโอเพนซอร์ส ทุกคนสามารถดาวน์โหลดมาใช้บนคอมพิวเตอร์ของตัวเองได้ฟรี นำไปต่อยอดสร้างเครื่องมือใหม่ๆ ได้อิสระ

Latent Space Stable Diffusion ทำงานใน "Latent Space" แทนที่จะทำงานกับภาพขนาดเต็ม ซึ่งต้องใช้หน่วยประมวลผลมาก มันบีบอัดภาพให้เล็กลงก่อน ทำ diffusion ในพื้นที่ขนาดเล็ก แล้วค่อยขยายกลับเป็นภาพเต็ม ทำให้ใช้ทรัพยากรน้อยลงมาก

ControlNet เทคนิคเพิ่มเติมที่ให้ผู้ใช้ควบคุมโครงสร้างภาพได้ เช่น ใส่ภาพท่าทาง (pose) แล้วให้ AI สร้างภาพตามท่านั้น หรือใส่ภาพขอบ (edge) แล้วให้ AI เติมสีและรายละเอียด

Midjourney: ศิลปะระดับมืออาชีพ

Midjourney เน้นที่คุณภาพเชิงศิลปะ ภาพที่ออกมามีความสวยงามเป็นพิเศษ ใช้ผ่าน Discord ซึ่งสร้างชุมชนผู้ใช้ที่แข็งแรง Midjourney V6 สามารถสร้างภาพที่แยกไม่ออกจากภาพถ่ายจริงได้ในหลายกรณี

Text-to-Image ทำงานอย่างไร?

เมื่อคุณพิมพ์ prompt เช่น "แมวนั่งบนดวงจันทร์ สไตล์ Studio Ghibli" ขั้นตอนการทำงานคือ:

1. Text Encoder แปลงข้อความเป็นตัวเลข (embedding) ที่ AI เข้าใจ 2. Noise Generator สร้าง noise สุ่มเป็นจุดเริ่มต้น 3. Denoising AI ค่อยๆ ลบ noise ออก โดยใช้ข้อมูลจาก text embedding เป็นตัวนำทาง 4. Decoder แปลงผลลัพธ์จาก latent space กลับเป็นภาพขนาดเต็ม

ทั้งหมดนี้เกิดขึ้นภายในไม่กี่วินาที

ข้อจำกัดและข้อถกเถียง

AI สร้างภาพยังมีข้อจำกัดหลายอย่าง เช่น นิ้วมือที่ผิดปกติ ข้อความในภาพที่สะกดผิด และปัญหาเรื่องลิขสิทธิ์ภาพที่ใช้เทรน ศิลปินหลายคนกังวลว่า AI จะแย่งงาน แต่หลายคนก็เริ่มใช้ AI เป็นเครื่องมือช่วยในกระบวนการสร้างสรรค์

สรุป

AI สร้างภาพเป็นเทคโนโลยีที่น่าทึ่ง ไม่ว่าคุณจะเป็นศิลปิน นักออกแบบ หรือคนทั่วไป การเข้าใจหลักการเบื้องหลังช่วยให้ใช้งานได้อย่างมีประสิทธิภาพมากขึ้น

ถ้าอยากลองเล่นกับ AI ลองเล่น AI Wad ให้ AI วาดภาพแล้วทายว่าเป็นอะไร ได้ฟรีครับ

เขียนโดย ทีม LenLearn

L

ทีม LenLearn คือกลุ่มนักพัฒนาซอฟต์แวร์ชาวไทยที่หลงใหลในการศึกษาและเทคโนโลยี เราสร้าง LenLearn ขึ้นจากความเชื่อว่าการเรียนรู้ที่ดีไม่จำเป็นต้องน่าเบื่อ และทุกคนสมควรเข้าถึงเครื่องมือการเรียนรู้ที่มีคุณภาพได้ฟรี ปัจจุบัน LenLearn มีเกมการเรียนรู้กว่า 22 เกม ครอบคลุมภูมิศาสตร์ ภาษา กีฬา บันเทิง และ AI