Recent Posts
Recent Comments
Link
Today
Total
03-11 06:38
관리 메뉴

Hippo's data

[생성형 AI]stable diffusion 본문

Activity

[생성형 AI]stable diffusion

Hippo's data 2024. 4. 6. 23:20
728x90

오늘은 생성형 AI 중 이미지를 생성하는 인공지능에 대해 알아보겠습니다!

저는 요즘 KBS 기술연구소에서 프로젝트를 진행하며 미디어 기술에서 활용할 수 있는 딥러닝 기술에 대해 경험해보는 중인데욥! 뉴스기사에서 활용할 수 있는 이미지 생성 AI에 대한 프로젝트를 진행중입니답!! 

프로젝트를 진행하면서 공부했던 내용들에 대해서 정리하고 있는데욥 그중 stable diffusion에 대해 알아보겠습니다

 

# 생성형 AI란?

생성형 AI는 말그대로 무언가를 만들어내는 인공지능인데욥!! 요즘에는 텍스트, 이미지, 음악, 동영상 등 다양한 분야들에서 사용되며 저희가 자주 쓰는 챗쥐피티(ChatGPT)도 생성형 AI의 일종입니다! 

 

# 확산 모델(Diffusion Model) 원리

stable diffusion은 이러한 생성형 AI 중 이미지를 만들어내는 영역에 해당하는데욥! 

stable diffusion은 확산 모델(Diffusion Model)이라는 딥러닝 기반 이미지 생성 모델이 적용되었습니다

확산 모델(Diffusion Model)은 크게 2가지 과정으로 설명할 수 있는데요 

1. Forward Process(확산 과정) 2. Reverse Process(역확산 과정)

 

1. Forward Process(확산 과정)

-> 노이즈(잡음) 추가 과정 

-> 깨끗한 이미지에 점차적으로 노이즈를 추가하여 점점 이미지의 세부 사항을 없앰

 

2. Reverse Process(역확산 과정)

-> 노이즈(잡음) 제거 과정

-> 노이즈가 추가된 이미지에서 노이즈를 점차적으로 제거하는 역과정 수행

 

결국 딥러닝 신경망은 이러한 Reverse Process(역확산 과정)를 통해 노이즈를 제거하는 방법을 학습하게 됩니다

즉, 노이즈가 많은 상태에서도 깨끗한 이미지의 구조를 복원할 수 있는 방법 학습합니다! 

 

stable diffusion 툴
= 요리사 
-> 입맛에 맞는 요리를 만들어주는 

예시)
떡볶이  = 원하는 이미지

재료 - 고추장(베이스) -> 체크포인트 
-> 베이스 선택따라 완전히 다른 떡볶이가 됨 짜장/ 고추장


실사체크포인트 -> 실사이미지 출력
애니메이션 체크포인트 -> 애니메이션 느낌 출력

LORA - 어묵치즈만두
베이스 맛 바꾸진 못하지만 어느정도 영향을 끼칠 수 있음


실사체크포인트 + 애니메이션 로라 -> 어색한 느낌?
애니메이션 체크포인트 + 애니메이션 로라 -> 훨씬 자연스러운 애니메이션 

어느정도 영향을 주지만 맛을 완전히 바꾸진 못함 
- 부분장착 장비??? 부품?


VAE - 조미료 
-> 모두 입맛 평준화 된 떡볶이 됨 
-> 보정 해줌 
칙칙하고 눅눅한 느낌 -> 선명하고 깔끔하게 느낌 (필터 처진 느낌)

대중적 - 84000VAE

아주 크게 중요하진 않음 msg역할

clip skip - 요리사의 레시피 독해 능력
보통 1로 세팅 
1~12 가능
수치 높을 수록 프롬프트 이해 능력 올라감
체크포인트 학습시 2정도 수치 대부분 줌 
2정도만 돼도 괜찮은 퀄리티 이미지 높은확률로 얻을 수 있음 


요구) 3분정도 끓이고 마무리는 그릇에 담아줘 


ai -> 그냥 볶아서 그릇에 넣으면 되나?
클립스킵 -> 더 깔끔하고 센스있게 이미지 만들어줌
---------------

체크포인트 모델 -> 무거운 용량
lora -> 10, 100 분의 1 크기의 용량 

<스테이블 디퓨젼 모델>
Stable Diffusion 1.4
Stable Diffusion 1.5
Stable Diffusion v2
Realistic Vision v2
DreamShpaer
SDXL 모델

GUI(사용자 친화적 인터페이스) 
<stable diffusion 여러 gui들>
AUTOMATIC1111 - 가장 널리 사용되며, 비교적 사용하기 쉽고 다양한 기능을 제공해 줍니다.
EasyDiffusion - 쉽게 사용할 수 있습니다.
Fooocus - 제일 사용하기 쉬우면서도, 쓸만한 이미지를 생성합니다.
ComfyUI - 처음 사용하기는 어렵지만, 매우 다재다능하고, 기능을 마음대로 바꿔볼 수 있으며 매우 빠릅니다.

<모델을 세부 조정 방법>
Dreambooth(2~7GB)
LORA2~200MB -> 중간정도 / 꽤 괜찮은 학습능력 
텍스 인버전(textual inversion)(100KB 정도)

728x90