[생성형 AI]stable diffusion

Recent Posts

Recent Comments

Link

깃헙

Today

Total

02-06 16:33

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

관리 메뉴

Hippo's data

[생성형 AI]stable diffusion 본문

Activity

[생성형 AI]stable diffusion

Hippo's data 2024. 4. 6. 23:20

728x90

오늘은 생성형 AI 중 이미지를 생성하는 인공지능에 대해 알아보겠습니다!

저는 요즘 KBS 기술연구소에서 프로젝트를 진행하며 미디어 기술에서 활용할 수 있는 딥러닝 기술에 대해 경험해보는 중인데욥! 뉴스기사에서 활용할 수 있는 이미지 생성 AI에 대한 프로젝트를 진행중입니답!!

프로젝트를 진행하면서 공부했던 내용들에 대해서 정리하고 있는데욥 그중 stable diffusion에 대해 알아보겠습니다

# 생성형 AI란?

생성형 AI는 말그대로 무언가를 만들어내는 인공지능인데욥!! 요즘에는 텍스트, 이미지, 음악, 동영상 등 다양한 분야들에서 사용되며 저희가 자주 쓰는 챗쥐피티(ChatGPT)도 생성형 AI의 일종입니다!

# 확산 모델(Diffusion Model) 원리

stable diffusion은 이러한 생성형 AI 중 이미지를 만들어내는 영역에 해당하는데욥!

stable diffusion은 확산 모델(Diffusion Model)이라는 딥러닝 기반 이미지 생성 모델이 적용되었습니다

확산 모델(Diffusion Model)은 크게 2가지 과정으로 설명할 수 있는데요

1. Forward Process(확산 과정) 2. Reverse Process(역확산 과정)

1. Forward Process(확산 과정)

-> 노이즈(잡음) 추가 과정

-> 깨끗한 이미지에 점차적으로 노이즈를 추가하여 점점 이미지의 세부 사항을 없앰

2. Reverse Process(역확산 과정)

-> 노이즈(잡음) 제거 과정

-> 노이즈가 추가된 이미지에서 노이즈를 점차적으로 제거하는 역과정 수행

결국 딥러닝 신경망은 이러한 Reverse Process(역확산 과정)를 통해 노이즈를 제거하는 방법을 학습하게 됩니다

즉, 노이즈가 많은 상태에서도 깨끗한 이미지의 구조를 복원할 수 있는 방법 학습합니다!

stable diffusion 툴
= 요리사
-> 입맛에 맞는 요리를 만들어주는

예시)
떡볶이 = 원하는 이미지

재료 - 고추장(베이스) -> 체크포인트
-> 베이스 선택따라 완전히 다른 떡볶이가 됨 짜장/ 고추장

실사체크포인트 -> 실사이미지 출력
애니메이션 체크포인트 -> 애니메이션 느낌 출력

LORA - 어묵치즈만두
베이스 맛 바꾸진 못하지만 어느정도 영향을 끼칠 수 있음

실사체크포인트 + 애니메이션 로라 -> 어색한 느낌?
애니메이션 체크포인트 + 애니메이션 로라 -> 훨씬 자연스러운 애니메이션

어느정도 영향을 주지만 맛을 완전히 바꾸진 못함
- 부분장착 장비??? 부품?

VAE - 조미료
-> 모두 입맛 평준화 된 떡볶이 됨
-> 보정 해줌
칙칙하고 눅눅한 느낌 -> 선명하고 깔끔하게 느낌 (필터 처진 느낌)

대중적 - 84000VAE

아주 크게 중요하진 않음 msg역할

clip skip - 요리사의 레시피 독해 능력
보통 1로 세팅
1~12 가능
수치 높을 수록 프롬프트 이해 능력 올라감
체크포인트 학습시 2정도 수치 대부분 줌
2정도만 돼도 괜찮은 퀄리티 이미지 높은확률로 얻을 수 있음

요구) 3분정도 끓이고 마무리는 그릇에 담아줘

ai -> 그냥 볶아서 그릇에 넣으면 되나?
클립스킵 -> 더 깔끔하고 센스있게 이미지 만들어줌
---------------

체크포인트 모델 -> 무거운 용량
lora -> 10, 100 분의 1 크기의 용량

<스테이블 디퓨젼 모델>
Stable Diffusion 1.4
Stable Diffusion 1.5
Stable Diffusion v2
Realistic Vision v2
DreamShpaer
SDXL 모델

GUI(사용자 친화적 인터페이스)
<stable diffusion 여러 gui들>
AUTOMATIC1111 - 가장 널리 사용되며, 비교적 사용하기 쉽고 다양한 기능을 제공해 줍니다.
EasyDiffusion - 쉽게 사용할 수 있습니다.
Fooocus - 제일 사용하기 쉬우면서도, 쓸만한 이미지를 생성합니다.
ComfyUI - 처음 사용하기는 어렵지만, 매우 다재다능하고, 기능을 마음대로 바꿔볼 수 있으며 매우 빠릅니다.

<모델을 세부 조정 방법>
Dreambooth(2~7GB)
LORA2~200MB -> 중간정도 / 꽤 괜찮은 학습능력
텍스 인버전(textual inversion)(100KB 정도)

728x90

저작자표시 (새창열림)

'Activity' 카테고리의 다른 글

데이터분석, AI 연합동아리 지원 후기(투빅스, 보아즈, 비타민) (0)	2025.01.09
2024 춘천 AWS DeepRacer 챔피언십 후기 (12)	2024.09.03
[네이버 부스트캠프] AI Tech 지원 후기 (4)	2024.07.17
[생성형 AI]stable diffusion - AUTOMATIC1111_ KBS 기술연구소 (1)	2024.04.30
마이데이터 국민참여단 활동 후기(밀리패스) (0)	2023.01.02

'Activity' Related Articles

Hippo's data

[생성형 AI]stable diffusion 본문

[생성형 AI]stable diffusion

'Activity' 카테고리의 다른 글

티스토리툴바