Hippo's data
[생성형 AI]stable diffusion 본문
오늘은 생성형 AI 중 이미지를 생성하는 인공지능에 대해 알아보겠습니다!
저는 요즘 KBS 기술연구소에서 프로젝트를 진행하며 미디어 기술에서 활용할 수 있는 딥러닝 기술에 대해 경험해보는 중인데욥! 뉴스기사에서 활용할 수 있는 이미지 생성 AI에 대한 프로젝트를 진행중입니답!!
프로젝트를 진행하면서 공부했던 내용들에 대해서 정리하고 있는데욥 그중 stable diffusion에 대해 알아보겠습니다
# 생성형 AI란?
생성형 AI는 말그대로 무언가를 만들어내는 인공지능인데욥!! 요즘에는 텍스트, 이미지, 음악, 동영상 등 다양한 분야들에서 사용되며 저희가 자주 쓰는 챗쥐피티(ChatGPT)도 생성형 AI의 일종입니다!
# 확산 모델(Diffusion Model) 원리
stable diffusion은 이러한 생성형 AI 중 이미지를 만들어내는 영역에 해당하는데욥!
stable diffusion은 확산 모델(Diffusion Model)이라는 딥러닝 기반 이미지 생성 모델이 적용되었습니다
확산 모델(Diffusion Model)은 크게 2가지 과정으로 설명할 수 있는데요
1. Forward Process(확산 과정) 2. Reverse Process(역확산 과정)
1. Forward Process(확산 과정)
-> 노이즈(잡음) 추가 과정
-> 깨끗한 이미지에 점차적으로 노이즈를 추가하여 점점 이미지의 세부 사항을 없앰
2. Reverse Process(역확산 과정)
-> 노이즈(잡음) 제거 과정
-> 노이즈가 추가된 이미지에서 노이즈를 점차적으로 제거하는 역과정 수행
결국 딥러닝 신경망은 이러한 Reverse Process(역확산 과정)를 통해 노이즈를 제거하는 방법을 학습하게 됩니다
즉, 노이즈가 많은 상태에서도 깨끗한 이미지의 구조를 복원할 수 있는 방법 학습합니다!
stable diffusion 툴
= 요리사
-> 입맛에 맞는 요리를 만들어주는
예시)
떡볶이 = 원하는 이미지
재료 - 고추장(베이스) -> 체크포인트
-> 베이스 선택따라 완전히 다른 떡볶이가 됨 짜장/ 고추장
실사체크포인트 -> 실사이미지 출력
애니메이션 체크포인트 -> 애니메이션 느낌 출력
LORA - 어묵치즈만두
베이스 맛 바꾸진 못하지만 어느정도 영향을 끼칠 수 있음
실사체크포인트 + 애니메이션 로라 -> 어색한 느낌?
애니메이션 체크포인트 + 애니메이션 로라 -> 훨씬 자연스러운 애니메이션
어느정도 영향을 주지만 맛을 완전히 바꾸진 못함
- 부분장착 장비??? 부품?
VAE - 조미료
-> 모두 입맛 평준화 된 떡볶이 됨
-> 보정 해줌
칙칙하고 눅눅한 느낌 -> 선명하고 깔끔하게 느낌 (필터 처진 느낌)
대중적 - 84000VAE
아주 크게 중요하진 않음 msg역할
clip skip - 요리사의 레시피 독해 능력
보통 1로 세팅
1~12 가능
수치 높을 수록 프롬프트 이해 능력 올라감
체크포인트 학습시 2정도 수치 대부분 줌
2정도만 돼도 괜찮은 퀄리티 이미지 높은확률로 얻을 수 있음
요구) 3분정도 끓이고 마무리는 그릇에 담아줘
ai -> 그냥 볶아서 그릇에 넣으면 되나?
클립스킵 -> 더 깔끔하고 센스있게 이미지 만들어줌
---------------
체크포인트 모델 -> 무거운 용량
lora -> 10, 100 분의 1 크기의 용량
<스테이블 디퓨젼 모델>
Stable Diffusion 1.4
Stable Diffusion 1.5
Stable Diffusion v2
Realistic Vision v2
DreamShpaer
SDXL 모델
GUI(사용자 친화적 인터페이스)
<stable diffusion 여러 gui들>
AUTOMATIC1111 - 가장 널리 사용되며, 비교적 사용하기 쉽고 다양한 기능을 제공해 줍니다.
EasyDiffusion - 쉽게 사용할 수 있습니다.
Fooocus - 제일 사용하기 쉬우면서도, 쓸만한 이미지를 생성합니다.
ComfyUI - 처음 사용하기는 어렵지만, 매우 다재다능하고, 기능을 마음대로 바꿔볼 수 있으며 매우 빠릅니다.
<모델을 세부 조정 방법>
Dreambooth(2~7GB)
LORA2~200MB -> 중간정도 / 꽤 괜찮은 학습능력
텍스 인버전(textual inversion)(100KB 정도)
'Activity' 카테고리의 다른 글
데이터분석, AI 연합동아리 지원 후기(투빅스, 보아즈, 비타민) (0) | 2025.01.09 |
---|---|
2024 춘천 AWS DeepRacer 챔피언십 후기 (11) | 2024.09.03 |
[네이버 부스트캠프] AI Tech 지원 후기 (2) | 2024.07.17 |
[생성형 AI]stable diffusion - AUTOMATIC1111_ KBS 기술연구소 (1) | 2024.04.30 |
마이데이터 국민참여단 활동 후기(밀리패스) (0) | 2023.01.02 |