Recent Posts
Recent Comments
Link
Today
Total
11-09 04:00
관리 메뉴

Hippo's data

[생성형 AI]stable diffusion - AUTOMATIC1111_ KBS 기술연구소 본문

Activity

[생성형 AI]stable diffusion - AUTOMATIC1111_ KBS 기술연구소

Hippo's data 2024. 4. 30. 02:16
728x90

오늘은 AUTOMATIC1111 툴에 대해서 알아보겠습니다!!

 

이미지 생성을 하는 stable diffusion모델을 돌리려면 여러 방법이 존재하는데요

원래는 코드로 일일이 직접 타이핑 하고 옵션들을 설정하면서 이미지를 생성해야하지만

멋쟁이 형누나들이 좋은 gui 툴을 만들어두셨더라구요....

 

# gui란? 

그래픽 사용자 인터페이스(Graphical User Interface)'의 약자로 아이콘, 버튼, 메뉴, 창 등의 시각적 요소를 사용하여 사용자 친화적인 작업 환경을 제공하는 것을 말합니다!!

코드를 치지 않고 쉽게 아래그림처럼 클릭버튼으로 이미지를 생성할 수 있습니다!

gradio를 이용해서 쉽게 gui 형태로 만드신거 같네욥... 갑사합니당.... 

 

stable diffusion에는 여러 gui들이 있는데요

 

# stable diffusion gui 종류

AUTOMATIC1111 - 가장 널리 사용되며, 비교적 사용하기 쉽고 다양한 기능을 제공
EasyDiffusion - 쉽게 사용가능 
Fooocus - 제일 사용하기 쉬우면서도, 쓸만한 이미지를 생성
ComfyUI - 처음 사용하기는 어렵지만, 매우 다재다능하고, 기능을 마음대로 바꿔볼 수 있으며 매우 빠름
forge - AUTOMATIC1111 업그레이드 버전 

 

 

이렇게 다양한 종류들이 있는데요 그중 가장 대중적으로 사용되는 AUTOMATIC1111에 대해 알아보겠습니다!

https://github.com/AUTOMATIC1111/stable-diffusion-webui

 

GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI

Stable Diffusion web UI. Contribute to AUTOMATIC1111/stable-diffusion-webui development by creating an account on GitHub.

github.com

먼저 이 github에서 다운을 받아야 합니다!

 

저는 예시로 

져희 학교 캐릭터인 이루매 이미지를 생성해보겠습니다!

 

학습할 체크포인트 모델을 선택해 준 후에 

 

### LoRA는 기본적으로 적은양의 데이터로 이미지의 느낌을 바꿔주는 부품? 정도라고 할 수 있는데욥 체크포인트는 기존대량의 데이터로 학습을 진행한 베이스모델이라고 할 수 있습니다

쉽게 예시를 들자면 떡볶이를 만들때 고추장은 체크포인트,  어묵치즈는 LoRA라고 할 수 있습니다!  고추장을 바꾸면 완전히 다른 맛의 떡볶이가 되지만 어묵과 치즈는 베이스 맛을 바꾸진 못해도 어느정도 영향을 줄 수 있는 느낌? 이라구 할 수 있겠네욥

 

### 다양한 체크포인트 모델, LoRA모델은 civitai 사이트에서 다운받을 수 있구욥 확실히 전세계의 그림덕후들이 다양한 버전의 모델들을 제작해서 공개해두셨드라구요

https://civitai.com/

 

Civitai: The Home of Open-Source Generative AI

Explore thousands of high-quality Stable Diffusion models, share your AI-generated art, and engage with a vibrant community of creators

civitai.com

 

 

 

텍스트로 이미지만들기(txt2img), 이미지로 이미지 만들기(img2img) 등등 여러 기능들이 있는데요 

저는 텍스트로 이미지만들기(txt2img)를 해보겠습니다

 

특히 Extensions에서 여러 도움되는 확장프로그램들도 설치할 수 있습니다!! 

유용한 확장프로그램 -> Image browsertab, UI related
-> 만들었던 이미지 저장됨 / 사용된 옵션도 함께 - 파라미터, 시드값 등등 

txt2img에서는 프롬프트를 입력해줘야 하는데요 

어떤 유형의 이미지를 생성할 지 영어로 입력해주는 것을 말합니다! 

여기서 

promptnegative prompt가 존재하는데요 

prompt에서는 그릴 이미지 특성에 대해 설명하면 되고 

반대로 negative prompt에는 등장하지 않았으면 하는 이미지 특성에 대해 작성하면 됩니다! 

 

저는 prompt에는 irumae is studying hard at school <lora:irumae_ver1:1> 라고 입력해줬는데욥 

<lora:irumae_ver1:1>  이부분은 따로 입력하지 않고 lora 선택시 자동으로 추가되는 부분입니다 

negative prompt는 따로 입력하지 않았습니다 

 

Generation에 들어가서 다양한 옵션들을 지정해주었는데요

 

그럼 여러 옵션들에 대해 알아보겠습니다!

 

 

# 다양한 옵션

Sampling method 샘플러 종류를 의미하는데 DPM++2M Karras로 설정했습니다

 

# 샘플러(Sampler)란?
stable diffusion의 작동원리를 보면 
샘플링 과정(노이즈에서 이미지 생성하는 과정)이 있는데 이를 리버스 디퓨전 프로세스 과정이라고 부릅니다
즉 , 각 과정마다 예측된 노이즈를 단계마다 일정량씩 빼서 디노이징(노이즈 제거)을 통해 원하는 이미지를 생성하는 과정인데요

이 과정에서 각 단계(스텝)마다 노이즈가 얼마나 있는지 예측을 해야하는데 이와 관련하여 다양한 예측치가 있고 이를 반영한 여러 노이즈 샘플러가 있습니다
종류로는 dpm, 오일러, 카라스 등등 여러 종류가 있으며 각 노이즈 샘플러마다 특징 존재합니다  
예시) 카라스 -> 앞단에 노이즈가 많다 가정 등등
DPM++ 2M Karras 샘플러 성능이 좋고 많이 쓰인다고 하네욥 


Sampling steps 몇 스텝으로 학습할지 
큰수 일수록 학습을 많이 하므로 좋은 퀄리티로 출력되지만보통 20~30 이상은 별차이가 없다고 합니다

Width 가로 크기
Height 세로 크기 로라(lora) 모델 학습시 사용한 이미지 크기와 똑같이 설정해야 더욱 퀄리티 있는 이미지를 생성해줍니다! 저는 이루매캐릭터 로라 생성시 896 X1156로 학습해서 똑같은 크기로 설정했습니다

Batch count 한 번의 배치에 생성이 되는 이미지의 개수
Batch size 한 번의 몇 개의 배치를 병렬로 처리할지
즉, 최종 생성되는 이미지의 수는 Batch count X Batch size가 됩니다

저는 6X1 이므로 총 6장의 이미지가 한번에 생성됩니다

CFG Scale 이미지를 생성할 때 입력한 프롬프트나 이미지가 결과에 얼마나 영향을 미치는지를 조절보통 7.0에서 13.0 사이의 값을 사용합니다


Seed 다른 환경에서도 이미지 생성할 시 같은 이미지를 생성하기 위해 시드번호를 지정할 수 있는데요

-1은 무작위로 이미지를 생성합니다

 

 

Refiner를 체크해서 원하는 Refiner를 적용할 수 있고 

Script에서 xyz등 다양한 옵션들도 설정할 수 있습니다

요런식으로 다양한 옵션조합을 한번에 그려줄 수 있습니다

 

이후 lora 탭으로 들어가서 사용할 lora를 클릭합니다 

저는 기존에 이루매 이미지들로 학습해논 irumae_ver3 lora 모델을 이용해보겠습니다

 

 

최종적으로 Generate 버튼을 클릭하면 하단부분에 이미지가 생성됩니다!

 

# 결과

저는 체크포인트 모델을 실사 이미지 효과를 주기위해 체크포인트 모델을 바꿔서 출력해봤숩니당

 irumae is studying hard at school 

학교에서 열심히 공부하는 이루매를 그려보았는데요 실사모습이 보이규 약간 여자루매? 느낌이 나네욯ㅎㅎ

x/y/z plot으로 샘플러, 셈플링 스텝수, CFG Scale의 다양한 조합으로 생성해 보았습니다

irumae is reading a book

책읽고 있는 이루매인데요 꽤 퀄리티 있는 이미지를 생성해줍니당

 

 

<Positive Prompt> Irumae is actively lifting a heavy barbell above shoulders, showcasing muscular arms and determined expression, realistic, Best quality

<Negative Prompts> scenes of urban environments, such as city streets or public transportation, office spaces, classrooms, dining areas, dining, or outdoor sports like cycling or swimming.

 

프롬프트를 좀 더 구체적으로 작성하면 더 디테일한 그림도 그릴 수 있습니다!

2차 진화한 이루매... 정도로 할 수 있겠네욥ㅎㅎㅎ

 

# 한국방송·미디어공학회 2024 하계학술대회

https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11849090

 

DBpia

논문, 학술저널 검색 플랫폼 서비스

www.dbpia.co.kr

 

 

이제는 디자이너 직업이 사라지겠네욥....

 

AI가 사람을 대체하고 일자리가 사라지는 것이 아니냐는 우려의 목소리들이 있는데욥

사실 팩트는 AI를 잘 사용하는 사람이 못 사용하는 사람을 대체한다고 하드라구욥 ㅎㅎㅎ 

 

살아남기 위해서는 AI 활용능력을 키워야겠네여,,,,

728x90