Stable Diffusion은 전부터 관심이 많았지만 직접적으로 다양하게 사용해보는건 처음인것같네요. 미드저니는 결제한지 2년이 넘었지만 막상 잘 사용하지는 않고, 가끔 프로젝트 진행할때 샘플 이미지를 몇장 뽑는수준밖에 안되었습니다.
이번에 Stable Diffision(이하 SD라고 명칭)을 사용하면서 이론적인것을 제외하고 추상적인 개념으로 느낀점을 정리해볼까 합니다. 이후에 좀 더 이론적인 내용과 디테일한 요소들은 별개의 포스트에서 다룰수 있으면 좋을것같네요.
우선 최근에 인터넷을 둘러보다가 아래 이미지를 보고 SD에 굉장히 흥미가 갔습니다.
트릭컬 아트 스타일로 블루아카이브 캐릭터들 그림을 AI로 그린것인데 퀄리티가 굉장히 높고 각 캐릭터의 특징들이 잘 살아있게 나온걸 보고 이정도로 특징을 잘 살릴수있다면 한번 다른 예시로도 학습을 시켜서 돌려보고 싶었습니다.
우선 어떤 캐릭터를 뽑아볼까 하고 고민하다가 블루아카이브의 카스미로 정했습니다. 최근 패스때 픽뚫로 나와서 인상깊었는데 캐릭터의 특징 포인트들이 강해서 AI가 과연 어디까지 디테일을 잡을 수 있는지도 보기위함도 있습니다.
우선 카스미의 특징 포인트들을 정리해보자면
- 헤일로 (블루아카이브의 공통점)
- 머리의 뿔
- 셔츠 좌측에 온천개발부 뱃지(?)
- 과한 오버핏 백의
- 숏팬츠아래로 삐져나오는 셔츠 아랫부분
- 꼬리
- 꼬리 끝부분의 게헨나 깃발
이정도로 정리할수 있을것 같습니다.
우선 공통적으로 Negative prompt는 아래의 내용을 고정으로 사용했습니다.
(worst quality, bad quality, old, early, mammal, anthro, furry, feral, semi-anthro, lowres, (bad), off-topic, multiple views, comic, very displeasing, displeasing, chromatic aberration, extra digit, fewer digits, fewer, text, error, artistic error, missing, jpeg artifacts, artist name, signature, twitter username, username, watermark, scan, unfinished, [abstract]), bb_(baalbuddy),
우선 처음에 뽑았던 결과물입니다.
사용한 prompt는 아래와 같습니다.
(trickcalcg, chibi:1.4), (blush stickers, blush), blue archive, kasumi (blue archive), 1girl, black hair, red shirt, black pants, yellow eyes, halo, minipants, lab coat, hand radio, open clothes, open coat, simple background, long hair, tail, horn, (masterpiece, best quality, absurdres, highres, newest:1.2), very awa
카스미라는 캐릭터에 근접하지도 못했습니다. 어딘가 잘못설정한게 있나 찾아보니 지금 사용중인 DoRA(아마 LoRA의 개선판과 같은것이라고 이해하고 있습니다)는 아트 스타일을 트레이닝한것이고 모델을 SDXL 1.0을 사용하고 있었는데 NoobAI-XL 이라는 모델을 메인으로 사용하고 서브로 해당 DoRA를 사용해야 하는것을 알았습니다.
같은 프롬프트로 모델만 바꿔서 다시 돌려보았습니다.
거의 대부분의 특징들을 잘 담아내면서 트릭컬 아트스타일로 나온것을 보고 굉장히 놀랐습니다. 꼬리 부분이나 hand radio, 셔츠의 뱃지부분과 같은 요소들은 들어가 있지는 않지만 아마 계속해서 돌리면 괜찮은걸 하나 건질수 있으리라고 생각합니다.
제일 크게 놀랐던 부분은 헤일로 디자인을 원본 디자인을 그대로 살린것과, 첫번째 이미지에서의 셔츠가 숏팬츠 아래로 내려오는 요소가 굉장히 AI가 표현하기 어려운거였다고 생각했는데 문제없이 나온게 신기했습니다.
적절한 모델과 DoRA를 섞어서 이렇게 좋은 결과가 나왔는데 반대로 DoRA만 빼고 같은 프롬프트로 돌린다면 어떤 결과가 나올지 궁금해서 돌려봤습니다.
아트 스타일은 두개 다 제각각 다르지만 카스미라는 캐릭터의 특징은 계속해서 살아있는걸 볼 수 있습니다. 이로써 알수있는건 처음에 잘못된 상태로 돌렸을때 이미지가 원하는대로 나오지 않았던것은 기본적으로 캐릭터에 대한 학습이 진행되어있지 않았기 때문이고, 마찬가지로 모델 내에 prompt도 제대로 인지하지 못했다고 생각할 수 있습니다.
이 프롬프트들은 아마 처음엔 할루시네이션만 일으켰을 가능성이 높습니다.
blue archive, kasumi (blue archive)
여기서 (trickcalcg, chibi:1.4), (blush stickers, blush) 이라는 프롬프트가 볼따구 스타일을 만들어내는것 같은데, DoRA없이 해당 프롬프트 없이 만들었을때와, DoRA를 적용했을때 결과물의 차이도 궁금해졌습니다.
해당 프롬프트를 지우고 돌리면
예상했던대로 데포르메가 굉장히 약해진것을 볼 수 있습니다. 데포르메가 약해진 대신 충분히 예쁜 캐릭터가 나왔지만 뭉개진 부분이 많아서 의미있는 결과물이라고 보기는 힘들것 같습니다. 아마 이 부분은 별개의 후처리 LoRA가 존재할것 같기도하네요.
마지막으로 DoRA를 포함하고 프롬프트를 지운 캐릭터같은 경우엔 (여기서는 트릭컬 DoRA 태그를 사용하기 위해 trickcalcg를 추가했습니다)
크게 체감되는 영역은 없는것 같습니다만 확실히 데포르메가 적용되는 프롬프트들이 빠져서 그런지 위에 나왔던 결과물에 비하면 스타일이 많이 달라졌다는게 느껴집니다. 다음에는 한번 직접 훈련을 시켜서 테스트해보고 싶네요. 당분간은 civit에서 작업을 돌릴것 같은데, 최근에 로컬에서도 AI를 이것저것 돌려보고 싶은게 많아지다보니 이번에 나온 5090을 사야하나 말아야하나도 고민입니다. 항상 70라인의 가성비픽만 골라잡는 입장에서는 90라인을 구매하기도 두렵고 SFF취미가 있다보니 발열과 파워문제도 있고..
마지막으로 우마무스메의 아그네스 타키온도 비슷한 백의 캐릭터이기도 하고 극장판도 재밌게 본 입장에서 한번 뽑아봤습니다. 아마 프롬프트를 더 디테일하게 잘 쓰면 더 안정적이게 뽑을 수 있을것같은데, 아직까지는 익숙치가 않네요.
(trickcalcg, chibi:1.4), (blush stickers, blush), umamusume, agnes tachyon (umamusume), 1girl, animal ears, brown hair, yellow knit top, black stockings, red eyes, lab coat, open clothes, open coat, simple background, tail, (masterpiece, best quality, absurdres, highres, newest:1.2), very awa