과학

Diffusion 모델 등 생성ai의 한계와 미래

인공지능 관련 일 하고 있는 애기 개붕이임.

 

현업 입장에서 하루가 멀다하고 미드저니 같은 그림 인공지능 써서 짤져오는 글이나 ChatGPT 이야기가 올라오는 환경이 재미있음. 이제 비전공자나 일반인들도 이쪽 관심이 많아지고 있어서 n년차 설명충이 나름대로 쉽게 이런 것들이 어떤 원리인지 쉽게 설명해보려고 함.

 

헬스장에서 자전거 돌리면서 쓰는 글이라 정리도 없고 퇴고도 없을거라 조금 엉성할 수 있음. 밥먹고 이 고민만 하는 게 일이라 머리속으로는 정리가 잘 되어있는데 글이 얼마나 깔끔할진 모르겠다.

 

먼저 그림 그리는 생성인공지능에 관해 써 보겠음.

 

1. 왜 요새 핫한가?

 

여러 이유가 있겠겠지만 제일 중요한건 언어로 제어가능하도록 만들었다는 점이 되겠음. 

 

이전에 그림찌는 모델이 없었던 건 아님. Diffusion 이전에 가장 핫했던 건 GAN 이라고 만드는 놈(Generator)이랑 잘 쪘는지 심판보는 놈(Discriminator) 이랑 같이 학습시켜서 심판이 좋아지면 만드는놈도 잘만들어야 하는 경쟁 방식을 썼음.

 

이 모델도 결과물 자체는 그럴싸 했는데 결정적인 건 내맘대로 조절이 어려웠음. Latent space controllability 라고 하는데 쉽게 개붕이들 눈높이에 맞춰 설명하자면 게임 캐릭터 커마 같은거라고 보면 됨.

 

캐릭터 커마 하면 눈코입 조절하는 막대기들 있을거임. 예전 방식은 막대기 하나 조정하면 다른 막대기들이 미쳐날뜀. 딱 상상해보면 이걸로 원하는 걸 만드는게 그지같이 어려울거라는 상상이 될 듯. 이 설명도 어려우려나...

 

예전 모델들이 이랬음. 입맛대로 바꾸기가 미친듯이 어려웠음.

 

2. 요새는 문장 써서 만들던데? 

 

예전과 요즘이 가장 다른 게 그 포인트임.

Diffusion 말고 CLIP이란 모델이 있음. 이 모델이 하는 가장 중요한 역할은 다음으로 요약 가능함.

 

그림을 암호화 한 숫자 = 문장을 암호화 한 숫자

 

가 되도록 메인 학습 전에 예습을 시킴.

 

이게 되면 뭐가 좋냐, 

문장을 암호화 한 숫자를 "그림처럼 취급이 가능" 함.

 

3. 그래서?

 

AI 학습 해본 사람은 알겠지만 학습 초기에는 결과물이 생 그지같이 나옴. 이걸 원하는 형태로 도자기 작업하는거마냥 깎아나가는 과정이 학습임. 

 

생성모델도 처음엔 노이즈에서 시작해서 데이터에 있는 그림이랑 비슷하게 만들어가도록 그림을 쪄나가는데, 이 과정에서 우리가 알고 있는 원본 그림이랑 비슷하게 만드는게 좋겠지?

 

이 때 앞서 설명한 CLIP을 쓰면 

 

주어진 그림이랑 비슷하게 만드는 과정 = 주어진 글이랑 비슷하게 만드는 과정

 

이 됨.

 

잘 학습이 끝나면 개붕이가 쓰는 글이 AI 모델에게는 수학적으로는 그림처럼 취급이 되고 그 그림이랑 비슷한 걸 찌게 됨.

 

이래서 제어가 가능해졌다는거.

 

4. 한계

 

Diffusion 모델을 공부해 본 개붕이들이 있으면 알겠지만, 이 모델은 

 

원래 있는 그림에서 '적당한' 노이즈 조금씩 추가 -> 조금씩 노이즈 복원 의 무한반복임.

 

수학적으로는 우리가 알고 있는 정규분포를 가정하고 각종 식전개 무쌍을 동원해서 기가막힌 조건을 유도하지만 이건 전공생들한테도 어려우니 넘어가고,

 

요는 " '적당한' 노이즈를 추가해서 복원한다. " 는 개념임.

 

쉽게 생각해서 아까 게임 캐릭터 커마 이야기로 돌아가면

커마용 막대기를 불편한 골짜기로 조금 일부러 보내놓고, 이쁜 얼굴이 대충 막대기가 어디에 있어야 하는지를 학습하는 과정의 반복임.

 

이게 뭐가 한계라는 걸까. 다시 말해 문제일까.

 

 

못생기거나 기상천외한 걸 못 만듬. 

 

고상한 말로 데이터셋의 분포 안에서 놀게 된다고 할 수 있는데. 주어진 데이터 셋의 분포랑 가장 유사한 분포밖에 만들지 못함.

 

조금 극단적으로 말하면 (수학적으론 틀린 설명이지만)

얼굴인지 아닌지 긴가민가 한 얼굴

건물인지 뭔지 애매한 건물

이런건 못 만든다는 거임.

 

5. 예전에도 그랬잖아?

 

맞음.

 

잘 만들고, 언어로 제어가 가능해 진 것이지, 주어진 데이터셋의 분포를 벗어나는 걸 할 수 없음.

 

인간의 창의성은 이유에 대한 설명과정임.

온갖 어처구니 없는 바보같은 상상도 자기가 가지고 있는 논리로 조합만 되면 자기합리화 하는게 인간의 창의성이 가진 어찌보면 위대한 점임.

 

아직은 그런거 못 함.

 

6. 그런게 나올까? 

 

나올거라고 봄. 빠르면 올해 늦어도 3년 안에. 주변에 이런 소리 하면 놀라지만... 

 

슬슬 자전거만 돌렸는데도 땀이 나서, 오늘 글은 여기까지.

 

반응 좋으면 연재각도 재볼게.

 

좋은 하루 되길.

51개의 댓글

2023.02.15
@년째설명충

아 그 회사 창업자가 나랑 친한 선밴데 평생의 목표가 AI 사회주의 낙원 만드는거라서 AI열심히 연구하더라고. 그 선배에게서도 한번씩 인공지능 얘기 듣는데 흥미롭달지 무섭달지.....

0
무분별한 사용은 차단될 수 있습니다.
번호 제목 글쓴이 추천 수 날짜
12494 [기묘한 이야기] AI 소설 2화 - 울프릭을 만나다 동식 0 4 시간 전
12493 [역사] 유전자 조작 생물이 활개치는 스팀펑크 세계관 1 식별불해 4 6 시간 전
12492 [호러 괴담] [미스테리] 그녀는 바다 한가운데 유람선에서 실종됐다. 7 그그그그 13 2 일 전
12491 [유머] 개붕이 인생썰 함 풀어 본다. 43 지나가던개드리퍼 31 3 일 전
12490 [기타 지식] 개붕이들에게 공유하는 심리상담 과정 22 직과닝 14 3 일 전
12489 [기타 지식] [약스압]얼마나 말이 안되는 걸까: 올해 6월 모의 영어문제 ... 15 시에는퇴근할거야 9 4 일 전
12488 [기타 지식] 얼음과 칵테일의 상관관계 1편 - 바텐더 개붕이의 술 이야기 5 지나가는김개붕 6 5 일 전
12487 [호러 괴담] [살인자 이야기] 어머니의 죽음, 그리고 11개월 뒤 체포된 자매 2 그그그그 5 5 일 전
12486 [기타 지식] 2024년 방콕 광역권 지도 업데이트 16 쿠릭 10 6 일 전
12485 [기타 지식] 조만간 유럽행 항공권 가격이 비싸질 예정인 이유 21 K1A1 16 6 일 전
12484 [호러 괴담] [살인자 이야기] 낮에는 유능한 소방관에서 밤에는 연쇄 살인... 4 그그그그 9 6 일 전
12483 [역사] 삼국지 장각 시점에서 본 황건적의 난 1 식별불해 5 7 일 전
12482 [호러 괴담] 펌, 번역) 이상한 AI 10 대다크 10 7 일 전
12481 [과학] 100억 달탐사 큐브위성 개발이 불가능했던 이유에 대하여 12 why 25 7 일 전
12480 [기타 지식] 감정을 표현하는 434가지 단어 9 Infinity 1 8 일 전
12479 [역사] 2024 제1회 안동문화상 문학분야 공모전 2 따스땅 0 8 일 전
12478 [자연] 약혐) 오싹기괴 냉혹한 쥐며느리의 세계... 37 식별불해 33 9 일 전
12477 [역사] 삼국지 장각은 거대한 음모의 희생자였을까 2 식별불해 10 10 일 전
12476 [기타 지식] 뻔한 이야기지만 결국엔 맞는 이야기 9 Infinity 2 10 일 전
12475 [호러 괴담] [살인자 이야기] 매춘부만 노렸던 서퍽의 교살자 4 그그그그 4 10 일 전