본문 바로가기
인공지능(AI)

멀티모달(Multi Modal AI) AI '달리(DALL-E2)' 와 Chat GPT(쳇 GPT)

by 위드웨이브 2023. 2. 5.

오픈 AI의 Chat GPT(쳇 GPT) 3.5 버전이 지난 2022년 12월 1일 출시된 이후로 인공지능에 대한 관심이 매우 뜨겁습니다. 오늘 포스팅에서는 쳇 GPT도 일종의 '멀티모달 AI' 관점에서 바라봐야 하는 이유를 달리 2와 비교해 살펴보겠습니다.

 

 

 

◆ 멀티모달 AI 가 필요한 이유

 

1. 멀티모달이란? 

 

멀티 모달리티의 줄임말로 다중 모달리티라고 부르기도 합니다. 사람이 여러 가지의 형태와 방법으로 컴퓨터와 정보룰 주고받으면서 의사를 전달하는 환경을 말합니다

 

 

▶멀티모달 AI : 멀티모달은 시각 청각을 비롯한 여러 인터페이스를 통해 정보를 주고받는 것을 말하는데요. 이렇게 다양한 채널의 모달리티를 동시에 받아들이면서 학습하고 사고하는 AI를 '멀티모달 AI'라고 합니다

멀티모달 AI는 텍스트 외 데이터 외에도 이미지, 음성, 제스처, 시선, 표정, 생체신호 등 여러 방식(모달리티)을 받아들이고 사고할 수 있습니다. 이를 통해 인간과 AI 가 더 자연스럽게 소통할 수 있게 합니다.

 

 

2. 기존 인공지능(AI)의 한계

 

기존에 우리가 만들었던 AI는 텍스트나 자연어를 이해하는 데 중점을 두었다고 한다면, 인류가 만든 가장 많은 데이터는 바로 글로 남겨진 텍스트였고, 사람이 주고받는 언어를 이해하는 자연어 분석(NPL)이 전제되어야, 명제와 추론을 할 수 있다고 보는 것입니다.

 

 

사람이 하는 질문을 이해해야 답을 내놓을 수 있는 겁니다. 하지만 여기서 문제는 AI가 실제 그 단어가 의미하는 것이 어떻게 생겼고, 실제 세상에 어떤 형태로 존재하는지 이해하지 못한다는 겁니다.

 

 

 

3. 멀티모달 AI 필요성 

 

"남자가 말을 탄다"라는 문장에서 '탄다(ride)'라는 개념을 이해하지 못하고 말의 크기를 알지 못하고, 어떻게 타는 것인지도 알 수가 없죠. 따라서 데이터 처리나 통계, 텍스트를 검색해서 보여주는 것은 가능하지만, 인간과 유사한 방식의 사고는 할 수가 없습니다. AI가 세상을 제대로 인식할 수 있도록 하려면 멀티모달 AI의 등장이 필수라고 봐야 합니다.

 

 

◆ '멀티모달 AI' 활용 사례 

 

1. 오픈 AI의  '달리(DALL-E 2)'

 

달리 2는 문장을 입력하면, 해당 문장이 어떤 형태의 그림과 사진으로 이해되는지를 보여줍니다. 즉. 우리가 입력한 문장을 달리 2는 '이렇게 저는 이해하고 있어요'라고 보여 주는데요. 달리 2는 기존 이미지를 개체별로 나누고 이름을 부여한 다음, 위치와 색상, 어떤 동작을 하고 있는지를 이해합니다. 그리고 이미지를 설명하는데 이용된 텍스트 간의 관계를 학습합니다.

 

우주비행사, 고양이, 농구공 사진을 학습해서 '이렇게 생긴 거네' 라며 먼저 형태를 이해한다면, 다른 사진에서도 그 개체를 분리해 낼 수가 있습니다. 우주 비행사의 움직임, 고양이의 움직임, 농구공의 사용처 등을 이해하면 개체들의 활용법을 알게 되는 겁니다.

 

그러므로 달리 2에서는 인상파 화가 모네 스타일로, 어린이 동화 일러스트 스타일로 만들어 달라고 하면 해당 그림을 만들어 줍니다 또한 페인팅 기업도 지정해서 요구하면 적용해 줍니다.

 

 

2. 오픈 AI의 대화형 인공지능(AI) '쳇 GPT' -3.5  

 

쳇 GPT 3는 이제 인간의 삶을 모방하는 수준까지 올라오고 있습니다. 대화형 인공지능 쳇 GPT 3.5는 질문 택스트에 적합한 답변을 나타내고 스스로 학습을 통해 매개변수를 확대해 발전시키고 있습니다 달리 시리즈로 선풍적인 인기를 끌고 있는 멀티모달 기술력은 점점 발전하고 있습니다

 

따라서 쳇 GPT도 멀티모달 AI로 가기 위한 일종의 과정으로 이해하시면 될 듯합니다

 

 

 

◆ '멀티모달 AI'의 우려

 

잘못된 학습에 따른 나쁜 결과물 우려

 

모든 AI의 가장 큰 위험요소는 '딥페이크'와 같은 AI 기반으로 만들어진 가짜가 범죄에 활용되거나, 편향되거나 폭력적인 이미지와 텍스트 등을 기반으로 학습되어서 나쁜 결과물을 만들어 낼 수도 있다는 것입니다. 그래서 달리 2에서는 폭력과 혐오, 성인용 이미지는 학습대상에서 제외하고 , 공적인 인물을 포함해서 실제 개인 얼굴을 보여주지 않습니다. 달리 2의 결과물을 보면 사람 얼굴이 조금  이상하게 표현되는 것은 이러한 이유 때문입니다.

 

 

댓글