제일기획 김민석 프로 (Meta Lab팀)

자고 일어나면 새로운 기술이 화제일 정도로 AI 분야의 성장이 가파르다. 기술에 관심이 없는 분들도 ‘ChatGPT’라는 단어를 흔히 접할 수 있는 요즘이다. 꽤 오래전부터 유망한 미래 기술인 인공지능(AI)이 지금 이 시점에 왜 이렇게 대두되고 있을까? 기존의 AI와 무엇이 다르고 그 정체는 무엇일까?

최근 유명세를 치르고 있는 AI 기술들의 정체는 ‘생성 AI’다. 생성형 AI(Generative AI)라고도 불리는 이 기술은 말 그대로 무언가를 생성해내는 AI로, 자연어 처리 기술과 딥 러닝 등을 토대로 새로운 텍스트, 이미지, 사운드 등을 생성한다. 쉬운 예를 들어 내 편지를 대신 써주고, 그림을 대신 그려주는 등 마치 사람처럼 만들어낸다는 뜻이다.

알파고와 ChatGPT 뭐가 다를까?

텍스트를 이미지로 만들어주는 AI 모델 스테이블 디퓨젼을 직접 활용하여 만든 이미지

‘A generative AI with a human appearance’ 라는 텍스트를 주고 이미지로 변환했다.

기존에 우리가 흔히 접했던 AI는 정보와 데이터를 바탕으로 무엇인가를 분류하고 분석하거나 예측하는 데 주로 활용됐다. 가장 유명한 AI인 ‘알파고’는 이세돌 기사와의 바둑 대결에서 다음 수를 예측하는 능력을 갖추고 있었고, 넷플릭스 등의 다양한 플랫폼에서는 고객 데이터 분석을 바탕으로 개인화된 콘텐츠 또는 제품을 추천해준다. 이러한 인공지능은 우리 눈에 실체가 잘 보이지 않아 어떠한 원리를 통해 작동하는지 파악하기 어렵다. 뭔가 복잡하고 기술적인 것 같아 내가 사는 세상과는 조금 먼 느낌으로 여겨지곤 한다.

새로운 것을 만들어내는데 그 능력이 출중한 생성 AI는 우리에게 조금 더 친숙한 모습일지도 모른다. 영화 아이언맨 속 인공지능 비서 ‘자비스’처럼 실시간으로 묻는 말에 검색 결과와 함께 제대로 된 정보를 설명해줄 수 있는 기술이 생성 AI로 거의 현실화가 됐다. 내가 입력하는 명령어, 즉 프롬프트를 기반으로 답변을 생성하며, 인간이 알아들을 수 있는 언어 텍스트 또는 이미지로 결과를 확인할 수 있다. 기술을 잘 몰라도 부담 없이 말로 질문만 해도 사용할 수 있는 친숙한 AI 가 눈앞에 있다.

나와 대화하는 사람 같은 AI

텍스트를 이미지로 만들어주는 AI 모델 스테이블 디퓨젼을 직접 활용하여 만든 이미지

‘A generative AI with a human appearance’ 라는 텍스트를 주고 이미지로 변환했다.

가장 대표적인 생성 AI로는 OpenAI사에서 만든 텍스트 생성 인공지능 기술 GPT 모델과 이를 활용해 채팅형 인터페이스로 만든 ChatGPT 서비스가 있다. “내일 가져가야 할 숙제를 아직도 안 했는데 어떻게 해야 해?” 같은 질문을 던지면, “숙제를 마지막까지 미루는 버릇은 좋지 않습니다. 하지만 이미 벌어진 일이니 답을 드리자면(후략)” 마치 사람처럼 인공지능이 답을 해주는 방식이다. 인간이 사용하는 언어 데이터와 인터넷상의 수많은 데이터를 학습해 거대한 언어 모델을 만들었고, 이렇게 커진 AI 모델을 초거대 AI 모델이라고 이야기한다.

대표적으로 GPT(Generative Pre-trained Transformer) 모델은 ‘생성을 위해 사전에 훈련된 변환기’의 의미를 지니는 AI 모델이고, 이는 일종의 뇌와 같은 역할을 하며 컴퓨팅 파워 및 인프라를 기반으로 인풋에 대한 결과물을 생성한다. 현재 GPT-4 버전까지 출시가 되었고 올해 안에 더 똑똑해진 GPT-5를 선보일 예정으로 보인다. 네이버의 ‘하이퍼클로바’, KT의 ‘믿음’, 구글의 ‘LaMDA’, 메타의 ‘LLaMA’ 등 여러 기업과 연구 기관에서 각자의 거대 AI 모델을 구축하고자 연구하고 있다.

챗GPT에게 생성 AI란 무엇인지 물어보았다 (출처: Open AI Chat GPT)

이러한 초거대 AI를 이용해 누구나 생성 AI를 쉽게 사용할 수 있는 환경이 구축되고 있다. 기존의 AI가 일종의 B2B 서비스에 가까운 느낌이라면, 현재의 생성 AI는 B2C 서비스에 가깝다. 그중 가장 유명한 ‘ChatGPT’는 GPT모델을 기반으로 우리에게 익숙한 대화형 인터페이스로 자연스러운 대화를 주고받을 수 있는 서비스이다. 회원가입만으로 손쉽게 사용이 가능하다. 모르는 것을 물어보면 웬만한 상식은 곧잘 대답해주고, 문서를 대신 써주기도 하며, 심지어는 프로그래밍 코드를 대신 짜주기도 한다. ChatGPT의 API를 활용하여 카카오톡 채널로 간단하게 사용해볼 수 있도록 개발한 AskUp과 같은 서비스도 있다.

원하는 걸 말해봐 그림을 그려줄게, 이미지 생성 AI

텍스트를 이미지로 만들어 주는 인공지능 기술도 매우 인기가 많다. 대표적으로 스테빌리티 AI(Stability AI)에서 오픈소스 라이선스로 배포한 스테이블 디퓨젼(Stable Diffusion), 오픈(Open) AI사에서 만든 달-리 2(Dall-E 2), 미드저니에서 개발한 예술 분야 특화 AI 미드저니(Midjourney) 등이 있다.

(출처: Stability AI 공식 홈페이지)

스테이블 디퓨젼이나 달리 2 같은 이미지 생성 AI들은 텍스트를 이미지로 변환해주고(Text to Image), 이미지를 기반으로 새로운 이미지를 만들어내기도 하고(Image to Image), 이미지를 기반으로 프레임 밖의 배경을 추가하고(Outpaint), 이미지 안에서 바꾸고 싶은 요소들을 변경하고(Inpainting), 고해상도로 이미지의 크기를 확대하고(Upscaleing), 심지어는 사람의 자세도 마음대로 바꾸고(ControlNet), 사람의 얼굴이나 옷, 이미지 스타일 등을 학습해서 이미지를 생성하는 등 다양한 기능들을 가지고 있다.

텍스트를 이미지로 만들어주는 AI 모델 스테이블 디퓨젼을 직접 활용하여 만든 이미지

‘A generative AI with a human appearance’ 라는 텍스트를 주고 이미지로 변환했다.

미래의 기술이 아니라 이미 존재하는 현재의 기술들이다. 가정용 고성능 GPU가 장착된 컴퓨터만 있으면 직접 설치하여 실행할 수도 있고, 유튜브 튜토리얼 등을 보고 따라 하면 나만의 프롬프트로 새로운 이미지들을 쉽게 생성해볼 수 있다. 스테이블 디퓨젼 모델은 오픈소스로 공개되었기 때문에 전 세계의 개발자들이 새로운 기능들을 매일 같이 서로 협업하여 만들어내고 있어 성장 속도가 더욱 가파르다. 또한 이러한 기술들을 활용해 예쁘고 특별한 프로필 사진을 만들어주는 상용 어플리케이션들도 인기를 얻었다. 이제는 텍스트를 기반으로 한 이미지 생성 뿐만 아니라 영상을 만들어주는 기술까지 공개되고 있어 이 분야에 대한 귀추가 주목된다.

특정한 영역에서 어려운 기술로 존재했던 AI가 우리의 일상 영역에 스며들기 시작했다. 인간이 사용하는 언어와 인간이 보는 이미지를 알아듣고 만들어내는 생성 AI로 인해 손쉽게 사용 가능한 친숙한 AI 시대가 도래한 것. 기술이 대중에게 가까워지고 보편화되면서 다양한 분야에서의 활용할 수 있을 것이다. 특히 새로운 것을 생성해내는 AI 기술 특성상, 지속적으로 새로운 콘텐츠를 만들어 내는 업계에서는 더 많은 변화가 있을 것으로 예상된다. 생성 AI를 통해 인간이 작성한 것과 유사한 문장, 이미지, 음성 등을 자동으로 생성할 수 있기 때문에, 이와 깊은 연관이 있는 창작 분야, 대표적으로 콘텐츠, 디자인, 예술, 크리에이티브, 광고 등의 시장 영역에서는 이러한 기술이 만들어내는 변화에 준비가 필요하다.

벚꽃철을 맞아 AI 프로그램 스테이블 디퓨전에

‘봄이 없는 달 또는 우주 행성에 벚나무가 핀다면?’ 이라는 텍스트를 입력했더니

이렇게 아름다운 이미지가 탄생했다.

최근에는 블로그와 SNS에서도 생성 AI로 만들어진 텍스트 이미지들을 쉽게 발견할 수 있을 정도로 일반인들 또한 콘텐츠 창작에 AI를 활용하는 움직임이 시작되고 있다. 얼마 전 공개된 새로운 버전의 GPT-4는 텍스트뿐 아니라 입력된 이미지도 알아들을 수 있다고 한다. ‘텍스트’와 ‘이미지’ 생성 AI가 결합되어, 인간에 가까울 정도로 상황을 인식하고 맥락을 이해하고 그에 대한 답변을 만들어낼 수 있게 된다. 이제는 텍스트 또는 이미지 단독으로 받아들이는 AI가 아니라 시각, 청각, 동영상, 3D 등 다양한 방식의 인터페이스로 정보를 주고받는 ‘멀티 모달(Multi-Modality)’ 기능을 갖춘 생성 AI로 발전해나가고 있다.

내 업무에 AI를 활용할 수 있을까?

현재로서도 충분히 가능하다. 하지만 AI가 만든 결과물들은 아직 완벽한 수준은 아니기에, 초안 작업 중심으로 활용하고 최종 결과물은 사람들이 검수하고 만드는 경우가 많다. 이따금 거짓된 정보를 만들어 내기도 하고, 윤리적인 범위를 벗어난 결과물을 생성하기도 하며, 저작권 관련 이슈가 발생할 수도 있는 등 아직은 문제 소지 가능성이 다분해 더 많은 발전이 필요하다. 이제는 비즈니스에 범용적인 사용이 가능한 사례가 등장하고 있으며, 기술이 빠르게 발전하기에 앞서 이야기한 창작 분야에서의 작업 효율이 기존과는 달라질 가능성이 굉장히 높다. 다양한 결과물을 빠르게 생성할 수 있는 방법이 생겨남으로써 생성 AI의 비즈니스 분야 활용 가능성이 큰 것으로 예상된다.

이번 칼럼에선 최근 생성 AI가 무엇인지를 알아보았다. 솔직히 고백하면 이 글의 30% 정도는 ChatGPT가 답변으로 생성한 텍스트를 활용했다. 정확하면서도 자연스러운 설명으로 훨씬 쉽게 글을 쓸 수 있었다. 여러분이 이렇게 AI를 활용하며 미래를 준비하는 데 돕기 위해 생성 AI에 대한 아티클을 몇 차례 더 발행할 예정이다. 특히 생성 AI와 광고 마케팅, 크리에이티브, 콘텐츠를 둘러싼 창작 분야의 변화와 비즈니스 사례, 업무 활용법 등에 대해서도 살펴보려고 하니 많은 관심 부탁드린다.

제일기획 김민석 프로 (Meta Lab팀)


<입문자를 위한 AI 원스텝>

1. 생성 AI 대체 뭐가 다른데? 편
2. 창작자들은 AI를 어떻게 활용하고 있을까? 편

3. 광고 업무에 바로 도입해 보는 생성 AI (1) 편