img

기술의 발전으로 인해 인공 지능은 더욱 다양하고 복잡한 작업을 수행하게 되었습니다. 그 중에서도 OpenAI의 챗GPT와 DALL·E는 텍스트와 이미지의 융합을 통한 흥미로운 서비스를 발표했습니다. OpenAI의 챗GPT와 DALL·E는 각각 텍스트와 이미지 처리 분야에서 주목받는 기술입니다. 이들의 통합은 AI의 문맥 인식 능력과 창조력을 결합하여, 사용자의 텍스트 입력에 따라 적절한 이미지를 실시간으로 생성하는 서비스를 제공합니다. 이는 사용자와 AI간의 상호 작용을 더욱 풍부하게 만들어줍니다. DALL-E 3는 텍스트 프롬프트를 바탕으로 다양하고 창조적인 이미지를 생성하는 것입니다. 챗GPT는 사용자의 입력을 토대로 적절한 이미지 프롬프트를 생성하고, 이를 바탕으로 다양한 이미지를 생성하는 과정은 AI의 멀티모달 능력을 직접 체험할 수 있는 좋은 예시입니다.

img

래리의 예시를 통해, 사용자의 간단한 요청에서 시작하여 다양한 이미지와 스토리를 창조하는 과정을 확인할 수 있습니다. 이러한 과정을 통해 사용자와 AI 간의 상호작용이 어떻게 풍부해질 수 있는지를 확인할 수 있습니다. OpenAI 공식 유튜브에서 공개한 영상을 보면서 함께 분석해볼까요?

이미지 생성 시키기

dalle3

딸아이가 “슈퍼두퍼 해바라기 고슴고치”을 계속 얘기하길래, 이게 먼지 아빠가 궁금한가봅니다. 그래서 먼저 챗GPT에게 묻습니다.

여기서 “look like”라는 프롬프트(명령)이 응답 시 뭔가 이미지로 보여줘야 된다는 것을 암시하고 있습니다. 따라서 챗GPT가 이미지를 생성하기 위한 프롬프트를 먼저 만듭니다.

dalle3

총 4가지 이미지 생성 프롬프트를 만드는데요. 이는 Dall-e 3로 프롬프트입니다. 즉 이 응답은 사람에게 응답을 하기 위함이 아닌 이미지를 생성하기 위한 프롬프트입니다. 아이가 말했던 것과 슈퍼두퍼 해바라기 고슴고치 이름을 유추하여 밝고 행복한 이미지를 만들기 위한 프롬프트가 만들어지네요.

  • ‘Super-Duper Sunflower Hedgehog’이 밝은 정원에서 놀고 있으며, 꽃과 나비들로 둘러싸여 있습니다. 이는 아이의 상상력과 활발한 에너지를 연상케 합니다.
  • ‘Super-Duper Sunflower Hedgehog’이 정원의 벤치에 앉아 햇빛 아래에서 즐거운 시간을 보내고 있습니다. 여기에도 활기찬 정원의 풍경이 더해져 있습니다.
  • ‘Super-Duper Sunflower Hedgehog’이 튤립과 데이지 사이에서 춤을 추고 있습니다. 꿀벌의 허밍 소리도 더해져 풍성한 자연의 풍경을 그려냅니다.
  • ‘Super-Duper Sunflower Hedgehog’이 잔디밭에 누워 하늘을 바라보며 장미와 해바라기로 둘러싸인 정원에서 휴식을 취하고 있습니다.

4개의 프롬프트가 만들어질 때까지 ‘진행 중’ 아이콘이 표시됩니다.

dalle3

프롬프트가 만들어지면 Dall-e 3가 이미지를 생성됩니다. 챗GPT 서비스 페이지 안에서 바로 이미지가 나온다는 것이 포인트이네요!

생성된 이미지 선택하기

생성된 이미지로부터 추가 작업을 하기 위해서 이미지를 클릭하여 선택할 수 있습니다. 시연 동영상에서는 우측 상단 이미지를 클릭했습니다.

dalle3

이미지를 클릭하면 해당 이미지가 크게 표시됩니다.

dalle3

이 이미지를 딸아이에게 보여줬나봅니다. 딸아이가 “와, 얘는 래리라고 해”라고 했나봅니다. 그래서 챗GPT에게 “래리”라고 알려주고, 유사한 이미지를 더 요청해봅니다. “see more”이라는 표현이 더 보여달라는 요청이기 때문에 이미지 생성을 시도합니다. 게다가 “like this”라고 요청했기 때문에 유사한 이미지가 만들어지겠죠?

dalle3

이 부분을 처리할 수 있는 방식은 여러가지 인데요. 보통은 “image 2 image”라고 이미지를 입력하여 유사한 이미지를 만드는 방법(1)이 있지만, 현재 시연에서는 선택한 이미지의 프롬프트를 입력하여 4장을 생성하거나(2), 프롬프트를 살짝 변형하여 4장 이미지를 생성하는 것(3) 같습니다. 저는 (2)번이나 (3)번에 해당할 것 같네요.

추가 이미지 생성하기

dalle3

딸아이가 엄청 좋아했나봅니다. “show me”와 같이 이미지 생성 키워드가 또 나왔네요. 여기서 또 생각해볼 점은 “Larry”라는 키워드립니다. 앞에서 Larry라고 이름을 칭한 것이 있기 때문에 래리는 “슈퍼두퍼 해바라기 고슴도치”를 얘기하는 거겠죠. 챗GPT는 문맥 이해를 잘 하기 때문에 이를 고려하여 이미지 생성 프롬프트를 잘 만들 수 있습니다.

dalle3

주인공은 물론 “래리의 집”을 표현하기 위해 래리라고 적긴 우체통과 집이 그려졌네요. Dall-e 3의 장점 중 하나가 텍스트를 잘 표현하는 것입니다. 이미지로 텍스트를 만들어내는 기술은 정말 어려울 것 같은데, 대단하네요.

dalle3

아빠는 좀 더 이해를 하고 싶었거나 좀 더 스토리텔링이 필요했나봅니다. 왜 “슈퍼두퍼”인지 물어봅니다. 사실 어른 입장에서는 해바라기 고슴도치가 왜 슈퍼두퍼인지는 이해가 안될 수 있죠.

dalle3

이에 챗GPT가 말합니다. 해바라기 가시와 착한 마음씨라고 말이죠.

dalle3

아빠는 “착한 마음씨”가 마음에 들었나봅니다. 가장 강력한 슈퍼두퍼는 착한 마음씨죠. “Awwww…” 라는 감탄사 중요합니다. 챗GPT 응답이 좋은 피드백을 준다면 현재 결과에 사용자가 만족한다는 것을 알고, 이후 응답도 유사하게 해주기 때문에 적절한 피드백은 중요합니다. “show me”가 나왔습니다. 이 또한 이미지 생성을 유추하는 단어이기 때문에 Dall-e 3가 구동되어서 이미지가 생성될 것이라 예상되시죠?

dalle3

이에 챗GPT는 지금까지 문맥을 고려하여 적절한 이미지 생성 프롬프트를 만들고, 이를 기반으로 Dall-e 3가 이미지를 생성해줍니다. 정말 착한 마음씨가 느껴지는 킹왕짱 해바라기 고슴도치이네요.

스타일 변경하기

dalle3

딸아이 가방에 붙여줄 스티커를 제작하고 싶었나봅니다. “design”이란 키워드가 이미지 생성을 암시하죠? “sticker”라는 키워드가 스타일로 적용되어서 스티커 디자인이 나옵니다.

dalle3

스토리 만들기

dalle3

이 아빠는 긍정적인 피드백을 잊지 않습니다. “make…story”라는 키워드는 이미지 생성이 아니라 글 생성을 암시하죠? 그래서 챗GPT는 dall-e 3를 통해 이미지를 생성하지 않고, 스토리를 만들어냅니다.

dalle3

dalle3

사실 이 부분은 Dall-e 3랑은 상관없는 파트이지만, 뒤에 나올 삽화 이미지를 생성하기 위한 복선입니다. 내용이 너무 좋아서 번역글도 첨부합니다.

천둥이 있었던 그날, 라리는 목초지의 동물들에게 차를 내어주었다. 그의 작은 해바라기 집은 따뜻한 불빛으로 가득 찼다. 작은 동물들은 그의 주변에 모여 그의 친절함에 감사의 노래를 부르며 춤을 추었다. 라리는 그들의 노래와 춤을 보며 행복한 미소를 지었다. 그는 목초지에서 가장 친절한 고슴도치로 알려져 있었다. 그의 친절함은 동물들에게 희망과 기쁨을 주었으며, 그들 모두는 라리와 함께하는 시간을 소중히 여겼다. 밤이 깊어지며, 라리는 해바라기 집 안에 들어와 따뜻한 잠자리에 들었다. 그는 그날의 모든 아름다운 순간들을 떠올리며 눈을 감았다. 그리고 목초지의 동물들이 부르는 달콤한 노래 소리와 함께 편안하게 잠이 들었다.

dalle3

“Can I see” 키워드로 이 스토리의 마지막을 장식할 래리의 자는 모습을 그려달라고 합니다.

dalle3

짜짠, 엄청 포근하고 행복하게 자는 래리이네요.

dalle3

마지막 아래 메시지는 왜 나오는 지 모르겠네요. 지금까지 패턴으로 보면, 이미지를 생성하거나 글을 생성하는데, 지금은 이미지도 나오고 이어서 메시지가 나왔습니다. 만약 이게 가능하다면 한 턴에 이미지와 텍스트 생성이 동시에 이뤄질 수 있는 것 같습니다.

dalle3

마무리

챗GPT,

dalle3

이제 Dall-e 3랑 함께 합니다.

dalle3

챗GPT와 DALL-E 3의 통합은 AI 서비스의 새로운 가능성을 열었습니다. 텍스트와 이미지의 통합 처리 능력을 통해, 사용자는 AI와의 상호작용을 더욱 다양하고 풍부하게 경험할 수 있게 되었습니다. 이를 바탕으로, 미래의 AI 서비스는 사용자의 다양한 요구와 상황에 따라 적절한 텍스트와 이미지의 출력을 제공할 수 있을 것입니다. 이러한 서비스는 교육, 엔터테인먼트, 디자인 등 다양한 분야에서 활용될 수 있습니다. 생각해볼 수 있는 사례를 나열해봤습니다.

  • 교육 분야: 학생들이 수업 중에 질문을 할 때, 단순한 텍스트 응답뿐만 아니라 관련된 이미지나 다이어그램을 함께 제공하여 더욱 직관적이고 이해하기 쉬운 학습 경험을 제공할 수 있습니다.
  • 콘텐츠 제작: 작가나 디자이너들이 초기 아이디어나 컨셉을 챗GPT에게 제시하면, DALL-E 3를 통해 시각적인 프로토타입이나 콘셉 아트를 빠르게 생성할 수 있습니다.
  • 엔터테인먼트: 게임, 영화, 애니메이션 등의 분야에서 캐릭터나 배경 디자인의 초기 단계에서 AI를 활용하여 다양한 디자인 아이디어를 빠르게 얻을 수 있습니다.

함께 보기