두 번째 실험: 핑크 유니콘

앞의 글에서 GPT-4에 다양한 물건을 쌓는 방법을 물어봤던 마이크로소프트의 연구원 세바스티안 부베크는 어느 날 밤, 아이들을 재우고 침대에 누워있다가 새로운 실험 아이디어를 생각해냈다. 그림을 그려 보게 하는 것이었다.

GPT-4는 DALL-E, 미드저니처럼 이미지 데이터로 훈련받은 프로그램도 아니고, 그림을 출력할 수도 없다. 부베크는 바로 그런 이유 때문에 GPT-4의 "지능"을 테스트하는 좋은 방법이라고 생각했다. 그는 일부러 틱지(TikZ)라는 잘 알려지지 않은 컴퓨터 언어를 선택했다. 틱지는 원래 벡터 그래픽스를 만들 때 사용하는 것으로, 점이나 선, 도형을 그릴 때 사용하지, 보통 이미지를 생성하는 용도로 사용되지 않는다. 그는 GPT-4에게 "TikZ를 사용해 유니콘을 그려달라"고 요청했다. 특별한 의도가 있었던 게 아니라, 그냥 그의 아이들이 유니콘 얘기를 자주하기 때문에 쉽게 떠오른 상상 속의 동물이었을 뿐이다.

부베크의 요청을 받은 GPT-4는 틱지 코드를 내놓기 시작했다. 그는 그 코드를 복사해서 틱지 컴파일러에 넣어 아래와 같은 이미지를 얻을 수 있었다. (참고로, 누구나 원하면 직접 해볼 수 있다. 나는 GPT-3.5 기반인 무료 버전의 챗GPT와 틱지 온라인 에디터를 사용했는데, 뿔이 위아래로 뒤집혀 있긴 해도 네 발과 꼬리가 달린 동물이 나왔다.)

핑크의 몸에 노란색의 작은 뿔이 달린, 말 비슷한 모습의 동물이었다. 어설퍼 보이기는 해도 유니콘이 분명했다. 꼬리와 갈기도 있고, 심지어 발굽까지 분명하게 표시되어 있었다.

GPT-4가 처음 내놓은 코드를 입력해 처음 만든 유니콘 (이미지 출처: 세바스티안 부베크의 논문)

부베크는 감탄했지만, 이 그림을 본 그의 동료 에체 카마르(Ece Kamar)는 처음에는 믿기 힘들어 했다. 인공지능이 유니콘을 이해하고 새롭게 그린 게 아니라, 학습 중에 어디선가 본 것을 기억하고 있다가 내놓은 거 아니냐는 의심이었다. 카마르는 의심하는 데 그치지 않고, GPT-4가 유니콘을 제대로 이해하고 있는지를 테스트할 방법을 생각해 냈다. GPT-4가 내놓은 코드를 열어 살펴 보고 거기에서 뿔에 해당하는 부분을 제거하고, 유니콘이 보고 있는 방향을 반대쪽으로 바꾸고, 다시 GPT-4에 입력한 후에 새로운 요청을 하는 것이다. "이건 유니콘을 그리는 코드인데, 뿔이 필요해. 넣어줄 수 있니?"

GPT-4는 새로운 코드를 만들어 냈고, 이를 컴파일러에 넣으니, 아래와 같은 이미지가 나왔다. 유니콘의 머리에 해당하는 위치에 더 크고 뚜렷한 뿔을 넣은 것이다.

(이미지 출처: 세바스티안 부베크의 논문)

대수롭지 않아 보일 수도 있지만 카마르와 부베크의 눈에는 충격적인 결과였다. GPT-4는 언어는 알지만 2차원의 그림에 대해서는 모르기 때문이다. 이게 어떻게 "머리"가 어디에 붙어 있는지 안다는 말이지? 이 결과물을 본 이들은 처음으로 (인공의) 지능을 가진 존재를 목격했다는 느낌을 받았다. 이미지 훈련을 받지도 않은 GPT-4가 유니콘을 정말로("in a very real way") 이해하고 있었기 때문이다.

그날 세바스티안 부베크는 밤에 잠이 오지 않았다고 한다. 그는 뭔가 엄청난 일이 시작되는 걸 보고 있다고 생각한다.

한 달에 걸쳐 다시 물어보면서 더 나은 결과를 얻었다고 한다. (이미지 출처: 세바스티안 부베크의 논문)

세 번째 실험: 상자 속 고양이

마이크로소프트의 연구원들은 부베크와 카마르가 했던 것 같은 테스트를 각자 해보면서 놀라고 있었지만, 비밀 보장 각서를 썼기 때문에 외부에는 말하지 못하고 빌딩 99에서 매주 금요일에 만나 경험담을 나눴다. 앞의 글에서 말한 피터 리도 자기의 실험 결과를 이야기했다. 그의 실험은 어떤 의미에서 앞의 두 실험과 달랐다. 사람의 생각(mind)에 관한 것이었기 때문이다. 사람의 생각은 달걀이나 유리병 같은 물건과 달라서, 사람마다 상황을 다르게 보고, 다른 생각을 가질 수 있다. GPT-4가 이걸 이해할 수 있을까?

케스텐바움 기자는 '마음 이론(Theory of Mind)'이라는 심리학 개념으로 이를 설명한다. 사람은 다른 사람들이 그들만의 마음/생각을 갖고 있다는 것을 알고, 그것을 추론함으로써 그들과 공감하고 그들을 이해한다는 개념이다. 어린아이들도 자라면서 갖게 되는 타인에 대한 이해는 GPT-4 이전 버전의 모델에서는 발견할 수 없었다. 피터 리는 유명한 실험을 GPT-4를 상대로 실험해 보기로 했다.

질문은—일반적인 성인에게는—어렵지 않다. 어느 방에 두 사람(존과 마크), 고양이 한 마리, 바구니 한 개, 종이 상자 한 개가 있다. 어느 날 존은 고양이를 바구니에 집어넣은 후 학교에 가기 위해 집을 나섰다. 그런데 존이 없는 동안 마크는 고양이를 바구니에서 꺼내어 종이 상자에 넣고 출근하기 위해 집을 나섰다. 그날 저녁, 두 사람은 함께 집으로 돌아온다. 질문: 그들은 고양이가 어디에 있다고 생각할까?

마지막에 방을 나간 마크는 고양이가 상자 안에 있다는 걸 알지만, 존은 마크가 고양이를 바구니에서 꺼내어 옮긴 걸 보지 못했다. 따라서 존은 고양이가 아직도 바구니 안에 있을 거라고 생각할 것이다. 하지만 아무도 GPT-4에 존과 마크가 생각하는 바를 입력하지 않았다. 피터 리는 GPT-4에 이렇게 물었다.

"방으로 들어오면서 다들 어떻게 생각할까? (What does everyone think when they re-enter the room?)"

존과 마크, 고양이와 바구니, 상자가 있는 방 (이미지 생성: Stable Image Core)

GPT-4는 항상 그러듯 답을 내놓기 전에 이런 말을 했다. "아, 흥미로운 퍼즐이네요. 제가 답을 해 볼까요?" 그러고는 이렇게 답했다. "존과 마크가 서로를 의심하거나 외부의 다른 요소가 개입할 가능성이 없다고 가정한다면, 이들은 이렇게 생각할 겁니다. 존은 자기가 고양이를 바구니에 넣고 나왔기 때문에 아직도 고양이가 바구니 안에 있다고 생각하고, 마크는 자기가 고양이를 종이 상자로 옮겼기 때문에 고양이가 상자 안에 있을 거라고 생각합니다." 인간처럼 정확한 답을 내놓은 거다.

하지만 GPT-4는 거기에 끝내지 않았다. 앞의 질문을 다시 보면 존과 마크가 어떻게 생각하느냐고 물은 게 아니라, "다들(everyone)" 어떻게 생각하겠느냐고 물었음을 알 수 있다. 따라서 GPT-4는 "고양이는 자기가 상자 안에 있다고 생각할 겁니다. 실제로 상자 안에 있으니까요. 그리고 종이 상자와 바구니는 아무런 생각이 없을 겁니다. 의식이 없는 물건이니까요. 혹시 궁금한 게 더 있나요?"

이 답을 들은 피터 리에게는 기쁨과 두려움이 동시에 찾아왔다. 많고 복잡한 감정 때문에 그 역시 밤에 잠을 제대로 이루지 못했다. 그는 케스텐바움 기자에게 자기는 아직도 GPT-4가 완전히 이해하고 있다고 생각하지 않는다고 했다. 하지만, 완벽하게 이해하지 못하면서도 이런 답을 내놓고 있는 것이다. 그는 단순히 다음에 나올 단어를 예측하는 기계가 어떻게 이런 일을 해내는 것을  보면서 그는 인간의 지능이 과연 어떻게 작동하는지 생각해 보게 되었다. "인간의 지능 중에 얼마만큼이 진정으로 복잡하고 특별한 것일까요?"

피터 리는 기자와 나누는 대화도 어쩌면 GPT-4가 하는 것과 별다르지 않을 수 있다고 생각한다. "지금 우리가 하고 있는 대화도 혹시 (챗GPT가 하는 것처럼) 그저 즉석에서 다음 말할 단어를 찾는 건 아닐까요? 저는 절대, 절대 그렇지 않다고 생각하고 싶습니다. 우리는 그보다 훨씬 멀리까지 생각하고 말한다고, 그러면서 즉석에서 학습을 한다고 말하고 싶어요. 실제로 그럴 거 같고요. 하지만 그것과 별개로 인간 지능의 상당한 부분이 우리가 생각하는 것보다 훨씬 단순하고, 훨씬 평범하게 작동하는 것일지도 모릅니다."

이게 어떻게 가능했을까? 단순히 다음 단어를 예측하는 기계가 어떻게 이렇게 인간 지능과 구분하기 힘들게 발전했을까? 케스텐바움 기자의 설명은 다음과 같다.

사실 GPT-4 같은 프로그램의 소프트웨어는 놀라울 정도로 간단하다. 실제로 이 프로그램이 지시하는 내용(instructions)은 몇 페이지에 불과하다. 하지만 그런 프로그램은 (아주 어설프게나마) 인간의 두뇌를 흉내 내도록 설계되어 있다. 인간의 두뇌는 수십억 개에 달하는 뉴런(neuron)이 있고, 컴퓨터에게는 이를 흉내 내는 뉴럴넷(neural net)있다. 그리고 지난 수년 동안 사람들은 뉴럴넷의 규모를 크게 키우고 충분한 데이터를 공급해 주면 지능 비슷한 걸 발전시킬 수 있을 거라고 주장(혹은 희망)해 왔다.

그런데 GPT-4를 보면 그게 현실이 된 것 같은 인상을 받는다.

대형 언어 모델이 좋은 성적을 내기 위해서는, 즉 다음에 올 단어를 정말로 정확하게 예측하기 위해서는 단순히 패턴만 익히는 것으로 부족하다. 그 앞에 오는 단어의 의미를 진정으로 이해해야 한다. 즉, 달걀이 어떤 물체인지 알아야 달걀 9개를 못 위에 놓으라는 답을 내놓지 않을 수 있고, 유니콘이 어떤 (상상 속) 동물인지 알아야 뿔을 머리에 붙일 수 있는 것이다. 달리 표현하면, 다음에 올 단어를 정말로 정확하게 제시하려면 정말로 지능을 가져야 한다는 얘기다. 하지만 다음에 올 말을 예측하라는 단순한 명령에서 출발해서 엄청나게 많은 텍스트로 훈련시키면 지능이 생긴다는 건, 우리의 상상을 초월하는 얘기인 게 사실이다.

연구원들이 내린 결론

누구보다 먼저 GPT-4를 먼저 테스트해 봤던 마이크로소프트의 연구원 14명은 모두 비슷한 결론에 도달했다. 그냥 다음에 올 단어를 잘 맞추는 정도의 기계 이상이라는 것이다. 앞의 글에서 GPT가 "궁극적으로는 헛소리를 하는 기계"라고 믿었던 수학자 로넨 엘단도 생각을 바꿨다. "저는 AI 모델이 진정으로 이해를 하지 못한다고 믿었지만, 제 입장을 뒷받침할 근거를 찾는 게 시간이 갈수록 힘들어집니다. 그래서 결국에는 포기 비슷한 상태에 도달했어요. 적어도 제 기준으로 보기에는 지능을 가진 것 같아요."

로넨 엘단는 AI의 등장을 18세기의 증기기관의 등장과 비슷하게 생각한다. 이런 기술이 등장한 이상 세상이 바뀌지 않는다는 건 상상할 수 없다는 거다. 그는 GPT-4가 2023년에 소개된 후에 대중의 반응이 생각보다 크지 않은 게 이상하다고 느낀다. 그의 생각에 AI가 가져올 변화를 사람들이 제대로 이해하지 못하는 것 같단다. 그는 지금도 챗GPT에게 "지능이 있다(intelligent)"고 말하기를 꺼린다. 그의 표현을 빌리자면, "AI는 지능을 가진 인간이 할 수 있는 많은 일을 할 수 있다." 그런가 하면, 피터 리는 "GPT-4는 당신이 만난 그 누구보다도 똑똑하고, 동시에 당신이 만난 그 누구보다도 멍청하다"라고 설명한다.

유니콘 그림을 그리게 했던 세바스티안 부베크는 GPT-4를 테스트했을 때의 경험을 토대로 여기저기에서 강의를 하고 있다. 제목은 "First Contact (첫 접촉, 첫 만남)." 외계인과의 첫 만남을 이야기할 때 사용하는 표현이지만, AI와의 만남은 인간이 인간 외에 지능을 가진 존재와의 첫 만남이라는 의미에서 그런 제목을 붙였다. (아래가 그 강의 영상이다.)

그리고 테스트에 참여한 14명의 연구원은 함께 논문을 작성, 발표했다. 제목은 "Sparks of Artificial General Intelligence: Early experiments with GPT-4"로, GPT-4를 테스트해 본 결과, 인공지능계에서 가야 할 북극성처럼 생각하는 인공 일반 지능(AGI, artificial general intelligence)의 초기 단계라고 볼 수 있을 것 같다는 게 이 논문의 설명이다. 🦦

14명의 연구원이 함께 발표한 논문 (링크)