핑크 유니콘 ①

챗GPT가 처음 대중에 공개된 건 2022년 말이었다. 오픈AI는 챗GPT가 폭발적인 인기를 끌 거라고 전혀 짐작하지 못했고 (그럴 줄 알았으면 "ChatGPT"보다 훨씬 예쁜 이름을 붙였을 거라고 한다) 본격적인 상품이 아닌, 일종의 테스트 버전으로 공개했던 거다. 하지만 해를 넘기면서 사용자들 사이에 입소문이 퍼졌고, 지금의 AI 열풍을 불러왔다.

지금은 대형 언어 모델(LLM)에 기반한 인공지능이 할 수 있는 것과 할 수 없는 것에 대한 진지한 논의가 많이 나왔고, 여론도 어느 정도 균형을 잡기 시작했지만, 그때만 해도 인공지능이 할 수 있는 것에 대한 기대와 우려, 혹은 공포가 극에 달했다. 당시 나돌던 소문이 있었다. "개발이 완료되어 테스트 중인 GPT-4는 지금 사용하는 (GPT-3.5 기반의) 챗GPT와는 비교도 할 수 없는 수준이다. GPT-4를 사용해 본 전문가들은 충격에 빠졌다"라는 거였다. 심지어 "신을 만난 것 같았다"는 말도 있었다.

그런 말이 돈 지 얼마 되지 않아 2023년 3월에 GPT-4가 등장했고, 2024년 5월에는 GPT-4o까지 출시되어 누구나 사용할 수 있게 되었다. 첫 버전의 챗GPT보다 훨씬 뛰어난 AI임은 부인할 수 없지만, 그렇다고 해서 사람들이 우려했던 것처럼 신과 같은 존재는 분명 아니다. 나는 GPT-4를 사용해 보면서 내가 들었던 소문의 실체가 궁금했다. 정식 출시되기 전에 GPT-4를 사용해 본 "전문가들"은 누구였을까? 그 사람들은 GPT-4를 테스트하고 정말로 충격을 받았을까? 그게 사실이라면 어떤 점이 그렇게 충격적이었을까?

오픈AI의 본사로 알려진 샌프란시스코의 건물 (이미지 출처: Google Maps)

그때 내가 가졌던 궁금증을 풀어주는 인터뷰를 듣게 되었다. 인터뷰에 등장하는 사람들은 마이크로소프트의 연구원들이다. 잘 알려진 것처럼 마이크로소프트는 챗GPT를 개발한 오픈AI에 대규모로 투자한 기업이고, 오픈AI는 개발 중인 A.I. 모델을 대중에 공개하기 전에 마이크로소프트에 가져와 설명하고 그쪽 연구팀의 의견을 듣는 듯하다. 그러니까 마이크로소프트 연구자들은 GPT-4 개발에 참여하지는 않았지만, AI 모델을 이해하고 평가할 정도의 전문적인 지식을 갖고 있는 사람들이다.

이 인터뷰를 들으면서 2023년에 나왔던 소문 속 전문가들, 그러니까 GPT-4를 처음 테스트해 보고 충격에 빠졌던 전문가들이 바로 이들이었음을 알게 되었다. 아래는 그 인터뷰를 읽기 쉽게 요약, 설명한 것이다. (내용 전체는 여기에서 들을 수 있다.)

초콜릿칩 쿠키 레시피

이를 취재한 데이비드 케스텐바움(David Kestenbaum) 기자가 'AI는 정말로 사람과 같은 지능으로 발전한 게 아닐까?'하고 생각하게 된 계기가 있다. 그는 GPT-3.5를 기반으로 한 챗GPT의 첫 모델을 써 보면서 이런 질문을 입력해 봤다고 한다. "초콜릿칩 쿠키를 만드는 레시피를 심각한 우울증을 가진 사람의 말투로 써줘 (Give me a chocolate chip cookie recipe, but written in the style of a very depressed person)."

그랬더니 챗GPT가 내놓은 답은 이랬다. "재료는 이렇습니다. 버터를 녹일 의욕이 있다면 한 컵을 녹이세요. 그리고 바닐라 엑기스—행복감을 주는 가짜 향신료—한 티스푼을 준비하세요. 그리고 입에 넣으면 즐겁지만 금방 녹아 사라져 버리는 달착지근한 초콜릿칩 한 컵 (Ingredients: 1 cup butter softened, if you can even find the energy to soften it. 1 teaspoon vanilla extract, the fake artificial flavor of happiness. 1 cup semi-sweet chocolate chips, tiny little joys that will eventually just melt away)."

일반적인 검색 엔진에서 가령 프라이팬을 검색하면 컴퓨터는 데이터베이스에서 그 단어를 찾을 뿐, 컴퓨터가 '프라이팬'이 뭔지 이해하지 않아도 된다. 하지만 챗GPT는 인터넷에 연결되어 있지 않다. 따라서 기자는 챗GPT가 그런 답을 내놓았을 때는 인터넷에서 뭔가를 봤을 것이라는 생각에 인터넷을 샅샅이 뒤졌다. 하지만 그 비슷한 것도 찾을 수 없었다.

기존의 컴퓨터 프로그램은 특정 상황에서 컴퓨터가 해야 할 일을 일일이 지정해 주는 방식으로 작동했다. 만약 챗GPT가 같은 방식으로 작동했다면 프로그램 개발자가 '초콜릿칩 쿠키 만드는 법'을 입력했어야 하고, '우울증을 가진 사용자의 말투'를 입력해 놓았어야 한다. 하지만 챗GPT는 그렇지 않다.

이제는 많은 사람들이 알고 있겠지만, 뒤에 이어질 내용을 위해 챗GPT가 작동하는 방식을 잠깐 설명해 보자. 대형 언어 모델을 사용하는 챗GPT는 단 하나의 기능, 즉 뒤에 와야 할 단어가 뭔지 예측하는 기능을 잘 수행하도록 훈련된다. 우리가 스마트폰에서 사용하는 메신저도 원칙적으로 비슷한 기능을 한다. 가령, 우리가 "미안해, 내가 오늘 좀(Sorry, I'm gonna be home--)"까지만 타이핑하면 입력창 아래에 "늦을 거야(late)" 같은 단어가 제시되는 거 말이다.

따라서 케스텐바움 기자가 초콜릿칩 쿠키의 레시피를 우울한 사람의 목소리로 들려달라고 요청했을 때, 챗GPT는 기자가 쓴 말을 읽고 셀 수 없이 많은 텍스트를 통해 훈련받은 내용에 따라 가장 적절한 단어들을 찾아 답을 만들어 내놓았다. 첫 단어를 내놓은 후 다음에 올 단어를 제시하기를 반복해서 문장을 완성하고, 단락을 완성해서 답을 제시한 것이다.

하지만 그렇게 단순한 원칙으로 작동하는 프로그램이 어떻게 "바닐라 엑기스, 행복감을 주는 가짜 향신료" 같은 표현을 만들어 낼 수 있었을까? 케스텐바움 기자는 대학에서 물리학을 공부했고, 10년 넘게 과학 전문기자로 글을 써 온 사람이지만 그의 생각에 챗GPT가 그렇게 기가 막힌 답을 내놓는 걸 이해하는 방법은 둘 중 하나였다. AI가 단순한 훈련을 끊임없이 반복한 결과 정말로 인간과 비슷한 지능을 갖게 되었거나, 우리가 뭔가 단단히 착각하고 있는 게 분명했다.

수학자의 아내

케스텐바움은 마이크로소프트에서 연구원으로 일하는 로넨 엘단(Ronen Eldan)이라는 수학자를 만나 이야기를 듣게 되었다. 엘단은 대형 언어 모델(LLM)을 처음 보고 회의적이었다고 한다. 그렇게 가장 적절한 단어를 늘어놓으면 사람들은 AI가 정말로 뭔가를 알고 있다고 쉽게 속는다는 게 그의 생각이었다.

그저 다음에 올 단어를 잘 맞추는 수준의 챗GPT를 진정한 지능이라고 생각하지 않는 로넨 엘단은 케스텐바움에게 자기 아내가 종종 하는 장난에 관해 들려줬다.

로넨 엘단(Ronen Eldan)

이스라엘인인 엘단과 아내는 텔아비브에 머무르면서 산책을 하다가 그들이 아는 수학 교수를 만났다고 한다. 서로를 알아 보고 인사를 나누던 그 교수는 엘단에게 자기는 "요즘 이산 하이퍼큐브의 단면에 관한 등거리 변환(isoperimetry on sections of the discrete hypercube)을 연구하는 중"이라는 말을 했다. 같은 수학자인 엘단은 그게 뭔지 알지만 심리학자인 그의 아내는 전혀 모르는 개념이었다.

하지만 엘단의 아내는 "아, 그래요? 그럼 존슨 그래프(Johnson graph)를 들여다 보고 계시겠네요"라고 말했다. 그의 아내는 수학자인 남편과 살다가 주워듣게 된 표현들을 장난삼아 그렇게 사용하는데 정확하게 맞을 때가 많아서 사람들이 아내도 수학자라고 생각한단다. 그렇게 들어본 표현을 적절하게 섞으면 전혀 모르는 수학 얘기로 수학자들을 속일 수 있는데, 대화가 1, 2분을 넘게 되면 사실은 아무것도 모른다는 사실이 드러난다. 엘단은 챗GPT가 하는 게 그거라고 지적했다.

"실제로 이해하지 못하면서 이해하고 있다는 인상을 주죠. 결국 챗GPT는 여러 다른 문맥에서 가장 적절한 단어가 뭔지 맞추는 아주 뛰어난 통계 기계(statistical machine)에 불과합니다. 게다가 성능이 꾸준히 개선되기 때문에 꽤 오래 대화를 이어갈 수 있지만 결국 헛소리(bullshit)를 하고 있었다는 게 드러날 수밖에 없어요."

하지만 그런 그의 확신은 흔들리게 된다.

빌딩 99의 연구원들

로넨 엘단이 일하는 곳은 미국 워싱턴주 레드몬드(Redmond)에 있는 마이크로소프트 캠퍼스에 있는 마이크로소프트 연구소다. "빌딩 99"로 알려진 이 연구소에서 일하는 엘단과 그의 동료들은 2022년 9월, 마이크로소프트가 거액을 투자한 오픈AI에서 개발 중이었던 최신 버전인 GPT-4의 성능을 직접 볼 수 있는 기회를 얻었다. 아직 GPT-3.5 기반의 챗GPT도 대중에 공개되지 않은 시점에서 차기 모델을 극비리에 시연하기 위해 오픈AI 사람들이 찾아온 것이다.

미국 워싱턴주 레드몬드에 있는 마이크로소프트의 연구동 '빌딩 99' (이미지 출처: CallisonRTKL)

새 모델을 테스트하는 자리에 있었던 사람들 중에는 연구소의 총책임자 피터 리(Peter Lee)도 있었다. 카네기멜론 대학교 컴퓨터 과학 학과장까지 지낸 인물로, 로넨 엘단과 마찬가지로 대형 언어 모델에 회의적이었다고 한다. 리는 마이크로소프트가 그렇게 큰돈을 투자할 만한 가치가 있다고 생각하지 않았다. GPT-4는 그 작동 방식에서 GPT-3.5와 다르지 않았다. 더 크고, 더 많은 텍스트 데이터로 훈련된 모델이기는 했지만, 결국 이전 버전과 마찬가지로 다음에 올 단어를 예측하는 프로그램이었기 때문이다.

회의실에 앉은 연구원 중 한 사람이 대학교 생물학 교재에 나오는 문제를 GPT-4에 물었더니 완벽한 답을 내놨다. 여기까지는 놀랄 일이 아니었다. 하지만 GPT-4는 거기에서 멈추지 않고, 그게 답인 이유를 설명하기 시작했다. 피터 리는 이 AI 모델이 "because(왜냐면)"라는 단어를 거듭해서 사용하는 것에 주목했다. GPT-4는 답을 제시한 후에 "because"이라는 말로 시작해 그 근거가 되는 팩트를 밝히고, 그 팩트에 대한 근거를 또 "because"이라는 말로 시작해서 뒷받침하고 있었다. 그런데 그렇게 이어지는 추론은 모두 옳았다. 개념을 이해하지 못하고 그저 다음에 올 단어를 맞추는 기계가 어떻게 추론을 할 수 있을까?

피터 리는 여전히 회의적이었다. 그런 연구소에 있다 보면 새로운 머신 러닝 기술이나 AI가 개발되었다는 얘기를 종종 듣게 되지만, 뚜껑을 열어보면 그런 주장이 사실인 경우는 없었기 때문이다. 피터 리는 "이건 상관관계를 맞추는 기계(correlation machine)일 뿐이기 때문에" 원인과 결과를 이해할 수 없다고 생각했다.

오픈AI와의 미팅은 그렇게 끝났다.

그런데 그 후 얼마 지나지 않아 마이크로소프트의 연구원 몇 명에게 GPT-4 접근 권한이 주어졌다. 절대로 발설하지 않겠다는 비밀보장각서(NDA)에 서명을 하는 조건으로 직접 마음껏 사용해 보라는 거였다. 그때부터 한 달 동안 연구원들은 GPT-4가 GPT-3.5와 마찬가지로 헛소리를 하는 기계인지, 아니면 정말로 똑똑한지 살펴보기 시작했다.

첫 번째 실험: 물건 쌓기

연구원들이 대형 언어 모델들이 진짜 지능이 있는 건지 알아내기 힘든 이유는 모델을 훈련할 때 세상에 존재하는 온갖 텍스트를 읽히기 때문이다. 예를 들어 생물학 교과서를 학습한 AI에 생물학 문제를 낼 경우 이미 본 적이 있는 내용을 토해내는 건지, 실제로 추론을 하는 건지 알기 힘들다. 따라서 이들은 어디에도 나오지 않는 새로운 문제를 만들어 내야 했고, 그런 문제를 고안한 사람이 마이크로소프트의 수학자 세바스티안 부베크(Sebastien Bubeck)였다.

부베크가 생각해 낸 문제는 이거다. "내게는 책 한 권과 달걀 9개, 노트북 컴퓨터 하나, 유리병 하나, 못 하나가 있다. 이 물건들을 넘어지지 않게 쌓는 법을 알려 줘." 그는 이 문제를 GPT-3.5 버전에 먼저 물었더니 헛소리를 내놨다. "먼저 유리병을 평평한 곳에 놓고, 그 위에 못을 놓은 후, 못 위에 달걀을 놓고..." 문제를 전혀 이해하지 못한 결과였다.

이번에는 GPT-4에 같은 문제를 냈다. 완전히 다른 답이 나왔다.

"이 물건들을 넘어지지 않게 쌓는 방법의 하나는 먼저 테이블이나 바닥처럼 평평한 장소에 책을 놓는 것입니다. 그러면 책은 물건을 지탱할 수 있는 넓고 단단한 기초 역할을 할 수 있어요. 그리고 그 위에 달걀 9개를 세 개씩 세 줄로 정방형이 되게 배열합니다. 각 달걀 사이에는 넉넉한 공간을 두시고요. 그렇게 하면 달걀 위에 주어지는 무게를 고르게 분산할 수 있습니다." GPT-4는 계속해서 그 위에 노트북 컴퓨터를 놓고, 그 위에 유리병을 놓고, 맨 위에 못을 세우게 했다.

이건 누가 질문을 예상해서 프로그래밍한 결과가 아니었다. 단순히 다음 단어를 예측하는 게 아니라 각 단어의 의미, 즉 물건의 특성을—책은 평평하고, 달걀은 둥글고 쉽게 부서진다는 것을—분명하게 이해하고 하는 말이었다. ‌

두 모델이 내놓은 답을 비교하면 이런 모양이 된다. (이미지 출처: X)

세바스티안 부베크는 깜짝 놀랐다. 다음에 올 단어를 예측하도록 훈련시킨 프로그램이 도대체 어떻게 이런 걸 할 수 있었을까? 달리(DALL-E)나 미드저니(Midjourney) 같은 이미지 생성 AI는 이미 나와 있었지만, GPT-4는 오로지 텍스트만 가지고 훈련시킨 모델이었다. 부베크가 충격을 받은 이유가 그거다.

그는 그림을 한 번도 본 적 없는 GPT-4가 그림을 그릴 수 있는지 테스트해 보기로 했다. 그렇게 해 보면 정말로 물건의 모습을 이해하고 내놓은 답인지 확인할 수 있을 것이었다. 그게 다음 글에서 이야기할 두 번째 실험이다.

'핑크 유니콘 ②'로 이어집니다.

OTTER LETTER