2013년 어느 날의 일이다. 독일의 한 건설회사에서 일하던 직원이 도면을 들여다보면서 뭔가 잘못되었다는 사실을 발견했다. 회사에서 건축하려는 집의 도면을 제록스 복사기로 복사했는데, 언뜻 보기에는 멀쩡한 복사본에 희한한 오류가 있었다. 그가 사용한 원본에는 방이 세 개 있었고, 크기는 조금씩 달랐다. 각각 14.13제곱미터, 21.11제곱미터, 그리고 17.42제곱미터였다.  

그런데 복사한 결과물에 적힌 세 방의 면적은 모두 14.13제곱미터로 적혀있었다. 멀쩡한 복사기에서 왜 이런 황당한 일이 일어났을까? 회사에서는 이 문제의 원인을 밝히기 위해 컴퓨터 과학자 다비드 크리젤(David Kriesel)에게 도움을 요청했다. 복사기의 문제를 파악하기 위해 컴퓨터 전문가를 부른다는 게 이상하게 들릴 수 있지만, 최신 복사기들은 과거의 광학 복사기와는 다른 원리로 작동하기 때문에 컴퓨터 프로그래밍을 이해하지 않으면 안 되기 때문이었다. 과학 소설계의 거장 테드 창(Ted Chiang)의 글 "ChatGPT Is a Blurry JPEG of the Web (챗GPT는 웹의 흐릿한 JPEG 이미지다)"은 이렇게 시작한다.

건설회사의 요청을 받은 컴퓨터 과학자가 밝혀낸 문제의 원인은 뭘까? 테드 창은 왜 그 얘기로 글을 시작했을까? 창의 글은 챗GPT를 비롯한 대형 언어모델 AI가 인터넷의 정보를 어떻게 학습하고 바꾸는지 설명하고 있다. AI와 인터넷(웹)의 미래, 글쓰기의 미래에 관해서는 많은 글이 나왔지만, 많은 경우 글쓰기가 주업이 아닌 컴퓨터 전문가들의 전망이거나, 테크를 잘 모르는 작가들의 분석이라는 점에서 컴퓨터 공학을 전공하고 과학소설을 쓰는 테드 창의 입장에서는 어떻게 생각하는지 궁금해서 읽게 되었다.

하지만 그의 전망을 있는 그대로 소개하는 대신, 뉴욕타임즈에서 테크 칼럼니스트로 활동했고, 애틀랜틱에서 갤럭시 브레인(Galaxy Brain)이라는 뉴스레터를 쓰고 있는 찰리 워즐(Charlie Warzel)이 조금 다른 방향에서 같은 문제를 보는 전망을 함께 소개하려 한다. 찰리 워즐의 글은 'This Is What It Looks Like When AI Eats the World (AI가 세상을 먹어 치우면 이런 모습이 될 것이다)'로, 여기에서 읽을 수 있다.

복사하기 전 원본의 이미지와 복사본에 등장한 방 넓이 비교 (이미지 출처: YouTube)

제록스 복사기가 도대체 무슨 일을 한 걸까? 테드 창은 문제가 생긴 과정을 이렇게 설명한다. 1960년대에 개발된 방식의 복사기들과 달리 최신 복사기들은 문서를 디지털 방식으로 스캔해서 디지털 파일로 만든 후, 그 파일을 프린트한다. 그런데 그렇게 하는 과정에서 저장 공간을 효율적으로 사용하기 위해 파일을 압축하는 과정을 거친다.

파일의 압축에는 인코딩(encoding, 부호화)과 디코딩(decoding, 해독)이라는 두 가지 작업이 요구된다. 인코딩 과정에서 스캔한 실제 이미지보다 작은 파일로 압축하고, 디코딩 과정에서 다시 원래대로 복구하는 것이다. 하지만 모든 파일이 "원래대로" 복구되는 건 아니다. 복구된 파일이 원본과 아무런 차이가 없을 경우 '무손실(lossless) 압축'이라고 부른다. 이 경우 아무런 정보가 손실되지 않은 것이다. 반면 '손실(lossy) 압축'의 경우, 원본에 가까운 파일이지, 완전히 똑같지는 않다.

테크업계에서는 손실, 무손실 방식을 필요에 따라 적용한다. 텍스트 파일, 컴퓨터 프로그램의 경우는 조금이라도 손실이 일어나면 큰일이니 무손실 방식을 택하지만, 사진이나 오디오, 영상의 경우 약간의 손실이 일어난다고 해서 중요한 내용이 바뀌는 것은 아니기 때문에 손실 압축을 적용한다. 완벽한 정확도가 중요하지 않은 경우에 사용한다. (짐작할 수 있는 것처럼, 손실 방식으로 압축된 파일을 다시 손실 방식으로 복제하는 과정을 여러 번 반복하게 되면, 마치 불법 복제된 음악 카세트테이프처럼 음질, 화질이 점점 더 떨어지게 된다.)

제록스 복사기는 손실 방식으로 이미지를 압축했다.

가수 릭 애스틀리(Rick Astley)의 오래된 움짤 (출처: IceGif)

그런데 어떻게 숫자가 바뀐 걸까? 컴퓨터가 이미지 파일을 압축하는 방법의 하나가, 이미지 속 동일한 것으로 판단되는 요소가 규칙적으로 반복될 경우 그중 하나만을 저장한 후 압축을 해제, 프린트할 때 그렇게 저장한 요소를 반복해서 만들어 내는 것이다. 제록스 복사기는 건설회사에서 애초에 만든 도면 중 "14.13제곱미터"라고 적힌 상자와 다른 면적을 표시한 상자를 동일한 것으로 파악했다. (사실 그 원본의 이미지 속 글자도 흐릿했지만, 사람의 눈으로는 구분이 되는데 기계는 같은 걸로 읽은 듯하다.) 그러니 저장 공간을 절약하기 위해 그중 하나(14.13제곱미터 상자)만 저장한 후에 출력하는 과정에서 나머지 방에도 그 면적을 적용해버린 거다.

테드 창은 이렇게 말한다. "만약 복사기가 단순히 흐릿하기만 한 이미지를 생산해 냈으면 (즉, 숫자를 읽기 힘든 수준으로 복사했으면—옮긴이) 사람들은 복사본이 원본에 충실하지 않다는 것을 알았을 것이다. 문제는 복사기가 읽을 수는 있는데 틀린 숫자를 출력했다는 데 있다. 정확하지 않은데 정확한 척한 셈이다." 다비드 크리젤이 이 문제를 찾아낸 덕분에 제록스는 자사 제품에서 이 문제를 수정할 수 있었다.

이쯤 읽으면 테드 창이 챗GPT가 틀린 정보를 자신있게 만들어 내는 환각(halluciation) 현상을 이야기하려는 것임을 대부분 눈치챘을 거다. 하지만 그는 이 문제를 인터넷, 웹의 차원에서 생각하니까 그의 말을 좀 더 따라가 보자.

"당신이 앞으로 영원히 인터넷을 사용할 수 없게 될 상황에 부닥쳤다고 가정해 보자. 어떻게 해야 할까? 인터넷에 있는 모든 정보를 개인 서버 컴퓨터에 다운로드해서 보관하면 되겠지만, 그렇게 하기에는 서버의 용량이 턱없이 부족하다. 계산을 해보니 당신의 컴퓨터는 필요한 용량의 1%에 불과한 크기다.

그래서 '손실 압축'을 하기로 했다. 당신의 컴퓨터는 용량은 제한적이지만, 엄청난 컴퓨팅 파워를 갖고 있기 때문에 인터넷 정보에서 규칙들(regularities)을 찾아낼 수 있다. 이렇게 해서 전체 인터넷 정보의 1%에 해당하는 서버에 쑤셔 넣을 수 있었다. 문제는 워낙 심하게 압축하다 보니 단어, 문장이 저장된 게 아니라서 원하는 정보가 담긴 정확한 원본 텍스트를 찾아낼 수 없다는 사실이다.

(출처: old windows icons)

이 문제를 해결하기 위해 새로운 인터페이스를 만들어 낸다. 당신이 물어보면 저장한 정보를 바탕으로 답을 주는 인터페이스다. 인터넷에 있었던 정보의 원본은 아니지만, 그 내용의 핵심과 크게 다르지 않은 답을 준다."

이게 바로 챗GPT를 비롯한 대형 언어모델(LLM) AI들이다. 이들 AI는 웹에 있는 텍스트의 흐릿한 복사본과 같다. 챗GPT에서 얻을 수 있는 답은 대체로 맞지만, 궁극적으로 실제 정보의 근사치(approximation)에 해당한다. 문제는 이런 근사치에 해당하는 답을 워낙 자신만만하게 내놓으니 제록스 복사기가 만들어 낸 사본을 보는—그러나 원본은 본 적이 없는—사람들처럼 오류가 있을 거라고 생각하기 힘들다는 데 있다. 대형 언어모델이 만들어 내는 환각(hallucination)이 바로 그거다.


테드 창은 흥미로운 이야기를 하나 더 들려준다. 현재 구글 딥마인드에서 인공지능을 연구하는 마커스 허터(Marcus Hutter)가 2006년에 만들어 시작한 상인 허터상(Hutter Prize, 공식 명칭은 Prize for Compressing Human Knowledge)이다. 이 상을 받을 수 있는 기준은 단순하다. 위키피디아에 있는 1기가바이트 분량의 특정 정보를 무손실 방식을 사용해서, 한 해 전 수상자보다 더 작게 압축하면 된다.

하지만 허터상은 단순한 압축 기술의 발전을 도모하려는 게 아니다. 허터는 텍스트를 압축하는 기술이 인간 수준의 AI를 만들어 내는 데 필수적이라고 믿는다. 특정 텍스트를 가장 완벽하게 압축하는 방법은 그 텍스트를 이해하는 것이기 때문이다. 이게 무슨 말일까?

덧셈, 뺄셈, 곱셈, 나눗셈의 예가 수백만 개 들어 있는 텍스트 파일을 상상해 보자. 그 많은 예를 전부 그대로 저장할 수도 있지만, 계산기 소프트웨어를 만들어 저장하면 모든 예를 일일이 넣을 필요가 없어진다. 같은 방식으로, 만약 AI가 '공급과 수요의 법칙'을 정말로 이해한다면 위키피디아에서 경제학을 비롯한 많은 페이지의 정보를 크게, 그리고 손실 없이 압축할 수 있게 된다. 이게 마커스 허터가 생각하고, 테드 창이 설명하는 압축과 이해 사이의 관계다. 그리고 그들이 생각하는 인공지능(혹은 그냥 '지능')은 궁극적인 압축, 즉 원리를 이해할 수 있는 능력과 차이가 없음을 충분히 짐작할 수 있다. 대형 언어모델이 하는 것은 결국 텍스트에서 규칙들을 찾아내는 것이다.

테드 창은 이렇게 묻는다. "만약 대형 언어모델이 경제 용어들 사이에 존재하는 연관 관계들을 많이 모아서 다양한 질문에 답할 수 있게 된다면 그 AI는 경제 이론을 이해했다고 말할 수 있을까?"

마커스 허터가 설명하는 지능(intelligence)

그런데 여기에—적어도 GPT-3 단계에서—심각한 문제가 있다. 챗GPT가 수학에 영 소질이 없다는 사실이다. 물론 지금은 많이 개선되었지만, 챗GPT가 처음 나왔을 때 사람들은 이 AI가 두 자리 숫자 계산은 문제없이 하는데, 숫자가 세 자리를 넘어가게 되면 단순한 덧셈도 틀린다는 사실을 발견했다. 하지만 같은 AI 모델이 특정 주제에 대해서 글을 쓰라고 하면 웬만한 대학생 수준의 작문을 해내는 건 어떻게 해석해야 할까?

테드 창은 이 문제를 독특한 시각으로 바라본다. 글쓰기에서는 손실 방식으로 전달하는 게 무손실 방식으로 전달하는 것보다 똑똑해 보인다는 거다.


'인터넷의 흐릿한 이미지 ②'로 이어집니다.