샌프란시스코에 가게 될 일이 있을 때마다 묵는 호텔이 있다. 샌프란시스코 금융지구(Financial District)의 서쪽 경계와 이 도시의 상징과도 같은 차이나타운이 만나는 곳에 있는 이 호텔은 인테리어는 약간 낡은 느낌이 들지만 전망과 위치가 더할 나위 없이 좋기 때문에 (텔레그래프 힐의 코이트 타워와 페리 빌딩까지 걸어서 갈 수 있는 건 물론이고, 좋은 딤섬 식당들이 주변에 있다) 굳이 다른 호텔을 찾을 이유가 없다.

그런데 이곳에 묵으면 몇 년째 변함없이 보는 의아한 풍경이 있다. 아니, 샌프란시코와 실리콘밸리를 포함하는 베이지역(Bay Area) 일대에서 쉽게 보는 풍경이다. 바로 자율주행 차량이다. 그렇다고 차만 돌아다니는 건 아니고, 안에는 많게는 네 명, 적어도 한 명이 앉아 있다. 카메라와 센서가 잔뜩 부착된 차량을 보는 게 낯설지 않은 세상이지만, 내가 의아하게 생각하는 이유는 웨이모(Waymo), 죽스(Zoox) 같은 몇 개 회사의 시험차량이 같은 도로, 똑같은 지점을 지나는 것을 머무는 동안 하루에도 여러 차례씩, 몇 년 동안 변함없이 보기 때문이다. 같은 길을 수백, 수천 번을 다녀야 할 필요가 있을까?

나는 이들 업체의 차량이 도로 풍경(street view)을 촬영하는–가령, 구글 지도(Google Maps) 같은–지도 서비스 업체처럼 그 도로 상의 정보를 수집하는 것에 불과하다면, 같은 길을 그렇게 많이 돌아다닐 게 아니라 더 많은 지역을 찾아다녀야 하는 게 아닌가 생각했다.

자율주행 차량 기업인 Zoox의 시험차량 (이미지 출처: The Last Driver License Holder)

그렇지 않다. 그 이유를 설명하기 위해서는 '모라벡의 역설(Moravec's Paradox)'을 이야기해야 한다. 그런데 마침 최근 애틀랜틱에 등장한 기사에 좋은 설명이 있기 때문에 이를 바탕으로 얘기를 풀어보자.

오터레터에서 앞의 다섯 편의 글로도 소개했지만 사람들은 작년 이후로 등장하는 AI의 능력에 충격을 받았고, 인류 사회가 AI의 위협을 받고 있다고 진지하게 걱정하기 시작했다. 그런데 이렇게 우려하는 사람들 중 상당수가 SF 소설이나 영화에 바탕한 '물리적인 로봇의 지배'라는 이미지를 떠올리는 게 사실이다. 하지만 이런 물리적인 로봇은–일 년에 몇 번씩 등장해서 우리를 놀라게 하는 보스턴 다이내믹스의 영상들을 제외하면–챗GPT와 같은 폭발적인 진전을 보이는 것 같지 않다. 따라서 챗GPT의 인기가 솔직히 부럽다는 로봇 연구자들도 있다.

물론 어느 업계나 빛이 들기 전에는 자신이 쥐구멍에 있다고 생각한다. AI 연구자들은 같은 테크업계에 있으면서도 자신들은 오래도록 주목을 전혀 받지 못한다고 생각했고, 최근의 인기가 실감이 나지 않는다고 말한다. 그렇다면 물리적인 로봇들도 챗GPT와 같은 폭발적 인기를 누리게 되는 날이 곧 오게 될까? 아직 알 수는 없지만, '인공 신체(artificial bodies)'를 만드는 것이 '인공 두뇌 (artificial minds)'를 만드는 것보다 더 어렵다는 말이 있다. 언뜻 생각하면 그 반대가 맞을 것 같지만, 업계에서는 제법 유명한 주장으로, 모라벡의 역설이 나온 배경이다.

한스 모라벡 (이미지 출처: HNF Blog)

1948년 오스트리아에서 태어난 한스 모라벡(Hans Moravec)은 컴퓨터 공학자로, 로보틱스와 AI를 연구한 미래학자이면서 과학기술을 통해 인간의 정신과 육체를 개선하려는 트랜스휴머니즘(Transhumanism)과 관한 글을 많이 썼다. (그의 웹사이트는 인터넷 초창기의 느낌이 물씬 난다.) 그는 1988년에 출간한 책에서 컴퓨터는 수학과 체스, 아이큐테스트처럼 사람들이 흔히 어렵고 복잡하다고 생각하는 일은 잘하는데, 오히려 "지각(perception)이나 이동성(mobility)처럼 한 살짜리도 할 수 있는 일은 제대로 해내지 못한다"라고 평가했다. 그리고 그로부터 6년 후인 1994년, 유명한 인지심리학자 스티븐 핑커(Steven Pinker)는 모라벡의 주장을 발전시켜 "지난 35년 간의 인공지능 연구로 알게 된 사실은 '어려운 문제는 쉽지만, 쉬운 문제는 어렵다(the hard problems are easy and the easy problems are hard)'는 것이라고 했다. 이게 훗날 '모라벡의 역설'로 불리게 된 주장이다.

1980, 90년대에 나온 얘기가 최근 다시 주목을 받고 있는 이유는 지난 몇 년 동안 AI의 연구는 장족의 발전을 보인 반면, 로보틱스는 상대적으로 발전이 느려 보이기 때문이다. 이유가 뭘까?

학습과 훈련의 문제

가장 눈에 띄는 것은 두 영역에서 연구하는 엔지니어의 수가 차이 난다는 사실이다. 특정 분야에 인력이 얼마나 모이냐를 결정하는 건 돈이다. 그런데 투자자들 사이에는 전통적으로 로보틱스에 투자했을 때 수익이 크지 않다는 생각이 있다고 한다.

그리고 기업이 로봇을 개발할 경우 이를 통해 배운 내용은 공유되지 않는 경우가 흔하다. AI는 반대로 오픈소스가 하나의 원칙(norm)처럼 여겨지는 분야다. 마이크로소프트의 대규모 투자와 성공으로 지금은 상황이 많이 달라졌지만, 챗GPT를 만든 오픈AI는 바로 이런 오픈소스의 정신에 기반해서 작동했다.

게다가 사고가 날 경우의 손해도 차원이 다르다. AI를 실험하다가 문제가 발생할 경우 재부팅을 하고 새로 시작하면 되지만, 물리적인 로봇에 문제가 발생하면 수천 달러의 수리 비용이 날아갈 수 있다.

더 큰 문제는 물리적인 로봇의 경우 학습에 필요한 데이터를 얻기가 쉽지 않다는 것이다. AI를 훈련하기 위해서는 엄청난 양의 "원자재" 즉, 데이터가 필요한데, 대용량 언어모델(LLM)의 경우 그 원자재는 텍스트라서 구하는 게 어렵지 않다. (물론 세상에 존재하는 텍스트를 다 읽은 후에는 어떻게 할 거냐는 얘기도 나온다.) 최근 AI가 크게 발전한 배경에는 이런 훈련용 데이터를 구하기 쉬운 AI라는 이점이 있었다.

하지만 똑같은 머신러닝(기계학습)을 물리적인 로봇에 적용하려면 얘기가 달라진다. 사람들은 텍스트를 끊임없이 만들어내는 반면, 가령 걷는 로봇의 학습에 필요한 관절과 근육의 움직임 따위를 기록하는 사람은 없다. 따라서 이런 정보는 실험실에서 피험자를 데려다가 센서를 잔뜩 부착하고 트레드밀(러닝머신)을 걷게 해서 촬영, 기록하고 데이터화해서 로봇의 학습에 공급해야 한다. 노동력이 많이 들어가는 과정이다. 그럼 그 과정도 자동화하면 안 되느냐는 질문이 나오겠지만, '좋은 데이터를 얻기 위해서는 발전된 로봇이 필요한데, 발전된 로봇을 만들려면 좋은 데이터가 필요하다'는 순환논리가 만들어진다. 취직을 하려면 경력이 필요한데, 경력을 쌓으려면 취직을 해야 하는 노동시장과 비슷한 꼴이다.

이렇듯 학습을 자동화하기 힘들다 보니 유튜브 영상으로 우리에게 익숙한 보스턴 다이내믹스의 로봇과 같은 것들은 머신러닝을 거의 사용하지 않고 연구원이 직접 튜닝을 한다. 그 결과, 이런 로봇들은 일일이 가르친 기능들은 잘 수행해도 다양한 환경에 적응하기 힘들다.

샌프란시스코 시내를 돌아다니는 웨이모 차량 (이미지 출처: 웨이모의 공식 블로그)

지속되는 모라벡의 역설

문제는 물리적인 세계는 언어, 텍스트보다 훨씬 복잡하다는 데 있다. 이게 모라벡의 역설의 핵심이다. 인간은 걷고, 뛰고, 쥐고, 던지는 행동은 쉽게 하지만, 체스를 하거나, 글을 쓰거나, 수학 문제를 푸는 건 힘들어한다. 그러나 인간이 쉽게 하는 행동은 사실 훨씬 더 복잡한 기능을 수행하고 있고, 인간이라는 동물은 아주 오랜 세월을 통해 이런 기능을 마스터했을 뿐이다.

AI가 기반한 언어모델이 가능한 언어의 조합을 통해 답을 얻어내는 작업은 엄청난 일임에 틀림없지만, 로봇이 처하게 되는 물리적 세계의 종류와 비교할 수 없다. 사진이나 짧은 영상에 담긴 정보–사물의 모양과 색과 움직임 등등–를 모두 말로 설명해서 텍스트로 남기는 작업을 생각해 보면 쉽게 이해할 수 있다.

그렇다면 빠르게 텍스트를 소화하고 학습하는 AI와 달리 자율주행 시험차량들은 왜 몇 년 동안 똑같은 길을 끊임없이 오가는지 어느 정도 짐작할 수 있다. 이들은 배워야 할 게 훨씬 많은 물리적인 세상에서 천천히 학습 중인 셈이다.

연구자들 중에는 이렇게 물리적 로봇의 발전 속도가 AI에 비해 느린 것이 궁극적으로는 AI에도 문제가 될 수 있다고 우려하는 이들이 있다. 우리가 사는 물리적인 세상은 언어로 표현되지 않는 정보가 엄청나게 많은데, 단지 텍스트와 이미지만으로 훈련한 AI로는 인간 수준의 이해와 지능에 도달하기 힘들다는 게 그들의 생각이다. 이를 해결하기 위해서는 AI가 물리적인 로봇의 몸에 들어가 물리적인 세상 속에서 상호작용을 하면서 배워야 하는데, 현재의 로보틱스 발전 수준으로는 빠른 시일 내에 이런 일은 기대할 수 없다는 거다.

애틀랜틱의 기사는 이런 상황을 알면 영화 '2001 스페이스 오디세이'의 유명한 대사는 조금 다르게 들린다는 농담으로 끝난다.

(이미지 출처: 유튜브 캡처)