인터넷을 지켜온 작은 파일 ②

지금 robots.txt에 특정 로봇을 허용하는지 여부를 밝히는 것은 이 파일이 처음 고안되었던 시절처럼 웹사이트가 사용하는 컴퓨팅 자원을 걱정해서라기보다는, 웹사이트 관리자의 선호와 관련이 있다는 게 구글의 검색 부문에서 일하는 존 뮬러(John Mueller)의 설명이다. "크롤러가 내 웹사이트에서 어떤 정보를 가져가 색인화하게 할 거냐"의 문제라는 것이다.

웹사이트를 운영하는 사람들이 전통적으로 고민하던 질문은 '구글봇(Googlebot)이 내 웹사이트를 크롤링하게 허락할 것인지' 여부였다. 허용할 경우 (검색 엔진과 웹 사이트 사이에) 어떤 거래가 이뤄지는지는 분명하다. 구글이 특정 페이지를 크롤링하면 그걸 색인화하게 되고, 검색 결과에서 그 페이지를 보여주는 것이다. (물론 구글이 그 웹 사이트를 검색 결과 페이지의 어디에서 어떻게 보여주느냐는 완전히 다른 얘기다.) 문제는 구글이 내가 내는 망 사용료를 증가시키고, 내 사이트가 보여주는 정보를 다운로드하는 것을 허용하는 대가로 검색 결과에서 내 사이트를 얼마나 눈에 띄게 해주느냐이다.

대부분의 웹사이트로서는 이건 고민할 문제가 아니다. 미디엄(Medium)의 CEO인 토니 스터블바인(Tony Stubblebine)은 "구글은 우리 웹사이트를 찾아오는 가장 중요한 스파이더(크롤러)"라고 말하다. 미디엄은 구글이 미디엄의 페이지를 모두 다운로드할 수 있게 허용한다. "그 대가로 우리는 구글 검색 결과를 통해 상당한 트래픽을 받는다. 이게 윈윈이라는 건 누구나 알고 있다." 구글은 사실상 인터넷 전체와 이런 계약을 한 셈이다. 검색 결과를 보여주는 페이지에서 광고를 팔아 돈을 버는 대신, 각 웹사이트에 트래픽을 몰아 주는 것이다. 게다가 구글은 robots.txt 파일의 프로토콜을 성실하게 지켜왔다는 게 중론이다. 뮬러에 따르면 "유명한 검색 엔진들은 대부분 robots.txt 프로토콜을 따른다. 이들은 웹을 크롤링하고 싶어 하기 때문에 프로토콜을 무시해서 관리자들을 화나게 할 생각이 없다. 그저 모두가 불만이 없는 게 그들에게 좋다."

오픈AI의 샘 알트만과 마이크로소프트의 사티아 나델라 (이미지 출처: WIRED)

이렇게 서로에게 이득이 되는 거래는 약 1년 전 AI의 급성장으로 끝났다. 웹사이트나 플랫폼을 운영하는 많은 사람들이 크롤러가 찾아와 AI 훈련용으로 데이터를 긁어가는 것을 거래가 아닌 절도 행위처럼 느끼고 있다. 미디엄의 스터블바인에 말에 따르면, "AI 기업들은 우리와 가치를 교환하지 않기 때문에 우리가 얻는 게 없다는 데 그치는 게 아니다. AI 기업들은 작가들에게서 가치를 빨아내어 인터넷 독자들에게 AI가 만들어 낸 스팸 콘텐츠를 퍼붓고 있다." 미디엄은 지난해 가을, AI 크롤러의 접근을 막겠다고 발표했다.

미디엄만 그렇게 생각하는 게 아니다. 많은 미디어 기업들이 스터블바인과 비슷하게 느끼고 있다. BBC의 디렉터인 로드리 탈판 데이비스(Rhodri Talfan Davies)는 지난가을에 BBC가 오픈AI의 크롤러의 접근을 막는다는 발표를 하면서 "우리는 AI 기업들이 생성형 AI 모델들을 훈련하기 위해 BBC의 데이터를 '긁어가는' 지금의 행위가 공공에 이익이 되지 않는다고 생각한다"라고 했다. 뉴욕타임즈 역시 오픈AI의 GPTBot을 막았을 뿐 아니라, 그 발표를 하고 몇 달 뒤, 오픈AI를 상대로 소송을 제기했다. 오픈AI의 모델들이 "뉴욕타임즈에게 저작권이 있는 뉴스 기사와 심층 취재, 오피니언 칼럼, 리뷰, 사용법 안내서(how-to guides) 등을 바탕으로 만들어졌다"라는 게 이 신문사의 주장이다. 로이터 에디터인 벤 웰시(Ben Welsh)의 연구에 따르면, 그가 조사한 1,156개의 퍼블리셔 중에서 606곳이 자기네 robots.txt 파일에서 GPTBot의 접근을 막는다고 적어 놓았다.

웹 퍼블리셔만 그러는 게 아니다. 아마존, 페이스북, 핀터레스트, 위키하우(WikiHow), 웹MD 같은 플랫폼들도 자기네 웹사이트의 전체, 혹은 일부에 GPTBot의 접근을 불허한다고 분명하게 밝히기 시작했다. 이런 robots.txt 페이지에서 내놓고, 완전하게 접근 금지를 당하는 것은 오픈AI의 GPTBot이 유일하다. 하지만 웹을 돌아다니는 AI 로봇은 GPTBot 외에도 많이 있다. 가령 앤스러픽(Anthropic)은 anthropi-ai를 사용하고, 구글은 Google-Extended라는 새로운 로봇을 웹에 풀어놓았다. 오리지낼리티AI(Originality.AI)에서 지난가을에 발표한 연구에 따르면 상위 1,000개의 웹사이트 중 306개에서 오픈AI의 로봇을 불허하고 있지만, (똑같은 작업을 하는) 구글의 로봇을 막는 곳은 85개, 앤스러픽의 로봇을 막는 곳은 28개에 불과하다.

그뿐 아니다. 이런 로봇 중에는 웹 검색과 AI 훈련용을 겸하는 것들도 있다. 가령 CCBot이라는 크롤러는 커먼크롤(Common Crawl)이라는 단체가 검색 엔진용으로 웹의 콘텐츠를 가져가는데, 오픈AI와 구글 같은 기업들은 CCBot이 긁어온 데이터를 자사 AI 모델의 훈련에 사용한다. 마이크로소프트의 Bigngbot 역시 검색 엔진용과 AI용을 겸하고 있다. 두 가지 용도를 겸하고 있다고 직접 밝히고 있는 것들이 그렇다는 얘기고, AI 훈련용이라고 밝히지 않고 들어가는 로봇들은 막기는커녕, 망망대해 같은 웹 트래픽에서 찾아낼 수도 없다. 제법 알려진 웹사이트의 경우라면 그렇게 정체를 숨기고 들어오는 크롤러를 찾는 건 짚단에서 바늘을 찾는 것만큼 어려운 일이다.

역설적으로 들리겠지만, 오픈AI의 GPTBot이 각종 웹사이트의 robots.txt에서 막아야 하는 악당의 대명사처럼 된 것은 오픈AI가 자사의 로봇을 막을 수 있게 했기 때문이다. 오픈AI는 자사의 GPTBot을 어떻게 막을 수 있는지를 자세히 설명한 문서를 발행하고 이를 널리 알렸을 뿐 아니라, GPTBot이 웹사이트에 들어갈 때 자신의 정체를 분명하게 알리도록 설계했다. 물론 오픈AI는 기본적인 AI 모델의 훈련을 마치고, 강력한 모델을 만들어 내고, 그 결과로 테크 생태계에서 중요한 플레이어가 된 후에야 비로소 그렇게 하기 시작했다.

미국은 엄청난 양의 핵실험을 수행해서 데이터를 모아 실제 폭발 없이도 컴퓨터 시뮬레이션을 통해 핵실험을 진행할 수 있게 된 후에야 전세계적으로 핵실험을 금지하는 조약을 추진했다. (이미지 출처: Business Insider)

하지만 오픈AI의 전략 총괄(CSO)인 제이슨 권(Jason Kwon)은 그렇게 하는 게 중요했다고 말한다. 그는 오픈AI가 테크 생태계에 하나의 플레이어라고 말하면서 "열린 방식으로 이 생태계에 참여하고 싶다면 이게 모두가 관심을 가질 만한 호혜적인 거래"라고 했다. 이런 방식이 아니면 웹은 작아지고, 닫힌 공간으로 변해서 오픈AI뿐 아니라 모두에게 좋지 않다는 것이다. "저희는 웹이 계속해서 열린 공간이 되도록 이렇게 하는 겁니다."

(이름이 주는 인상과 달리) '로봇 배제 프로토콜'은 허용을 기본으로 하고 있다. 30년 전에 이걸 만든 마틴 코스터가 그랬던 것처럼, 이 프로토콜은 대부분의 로봇이 좋은 의도로 만들어졌다고 믿는다. 따라서 로봇이 들어오는 것을 허용하는 것이 이 프로토콜의 디폴트다. 이건 옳은 결정이었다. 제이슨 권은 "인터넷은 기본적으로 사회적 산물"이라고 생각한다. 그리고 이렇게 법적 강제력 없이 서로의 의사를 존중해주는 합의만으로도 인터넷은 수십 년 동안 잘 작동해 왔다. 그는 오픈AI가 이 합의를 존중하는 차원에서 챗GPT를 대부분의 사용자들에게 무료로 제공하고 있다고 말한다. 그렇게 함으로써 로봇의 규칙을 지키고 가치를 되돌려 준다는 거다.

하지만 robots.txt는 법적 효력을 가진 문서가 아니다. 만들어진 지 30년이 지난 지금도 여전히 관련 당사자들이 그저 선의로 이를 존중할 것이라는 기대에 기반하고 있다. 그저 웹사이트의 robots.txt 페이지에 어떤 로봇이 들어오면 안 된다고 적어 놓는 건, 남자애들이 만든 아지트에 "여자애들 출입금지(No Girls Allowed)"라고 적어 놓은 정도에 지나지 않는다. 무슨 얘기를 하려는지는 이해하지만, 그렇게 적었다는 이유로 법정에 가서 이길 수 있는 건 아니라는 거다. 어떤 크롤러가 robots.txt에 적힌 내용을 무시하려면 얼마든지 무시할 수 있다. 그렇다고 해서 큰 일이 생길 가능성도 거의 없다. (웹에서 데이터를 긁어간 것을 두고 법적 분쟁이 없었던 것은 아니지만, 그런 사례도 간단한 문제가 아니었고, 대부분 크롤링을 허용하는 쪽으로 판결이 났다.)

앞서 언급한 (인터넷 페이지를 후세를 위한 기록 목적으로 저장하는) 인터넷 아카이브의 경우, 2017년에 robots.txt를 따르기 않겠다고 선언했다. "우리가 이제까지 보아 온 바로는 robots.txt는 검색 엔진의 크롤링을 허용하느냐를 결정하는 데 초점이 있을 뿐, 기록을 목적으로 하는 우리의 의도에 도움이 되지 않는다"라는 게 그들의 결정이었다. 법적 구속력이 없으니 그렇게 선언하는 걸로 끝이었다.

그리고 AI 기업들이 갈수록 증가하면서 그 기업들이 만든 크롤러들은 점점 비양심적으로 변하고 있다. AI가 세상을 점령하는 데 동참하고 싶지 않다면 크롤러를 잡기 위한 끝없는 두더지잡기 게임을 해야 한다. 로봇, 크롤러를 하나씩 제지해야 한다. 그런다고 다 막을 수 있는 것도 아니다. 게다가 그 과정에서 부작용이 발생한다. 구글이나 다른 기업들이 말하는 것처럼 AI가 검색의 미래라면, AI기업의 크롤러를 막는 데 성공하는 게 장기적으로도 좋을 거라고 장담할 수 없다.

이런 줄다리기를 벌이는 양쪽 모두 이런 크롤러들을 관리하는 더 나은, 더 강력한, 더 든든한 도구의 필요성을 인정한다. 이 문제에 걸린 판돈이 너무 클 뿐 아니라, 규제를 받지 않는 새로운 사례(use case)가 너무 많이 등장하고 있어서, 과거처럼 그저 모두가 선한 의도로 참여할 거라고 기대할 수 없게 되었기 때문이다. "크롤러를 어떻게 사용할지에 대한 자체적인 기준을 갖고 있는 곳들도 많지만, robots.txt라는 룰 자체가 너무 약하고, 룰을 어긴 쪽에 책임을 묻기 힘들게 되어있다"라는 게 2019년에 테크 관련 변호사들이 웹 크롤러와 관련해 작성한 보고서의 주장이다.

웹사이트 퍼블리셔들 중에서는 현재처럼 robots.txt가 그저 허용 여부를 결정하게 하는 대신, 훨씬 더 정교하게 설정할 수 있기를 바라는 사람들도 있다. 구글은 많은 웹사이트들이 관심을 기울이지 않는다는 이유로 robots.txt 보다는 더 공식적인 로봇 배제 프로토콜 표준을 만들자고 하기도 했다. 구글의 부사장인 대니엘 로메인(Danielle Romain)은 지난해 쓴 글에서 "현존하는 웹 퍼블리셔의 (로봇) 통제 방법이 새로운 AI와 연구용 사용 사례가 등장하기 이전에 만들어졌기 때문에, 이제는 기계 해독이 가능한 새로운 방법을 만들 때가 되었다"라고 주장했다.

AI 기업들은 자사의 모델을 훈련하는 방법과 관련해 법 규제와 관련한 질문을 받고 있지만, 그러는 동안에도 AI 모델들은 끊임없이 발전하고 있고, 새로운 기업들이 하루가 멀다고 등장하고 있다. 인터넷에 존재하는 크고 작은 웹사이트들은 중요한 결정에 직면한 상태다. AI 혁명에 굴복하거나, 아니면 이 변화에 저항하는 것이다. 변화에 참여하지 않겠다고 결정한다면, 그들이 가진 가장 강한 무기는 웹의 미래에 낙관적이었던 엔지니어들이 30년 전에 만들었던 합의인 robots.txt다. 그 엔지니어들은 인터넷이 좋은 사람들이 모인, 좋은 곳이며, 그곳에 찾아오는 사람들은 인터넷이 좋은 도구가 되기를 바랄 거라고 생각했다. 그들이 꿈꾸던 세상, 그들이 바라던 인터넷에서는 웹 사이트 운영자가 원하는 내용을 텍스트 파일로 적어 놓는 것만으로도 충분한 거버넌스가 될 것이었다.

하지만 이제 AI가 등장해 인터넷의 문화와 경제를 다시 한번 바꾸고 있다. 순진해 보이는 이 텍스트 파일이 이제 너무 낡은 방법으로 보이는 이유가 그거다. 🦦

OTTER LETTER

인터넷을 지켜온 작은 파일 ②

발행인 | 박상현

Facebook

otterletter@mediasphere.kr

인터넷을 지켜온 작은 파일 ②

발행인 | 박상현 Facebook otterletter@mediasphere.kr

머스크의 중국 문제

인터넷을 지켜온 작은 파일 ①

테크와 사회, 문화를 보는 새로운 시각을 찾아냅니다.

발행인 | 박상현

Facebook

otterletter@mediasphere.kr