인터넷을 지켜온 작은 파일 ②

지금 robots.txt에 특정 로봇을 허용하는지 여부를 밝히는 것은 이 파일이 처음 고안되었던 시절처럼 웹사이트가 사용하는 컴퓨팅 자원을 걱정해서라기보다는, 웹사이트 관리자의 선호와 관련이 있다는 게 구글의 검색 부문에서 일하는 존 뮬러(John Mueller)의 설명이다. "크롤러가 내 웹사이트에서 어떤 정보를 가져가 색인화하게 할 거냐"의 문제라는 것이다.

웹사이트를 운영하는 사람들이 전통적으로 고민하던 질문은 '구글봇(Googlebot)이 내 웹사이트를 크롤링하게 허락할 것인지' 여부였다. 허용할 경우 (검색 엔진과 웹 사이트 사이에) 어떤 거래가 이뤄지는지는 분명하다. 구글이 특정 페이지를 크롤링하면 그걸 색인화하게 되고, 검색 결과에서 그 페이지를 보여주는 것이다. (물론 구글이 그 웹 사이트를 검색 결과 페이지의 어디에서 어떻게 보여주느냐는 완전히 다른 얘기다.) 문제는 구글이 내가 내는 망 사용료를 증가시키고, 내 사이트가 보여주는 정보를 다운로드하는 것을 허용하는 대가로 검색 결과에서 내 사이트를 얼마나 눈에 띄게 해주느냐이다.

대부분의 웹사이트로서는 이건 고민할 문제가 아니다. 미디엄(Medium)의 CEO인 토니 스터블바인(Tony Stubblebine)은 "구글은 우리 웹사이트를 찾아오는 가장 중요한 스파이더(크롤러)"라고 말하다. 미디엄은 구글이 미디엄의 페이지를 모두 다운로드할 수 있게 허용한다. "그 대가로 우리는 구글 검색 결과를 통해 상당한 트래픽을 받는다. 이게 윈윈이라는 건 누구나 알고 있다." 구글은 사실상 인터넷 전체와 이런 계약을 한 셈이다. 검색 결과를 보여주는 페이지에서 광고를 팔아 돈을 버는 대신, 각 웹사이트에 트래픽을 몰아 주는 것이다. 게다가 구글은 robots.txt 파일의 프로토콜을 성실하게 지켜왔다는 게 중론이다. 뮬러에 따르면 "유명한 검색 엔진들은 대부분 robots.txt 프로토콜을 따른다. 이들은 웹을 크롤링하고 싶어 하기 때문에 프로토콜을 무시해서 관리자들을 화나게 할 생각이 없다. 그저 모두가 불만이 없는 게 그들에게 좋다."

OTTER LETTER

인터넷을 지켜온 작은 파일 ②

발행인 | 박상현

Facebook

otterletter@mediasphere.kr

이 글은 유료 회원에게만 공개됩니다.

테크와 사회, 문화를 보는 새로운 시각을 찾아냅니다.

인터넷을 지켜온 작은 파일 ②

발행인 | 박상현 Facebook otterletter@mediasphere.kr

이 글은 유료 회원에게만 공개됩니다.

테크와 사회, 문화를 보는 새로운 시각을 찾아냅니다.

머스크의 중국 문제

인터넷을 지켜온 작은 파일 ①

발행인 | 박상현

Facebook

otterletter@mediasphere.kr