그제 구글 코리아에서 제2차 인터넷 개방성 포럼 제5강이 있었습니다. 그제 강연자는 구글 검색 엔진의 달인이라고 할 수 있는 책임 엔지니어, 맷 커츠(Matt Cutts). 구글 검색과 관련해 매우 흥미로운 이야기를 들을 수 있었는데, 그 중에 질의 응답 과정에서 더욱 흥미로운 이야기가 많았던 것 같아 그 내용을 정리합니다. 이미 여러 매체를 통해 관련된 이야기들이 나가긴 했지만, 일부분만 인용된 부분이 있어 되도록 가감 없이 옮겼습니다.
(김앤장 변호사의) 질문> 한국 정부 사이트가 차단된 이유는 뭐라고 생각하고 다른 나라의 상황은 어떤가?
* 이 질문의 배경은 한국 정부와 공공 기관의 수많은 웹사이트가 검색 엔진의 크롤링을 하지 못하도록 차단하고 있어 한국의 좋은 정보들이 검색되지 못하고 있다는 맷 커츠의 강연 내용이 있어 그 이유에 대한 것임
맷 커츠> 일부사이트가 차단된 이유는 웹관리자가 검색 엔진에 익숙해 있지 않은 문제일 수 있다. 컨텐츠를 차단하면 검색 엔진에는 볼 수 없어도 사이트를 방문하면 볼 수 있으므로 검색 엔진에서 배제됐다는 것을 미처 파악하지 못했을 수 있다. 그런데 반가운 소식은 이 문제가 개선되고 잇다는 점이다. 웹 사이트 관리자와 만나 이 부분을 설명하고 검색 엔진에 반영해 더 많은 이들이 방문하는 등 더 많은 혜택이 있음을 설명하면 많은 부분을 긍정적으로 받아들인다.
흥미로운 것은 (한국과 다르게) 다른 국가는 검색 엔진 반영되길 바라면서 많은 노력을 기울인다는 점이다. 한국은 좋은 정보를 방대하게 갖고 있는 나라면서도 웹사이트를 차단하는 몇 안되는 나라 중 하나 중에 하나다. 이 자리에 있는 사람이 웹사이트 운영자들에게 robots.txt 같은 방법을 이용하면 안전하게 더 많은 정보를 외부에 알릴 수 있다는 것을 적극적으로 알려주면 좋을 것 같다.
(추가) 질문> 해킹 때문에 웹사이트를 차단한 것은 아닌가?
맷 커츠> 해커들은 웹사이트의 크롤링 여부와 상관 없이 해킹을 시도한다. 골수 블랙 해커들은 robots.txt의 세팅과 전혀 상관 없이 모든 IP 주소를 수집해 자신이 원하는 사이트를 해킹한다. 그런데 구글은 검색 엔진 크롤링을 해 놓은 웹사이트에 대해 해킹을 예방할 수 있도록 도움을 준다. 해킹이 되었거나 또는 해킹에 취약한 시스템에 대해 해킹 경고를 보내기도 한다.
(월스트릿 저널 기자의) 질문> 한국의 정부 사이트가 많이 차단되어 있다고 하는 데, 기업이나 NGO 같은 민간 사이트도 검색에서 제외되고 있는 상황이 있는가?
맷 커츠> 경험 상으로 한국의 기업은 잘 수집되고 있는 편이다. 한국 정부는 조심하느라 크롤링이 잘 안되는 것일 뿐이라고 생각하는데, 좋은 정보가 많으므로 이를 개방하는 것이 더 도움되는 것이라고 여겨진다.
(서울 고법 판사의) 질문> 대법원 사이트가 검색 엔진 크롤링에 막혀있다는 것을 강연을 들으면서 알게 되어 대법원 정보화 담당관에게 검토하라고 바로 문자를 보냈다. ^^; 국내 포털 중 다음은 외부 검색에 대해 많은 부분이 열려 있는 데 반해 네이버는 지식인과 같은 서비스 일부를 robots.txt로 막아놨다. 이에 대해 네이버는 이용자들이 구축한 정보를 구글 검색 엔진에 개방하라는 것은 대기업이 중소기업의 자료를 훔쳐가는 것이고, 그 문을 여는 순간 네이버의 존립 근거는 사라질 것이라며 네이버 측에서 우려하고 있다. 이에 대해 어떤 의견을 갖고 있는가?
맷 커츠> 지금은 한국 시장에서 네이버가 구글보다 더 유리한 위치에 서 있는 것 같다. 그런데 구글에 크롤링을 허용하는 것은 그 웹사이트가 독자적으로 결정을 내리는 것이기 때문에 그러한 결정을 존중한다. 다만 예전에 작은(?) 웹사이트가 구글에 크롤링을 막았다가 최근 다시 허용을 했는데, 그 이야기를 들려드릴까 한다.
그 작은 웹사이트의 이름은 이베이다. ^^; 한 때 이베이는 모든 검색 엔진을 차단했던 적이 있었다. 이베이의 논리는 검색 엔진이 크롤링을 시작하면 이베이의 모든 상품 정보가 공개되어 사람들이 이베이가 아닌 검색 엔진에서 물건을 구매하게 될 것이라고 생각한 것이다. 하지만 이베이도 점차 트래픽이 증가했을 때 그 자신들에 도움이 되고 결국 검색 엔진 크롤링이 트래픽 증가에 도움이 된다는 것을 깨달았다. 지금은 수많은 이베이의 인력들이 어떻게 하면 검색 엔진에서 더 높은 순위에 올릴 것인지 고민하고 있다. 또 다른 예로 구글은 ‘엔써'(http://answers.google.com )라는 서비스가 있는 구글은 모든 검색 엔진에 이 서비스의 크롤링을 허용해 고품질 정보를 공유하고 있다.
단지 지금 네이버가 크롤링을 차단하겠다고 선택한 그 결정에 대해선 존중할 뿐이다.
(한겨레 신문 기자의) 질문> 구글은 서치 플러스에서 구글 플러스의 결과만 노출하는 것을 두고 트위터와 논쟁을 벌인 적이 있었다. 이에 구글과 트위터 양쪽의 입장이 엊갈렸지만, 미국 연방 거래 위원회는 구글의 반독점 조사에 들어가겠다고 했다. 이렇게 구글 서치 플러스에서 자사 제품만 노출되는 현상에 대해서 어떻게 설명하겠는가?
맷 커츠> 아주 길게 답변을 해야 할 것 같다. 2009년 구글은 트위터 의존도가 매우 높은 리얼 타임 서치를 개발한 적이 있다. 트위터와 계약을 맺고 실시간으로 트위터의 피드를 보여주기 위한 파이어 호스를 만들어 서비스 했다. 이때 불행히도 2년 후 계약이 만료되었을 때 구글과 트위터는 갱신에 합의를 하지 못하고 결국 수 개월 동안 개발된 리얼타임 서치가 중단되었다. 이 일로 인해 제3의 서드파티에 의존한 경우 상품이 존속하지 못할 수 있다는 것을 깨닫게 됐다.
그런데 서치 플러스에서 트위터가 전혀 검색이 안되는 것은 오해다. 실제로 서치 플러스를 통해 나와 연결된 트위터 팔로워의 트윗을 검색할 수 있으니까. 다만 과거에는 파이어호스로 실시간 트윗을 가져왔지만, 지금은 트위터를 크롤링해서 가져 오는 것이 달라졌을 뿐이다.
이런 상황 때문에 많은 이들이 트위터나 페이스북이 검색 결과에서 눈에 띄게 나타나지 않는지 질문을 하는데, 우리는 그 정보에 신뢰할 수 있고 안전하게 접근할 수 있는 약속이 필요하다. 앞서 트위터를 위해 하나의 서비스를 개발했음에도 트위터가 그 접근을 막았고, 이처럼 robots.txt에서 라인 두 개의 값만 바꾸면 언제든지 수개월 동안 많은 개발자들이 만든 작업이 물거품이 될 수 있으므로 제3의 정보에 안전하고 믿음을 갖고 접근할 수 있도록 보장되어야 할 것 같다.
오해하지 않았으면 하는 것은 나 자신도 1만5천 개의 트윗을 날린 사람이고 친구들도 많지만, 트위터도 하나의 사적 포럼이므로 네이버가 구글을 차단한 것처럼 트위터도 쉽게 차단할 수 있는 것이다. 기회가 된다면 언제든지 트위터와 페이스북을 만나서 긴밀한 협력을 논의할 준비가 되어 있지만, 트위터처럼 갑자기 기능을 꺼버리지 않는다는 보장, 엔지니어 입장에서는 높은 품질의 서비스를 만들어 이용자들에게 내놓고 싶은 확신을 줄 수 있도록 불확실성을 제거할 수 있는 장치는 필요하다.
아주 복잡한 주제여서 하루 종일 말할 수 있는 문제지만, 옳은 일을 하기 위해 최선을 다하고 있다.
추가 질문> 뉴욕타임즈나 월스트리트 저널처럼 구독자 기반의 뉴스 서비스는 로그인을 해야만 보이는 뉴스 서비스도 구글에서 뉴스 제목을 입력해 검색하면 로그인을 하지 않고도 읽을 수 있다. 이래서 유료화 모델을 채택한 신문들이 요금을 내지 않는 독자에게도 개방된 셈인데, 이 모델이 해당 언론사의 요청에 의한 것인지, 구글 검색의 요구에 의한 것인지 궁금하다.
맷 커츠> 구글은 신문사와 배급사가 갖고 있는 매출 모델을 적극적으로 지원하고 있다. 그 다양한 방법 중 하나가 ‘첫 번째 클릭 무료'(First Click Free)라는 것인데, 프리미엄 컨텐츠 중 하나를 구글 검색에서 찾아 누르면 처음 눌렀을 때는 볼 수 있지만, 두 번째 눌렀을 때는 유료로 바뀐다. 구글 검색 엔진은 배급사의 결정을 최대한 존중하며 기사 자체가 검색이 안되거나, 헤드 라인만 검색하거나, 기사 전체를 검색에 노출할 수 있도록 되어 있다.
구글은 공정한 사용 원칙을 준수하고 있는데, 이는 어쨌든 배급사의 결정에 따라 미리 보기를 제공하고 이용자가 이를 볼 것인지 결정하도록 도울 뿐이다. 다만 헤드라인이나 프리뷰를 이용자가 보았을 때 트래픽이 증가하는 효과가 있기 때문에 이 두 가지를 다 보여주고 있다고 보면 될 듯하다.
– 인터넷 개방성 포럼 제5강 질의응답 정리(2) 로 이어집니다…
좋은 글 잘 읽었습니다.(공유 감사하구요)
헌데, 내용 중 robot.txt는 조금 잘 못 알고 계신것이 아닌지해서요.
제가 알기론 robots.txt 입니다.
단순 오타로 생각했으나 몇 번 동일하게 반복 된 것은 오타가 아닌 잘 못 알고 계신 것이 아닌가해서요. 2편도 기해하겠습니다^^.
고맙습니다. 수정 했습니다. ^^
네이버는 존중이니 취향해주겠다는 대인배의 성품이 느껴지는군요 ㅠ.ㅠ
대인배의 성품보다는 인터넷을 보는 철학의 차이하고 하는 편이 더 낫지 않을까 싶네요. ^^