(… 인터넷 개방성 포럼 제5강 질의응답 정리(1)에 이어서)
(법무법인 강호 변호사의) 질문> 한국 정부 기관이 robots.txt를 써서 자기 웹사이트를 차단했을 때 검색 엔진이 이를 무시하고 강제적으로 데이터를 수집해 검색 결과에 보여줄 수 있는 방법이 있는가?
맷 커츠> 예를 들어 누군가 구글 검색에 와서 이베이를 찾았을 때, 이베이가 robots.txt로 차단이 되어서 그 주소의 정보를 검색 결과에 보여주지 못한다면 검색이 형편 없어 보일 수도 있을 것이다. 하지만 어떤 웹사이트라고 robots.txt로 차단을 했다면, 검색 엔진은 원천적으로 크롤링을 할 수 없다. 대신 다른 웹사이트에서 이베이에 링크를 걸었다면 그 링크를 보여줄 수는 있는데, 그렇다고 해도 이베이의 링크에 대한 내용을 보여주지는 못한다. 만약 다른 웹사이트에서 이베이에 대한 의견을 적어놓은 글이 있다면 그런 것을 보여줄 수 있을 뿐이다. 가장 이상적인 검색은 그 사이트를 완전히 크롤링한 뒤 정보를 보여주는 것이지만, (링크를 우회해 정보를 얻어 검색할 수 있게 한 것은) 부족한 해결책이라도 대안으로서 이용할 수 있는 한 방법이다.
* 검색 엔진과 관련 한 400여개가 넘는 동영상을 찍었는데 그 중에 이 주제를 다룬 적이 있다고 하더군요. 그러면서 미국에서도 아주 큰 웹사이트가 크롤링을 차단한 적이 있는데, 차단된 해당 웹사이트와 관련한 정보를 보여주는 동영상을 하나 보여주더군요. 아래 동영상을 확인하시기 바랍니다.
(시사매거진 기자의) 질문> 웹에 올려진 잘못된 데이터를 검색 엔진이 가져갔을 때 이를 삭제하는 데 시간이 오래 걸리는 것 같다. 곧바로 삭제할 수 있는 방법은 없나?
맷 커츠> 한국은 정말 ‘빨리빨리’를 좋아하는 것 같다. ^^; 어쨌든 이 부분은 100% 확신할 수 없어 확인이 필요하지만, 구글은 URL 자체의 색인을 삭제하는 데 시간이 좀 걸린다. 다만 특정 페이지에 대한 갱신(refresh)을 요청하면 그 페이지를 새롭게 크롤링을 하는데, 그 때 잘못된 데이터를 수정한 것으로 업데이트 할 수 있는 것으로 알고 있다. 이와 관련해 좀더 확인해 본 뒤 한국 구글 블로그에 관련 글을 공개하겠다.
(00기자의) 질문> 특정인의 사생활을 침해하는 어떤 사건이 발생하면 네이버는 그와 관련된 질문을 막는 반면 구글은 그렇게 하지 않는 것 같다. 이를 테면 A라는 사건이 발생하고 네이버에 관련 기사들이 떠서 네이버에 요청이 들어가면 막아주는데, 구글은 검색이 좋아서 그런지 많은 검색 결과가 나타나고 이를 차단하지 않는 것으로 보여진다. 리를 실시간으로 차단할 수는 없는 것인가? 또한 다른 나라에서도 한국과 동일한 갱신 시스템을 갖고 있는가?
맷 커츠> 우리가 페이지 갱신을 하는 것은 구글이 서비스하는 모든 국가, 모든 언어에 동일하게 적용되어 있다. 얼마나 빨리 갱신되는지 좀더 확인이 필요하지만, 지적한 대로 페이지 갱신 기능을 활용해서 삭제된 정보가 검색되지 않도록 할 수는 있을 것 같다. 이는 좀더 확인이 필요하다.
구글은 이용자의 사생활을 보호하기 위해서 노력을 다하고 있다. 때문에 웹사이트에 기재된 정보 가운데 주민번호로 의심되는 것은 X로 처리함으로써 보여주지 않고 있다. 또한 웹마스터가 이용할 수 있는 웹사이트 도구를 공개해 놓았는데, 웹사이트 안에서 특정 번호가 주민번호로 의심되면 그것을 웹마스터에게 경고를 보내기도 한다. 이 기능은 한국 이용자를 위해서 만들어진 특별 기능이다. 적극적으로 이러한 요청이 있다면 앞으로도 계속 검토할 것이다.
* 이 질문의 의도를 맷 커츠 씨가 잘못 이해하고 있는 것 같았습니다. 어디까지 ‘사생활'(Privacy)의 범위로 보느냐에 대한 차이가 있는 것 같더군요. 네이버는 특정인의 요청에 의해 즉시 차단하는 반면, 구글은 다른 방식의 사생활 보호를 말한 듯 보였습니다. 이에 대해 구글 코리아 김정경숙 이사는 “구글은 긴급 문서 삭제 툴이 있고, 구글 한국 블로그를 통해 공지하고 있다”고 덧붙여 말했는데, 이 역시 원본 글이 삭제된 상황에서 요청할 수 있습니다. 아래 링크를 확인하시길.
http://googlekoreablog.blogspot.com/2011/06/blog-post_07.html
추가 질문> 그러한 문제가 제기됐을 때 구글에서 관련 이미지(성인물 포함)가 더 많이 노출되고 있는 듯한 현상도 있다.
맷 커츠> 처음에 구글이 필터 기능을 가진 세이프 서치의 개발에 참여한 적이 있다. 그 때 성인물과 관련된 컨텐츠는 웹사이트 상에서 관련된 텍스트가 있다면 쉽게 필터링을 할 수 있었다. 하지만 이미지는 바로 감지하기 힘들고 웹의 사용량이 너무 많은 데다 모든 작업을 컴퓨터로 할 수밖에 없어서 바로 대응하기는 어렵지만, 이용자가 불쾌하다고 느껴지는 이미지를 봤을 때 재빨리 플래깅을 해준다면 1차적으로 검토하는 대상에 올려서 확인할 수 있다.
* 역시 질문 의도와 약간 배치되는 느낌의 답변이었던 듯…
(블로터 기자)의 질문> 얼마 전에 어느 미디어 기업에서 구글 검색이 저작물을 불법 유통하는 온상으로 묘사한 일이 있다. 직접 해 보니 놀라우리만치 저작물을 불법으로 다운로드할 수 있는 방법 뿐만 아니라 해당 웹사이트를 최상단에 위치해 놓았는데, 이런 점에서 보면 저작물을 불법 유통하는 손쉬운 방편은 아닌가?
맷 커츠> 루퍼드 머독이 트위터를 통해 “구글이 해적질의 온상”이라고 이야기를 하면서 <미션 임파서블>을 예로 들었던 터라 <미션 임파서블>이라는 키워드로 직접 검색을 해봤다. (프로젝터와 연결된 PC에서 구글 검색을 통해 ‘mission impossible’이라는 키워드를 넣어서 결과를 보여 준 뒤) 어떤 분들은 위키나 토렌트, 다운로드 등의 키워드를 넣어서 불법 다운로드를 부추긴다고 했는데, 화면에서 보다시피 이렇게 합법적인 키워드가 뜨고 있다. 실제 검색을 해보면 맨 먼저 뜨는 것은 <미션 임파서블>의 공식 웹사이트이고 합법적인 영화 사이트인 IMDB가 그 뒤에 나타나고 위키피디아 페이지가 두어개쯤 떠 있고 유투브의 합법적인 동영상 정보가 있다. 영화와 관련된 합법적인 뉴스와 영화 트레일러, 영화와 관련된 사람들의 사진 등이 떠 있다. 그 아래 제한된 검색도 완전히 합법적인 검색 정보들이다. 루퍼드 머독도 이러한 검색 결과를 봤을 텐데, 어떻게 구글이 해적질의 온상이라고 하는지 모르겠다.
합법적으로 컨텐츠를 검색하면 이처럼 합법적인 검색 결과만 나타난다. 하지만 사람마다 아주 창의적인 방법으로 검색어를 입력한다 예를 들어 ‘mission impossible free online download’ 이런 식이라면 그런 용어가 들어가 있는 웹사이트가 뜰 수밖에 없다. 훌루나 애플처럼 합법적으로 광고를 보고 영화를 볼 수 있는 사이트도 당연히 뜨지만, 아주 기괴한 검색어로 검색을 시도하는 것을 막을 수는 없다.
물론 구글 검색을 통해 나쁜 컨텐츠가 나온다는 것을 주장하려는 것은 아니다. 단지 다른 사람이 주장하는 것처럼 나쁜 컨텐츠를 적극적으로 보여주는 것은 절대 아니다. 하나의 예로 2006년 구글이 유투브를 처음 인수했을 때 유투브는 저작권을 침해하는 컨텐츠가 많았다. 이에 구글은 컨텐츠 아이디(Contents ID)라는 제도를 시행해 불법적인 컨텐츠의 저작권을 가진 이들에게 이를 알리고 컨텐츠를 내리거나 여기에 관고를 실어 수익을 가져갈 수 있도록 했다. 모든 컨텐츠 소유자들이 우리와 적극적으로 협의를 하는 것은 아니지만, 우리는 적극적으로 대화를 하기 위해 최선을 다하고 있다.
* 여기서 구글 검색의 추천 키워드에 대해서 맷 커츠 씨가 좀더 확인해 볼 필요가 있을 것 같군요. 맷 커츠의 주장 대로 합법적 키워드만 보여질 때가 있고 그렇지 않을 때가 있기 때문이지요. 아래는 크롬 브라우저와 인터넷 익스플로러 9에서 구글 검색을 띄워 ‘mission impossible’을 찾아본 것입니다. 크롬에서는 불법 다운로드와 관련한 추천 키워드가, IE9에서는 나타나지 않는군요.
(구글 코리아 직원)의 질문> 언어적 측면에서 질문이 하나 있다. 구글은 언어 번역과 같은 기술을 통해 구글의 미션을 달성하기 위해 최선을 다하고 있다고 생각한다. 다만 아무래도 미국 기반의 회사이고 영어로 된 정보가 많은 것도 사실이기에 영어로 된 데이터를 검색할 때와 한글 또는 다른 외국어로 검색할 때 많은 차이를 느낄 수 있다. 나는 우리가 못하고 있다는 이야기가 아니라 언어에 따른 검색 엔진의 질적 차이가 크다고 여겨지며, 이것이 한국 시장에서 네이버와 격차가 벌어지는 이유가 아닐까 싶다. 이러한 차이를 좁힐 수 있는 정책이나 도구가 있는지 궁금하다.
맷 커츠> 두 가지 방법으로 대체할 수 있을 것 같다. 먼저 한국어로 된 고품질 정보가 웹사이트에 공개가 되는 것이 도움이 될 것이다. 이는 아랍어로 된 컨텐츠나 정보가 매우 부족하기 때문에 아랍어로 검색을 했을 때 그 결과가 매우 나쁘게 나타나는 것을 보면 알 수 있을 것이다. 어떤 나라도 자기 언어로 된 정보가 웹사이트에서 제대로 대변되지 못하는 것을 원하지 않는데, 한국은 매우 좋은 정보 자원을 가진 나라 중에 하나이므로 robots.txt의 설정을 바꿔줌으로써 한국의 소중한 정보를 더 많이 볼 수 있게 한다면 검색 결과가 더 나아질 것으로 믿는다.
더불어 구글도 번역 기능을 더 개선할 필요가 있다. 외국어에 대한 언어적 이해를 개선하고 한국 사람들이 어떤 페이지를 선호하는지를 파악해 스코어링 시스템을 보완해야 한다고 본다. 우리 팀에서 일하고 있는 한국 직원이 스팸을 관리하고 있고 또한 수많은 한국 엔지니어가 한국 상황에 맞게 대처하고 있는데, 한국이나 한글에 대한 구글의 이해도가 높아질 수록 한국어 된 구글 검색 품질이 더 나아지면 더 많은 이용자들에게 혜택이 돌아갈 것이라 본다.
(고려대학교 정보사회학과 교수의) 질문> 한국은 스마트폰 사용자도 많고 광대역 이용자도 많은데, 왜 참여, 개방, 협력에 근거한 public information을 제공하는 위키피디아 같은 사이트가 만들어지지 않고 있는가 같은 궁금증을 갖고 있지 않은가? 또한 3월부터 구글은 변경된 개인정보 취급방침을 적용한다. 유럽은 개인정보 취급에 있어서 아주 강력하지만 미국은 느슨하고 우리나라는 그 중간 단계에 있다. 각 나라에 맞게 구글의 개인정보 취급방침을 적용할 때 유럽이 구글 스트리트뷰에 제재를 했던 것처럼 여러 법률적 규제가 있을 수 있는데, 이런 상황에서 새로운 개인정보 취급방침이 안착할 수 있을 것으로 보는가?
맷 커츠> 두 번째 질문에 먼저 답을 하겠다. 한국에 오기까지 10일 동안 외국 출장을 다닌 네다 인도를 거쳐서 한국에 들어온 터라 개인정보 취급방침에 대해선 자세하게 알지 못해 답을 하기 힘들 것 같다.
첫 번째 질문이 매우 흥미로운데, 한국은 전통적으로 교육을 중시하는 것으로 알고 있다. 한국의 학부모들은 아이의 교육을 위해선 이사도 불사한다는 것도 주말에 들었던 이야기 가운데 하나였다. 한국에서 인터넷을 통한 참여학습이 중요하다는 게 인지가 되려면 칸 아카데미(http://www.khanacademy.org )처럼 인터넷을 통해서 배울 수 있는 교육적인 자료가 많이 공유되는 것이 필요하다.이러한 자원이 한국 이용자들에게 인지가 된다면 분위기가 한순간에 바뀔 수 있을 거라고 생각한다. 한국은 다른 어떤 나라보다도 빠르게 많은 것을 할 수 있는 나라여서 지금까지 인터넷을 통한 참여 문화가 부족해 이를 바꾸겠다고 한국 이용자가 느끼기만 한다면 곧바로 분위기가 반전할 것으로 본다. 나는 한국 이용자들이 인터넷을 통한 참여 문화가 부족하다고 말하기 힘들다. 다만 한국 이용자들은 무엇인가 바뀌어야 한다고 생각할 때 다른 어떤 나라보다 신속하게 바꿀 수 있는 문화가 있기 때문이다.
(광파리님의) 마지막 질문> 다시 처음으로 돌아가서 한국 사이트가 다른 나라에 비해 폐쇄적인 데는 우리나라 인터넷 산업이 성장하는 과정에 그 배경이 있지 않았나 한다. 1위 사업자인 네이버가 지식인이라는 검색 서비스로 인기를 끌면서 그 지식인 컨텐츠를 개방하지 않고 가두기 시작했는데, 그 혜택이 지금까지 이어져 오고 있고 이용자들고 컨텐츠를 개방하지 않는 걸 이상하게 여기지 않는 듯 싶다.
(이런 폐쇄성을 가진 상황에서) 지난 해 말부터 구글 블로그를 통해 블로깅을 하고 있는데, 트래픽을 보니 네이버 검색을 통해서는 단 한 건도 들어오지 않아 네이버에 강력하게 항의를 했더니 그 뒤에 네이버에서 들어오는 트래픽이 구글이나 다음보다 훨씬 많았다. 네이버는 자기들이 운영하는 블로그에 대해서 우대하는 반면 구글이나 다음에서 운영하는 블로그는 아예 검색하지 않는데, 세계 각 나라의 1위 포털 사업자가 경쟁 서비스의 검색을 차단하고 단 한 건도 트래픽이 잡히지 않게 하는 사례가 있는가?
맷 커츠> 한국은 참 여러 면에서 독특한 것은 분명한 것 같다. ^^;
중국의 바이두나 러시아의 연덱스 등 다른 나라의 검색 엔진을 보면, 러시아의 연덱스처럼 다른 서비스 없이 검색 엔진만 갖고 있는 경우도 있고, 구글은 MP3 링크를 걸지 않지만 검색을 하면 MP3 링크를 함께 보여줘 해적질 논쟁을 낳은 중국 바이두 같은 서비스도 있다. 어쨌든 근본적으로 바이두나 연덱스 모두 검색 엔진인 것은 분명하다. 굳이 (질문과) 비슷한 사례를 찾자면 체코의 세즈남을 들 수 있을 것 같다.
제가 하나 강조하고 싶은 것은 모든 한국인들이 선택을 할 수 있다는 것이고, 지금이라도 이런 문제를 바꾸고 싶다면 언제든지 바로 바꿀 수 있을 거라고 생각한다. 앞서 판사께서 법원 사이트가 닫혀 있다는 것을 문자를 통해 바로 통보했던 것처럼 이런 일들을 함께 일하는 사람들에게 전해 주고 싶다. 미국은 이러한 내용을 전달하는 데 e메일로 일주일 정도 걸리지만, 앞서 실시간 문자를 보냈던 것은 한국인의 ‘빨리빨리’ 문화를 엿볼 수 있는 장면이었던 것 같다. 이렇게 소중한 시간을 보내게 되어 감사하다.
* 제5강을 마지막으로 제2차 인터넷 개방성 포럼이 모두 마무리되었습니다. 검색과 관련된 주제로 모였지만, 인터넷 개방성과 관련한 다양한 질문과 답이 오갔던 만큼 흥미로운 이야기들이 많았던 것 같군요. 무엇보다 이번 맷 커츠 씨의 강연과 각종 인터뷰를 통해 검색 엔진에 친화적이지 못한 국내 인터넷 환경에 대한 문제점을 지적하는 글이 늘었는데, 근본적으로 광파리님이 지적한 대로 폐쇄적인 인터넷 환경에 무감각해진 이용자가 양산되어 성장해 온 인터넷 환경에 대해선 좀더 생각해 봐야 할 것 같습니다. 맷 커츠 씨가 한국의 ‘빨리빨리’ 문화에 인상적인 느낌을 많이 받은 것 같은데, 빨리빨리 소화하기 힘든 체질을 갖춘 인터넷 환경이라면 ‘급히 먹는 밥이 체한다’는 말도 함께 이해했으면 싶군요.
질문에 대한 통역의 한계인지 모르겠지만, 대답은 청산유수지만 원하는 내용에 대한 답변이 아닌게 점점 많아지는 기분이 드는군요 ^^;
그런 점이 전혀 없지는 않았습니다만 그래도 성의를 다해 답변을 하더군요. 그래서 가감 없이 그대로 정리했습니다.
사생활의 범위가 모호하긴 합니다.
구글은 주민번호나 신용카드번호 정도의것들을 사생활의 범위 또는 민감한 정보로 보는듯 하는 반면에 인터넷에서 사용하는 아이디까지 사생활이라 생각하는 한국사람들도 부지기수라 애매한 부분이 있네요.
구글 웹마스터 도움말 포럼(http://groups.google.com/a/googleproductforums.com/forum/#!categories/webmaster-ko)을 보면 삭제요청을 하는곳이 아닌 단순 포럼인데도 불구하고 삭제요청이 올라오고 있고, 대부분의 삭제요청이 아이디로 검색했을때 나오는 결과물을 지워달라는 요청입니다.
설사 구글 직원이 삭제요청글을 접한다 하더라도 그러한 요청들은 절대 들어지지 않는 요청들이니 말이죠.
검색결과의 삭제요청을 들어주는것이 법적으로 민감한 부분이 많은 외국정서와는 달리, 쉽게 요청할수 있고 또 쉽게 삭제해 줄수 있는 우리의 인터넷 환경이 좋은건지 나쁜건지는 생각해봐야 할 문제 같네요.
어째튼.. 개인적으로 Matt Cutts 님을 절실히 만나보고 싶어하는 저한테는 정말 좋은 포스팅이었습니다.
감사합니다.
당시 질문하는 이와 답하는 이의 거리감이 확실하게 느꼈던 순간이었습니다. 여기에는 해당 사안을 바라보는 정서적, 문화적 차이까지도 드러났다고 할까요? 질문의 의도는 “한국에서 좀더 확실하게 대응하는 데, 구글은 그런 게 안되는 것 같아”라는 뉘앙스였는데, 결국 그에 대한 명쾌한 답보다는 프라이버스의 범위에 대한 생각차를 확인하게 된 것 같습니다.
아.. 맷 커츠 씨와 만남이 꼭 이뤄지기를 기원하겠습니다. ^^
다음과 외부 블로그 글이 네이버 검색에 노출되지 않는다는 광파리님의 질문은 잘못된것 같네요. 저는 주로 네이버 검색을 이용하는데, 티스토리나 다음블로그의 내용도 많이 보게 됩니다. 좀 더 빠른 네이버 검색에 노출을 위해서는 신디케이션 API를 이용하면 거의 실시간으로 반영되기도 하는 등 이미 수단도 만들어두었고.. 제 경험상 보통 7:3정도는 외부 블로그를 보게 됩니다. 점유율을 생각하면 얼추 맞는정도라고 보입니다. 그중 IT기기의 경우에는 네이버블로그는 어뷰져들이 많아서 타 블로그를 보는 경우도 많죠. (궁금한 제목으로 낚은후, 결론은 안말해주고, 휴대폰 구매 사이트로 연결하는 ㅡㅡ)
컨텐츠별로 다음이나 네이버 검색 레퍼를 보면, 포스팅별로 편중되는 경향이 있는데, 둘 다 기술적 한계로 보입니다. 컨텍스트 해석에서 어떤 컨텐츠를 더 좋게 보느냐의 차이 같구요.
인터뷰내용을 보니 한마디로 요약할 수 있겠네요. 구글분은 한국의 개인정보보호법에 대해 모른다. 라는게 답이고, 캐시의 즉각삭제는 기술적으로 허용하지 않는다. 입니다. 하긴, 국내의 개인정보 보호법은 대한민국 국민이나 서비스 개발자들에게도 너무 어려워요.
일반인들 중 일부는 포털이 개인정보보호를 안일하게 취급하고 있다고 믿기도 하는 반면, 법을 잘 몰라 굉장히 엄격한 잣대를 들이대기도 하죠. ip가 개인정보인가 하는 문제같은것도 말입니다. 아파치 서버에 ip로그는 기본 셋팅인데도 말입니다. 그런 국내법에 신경안쓰고 사업하는 구글이 부럽기도..
아.. 질문이 잘못된 게 아니라 광파리님은 네이버가 웹에 널린 문서를 자동으로 긁어오지 못하는 사례를 지적한 것입니다. 처음에 검색이 아예 안된 것은 크롤링봇이 광파리님 블로그를 알아채지 못하고 접근하지 못했기 때문인데, 이러한 예가 또 있는지 물어본 것이거든요. 네이버 내에서 외부 정보 검색은 최근들어 조금은 균형이 잡혀 간다는 정도로 보고 있습니다만, 이를 위해선 외부 검색자들은 대부분 네이버에 검색 등록 요청을 하는 것 같은 적극적인 행동이 필요하더군요. 시스템의 차이 정도로 이해할 수도 있지만, 좀더 진화해야 할 부분이기도 할 것 같습니다.