========================================
구글의 한국어 검색 결과는 형편없다.

지난 번 글에서 구글이나 엠파스 같은 검색엔진이 성공하는 가장 좋은 방법은 사용자가 원하는 검색 결과를 보여주면 되는 것이라고 말했다. 따라서 구글이 한국에서 인기를 끌지 못하는 이유는 검색 결과가 형편없기 때문이라는 결론이 나온다. 혹자는 구글 화면이나 사용법이 국내 네티즌의 정서와 너무 다르기 때문이라고 말하는데 이것은 부차적인 요소다. 구글이 한국에서 인기를 끌지 못하는 첫 번째 요소는 지난번 칼럼에서도 지적한 것처럼 분명 검색 결과가 형편없기 때문이다.

그래서 지난 번의 구글 간담회 때 나는 미국 본사에서 나온 직원에게 “구글은 검색 결과가 형편없기 때문에 검색엔진으로 한국에서 성공할 수 없습니다”라고 잘라 말했다. 세계 최고 기술력을 가졌다고 생각하는 구글 직원으로서는 구글의 검색 결과가 형편없다는 말이이해되지 않겠지만 한국에서는 분명 형편없다. 마침 그때가 탤런트 장서희씨가 화제에 오르던 때라 ‘장서희 부은 얼굴’이라는 낱말로 국내 포탈과 구글의 검색 결과 차이를 설명해주고 구글이 한국어 문서 검색 결과에서 국내 포탈을 이길 수 없는 이유를 설명해줬다.

실제로 구글의 검색 결과가 얼마나 형편없는지 확인해보도록 하자. 구글 검색 창에 ‘장서희 부은 얼굴’을 입력하고 ‘이미지’ 찾기를 눌러 사진을 찾아보자. 구글은 한 장의 사진(image)도 찾지 못 한다. 검색 결과 점수를 매긴다면 빵점이다.

구글은 ‘장서희 부은 얼굴’로 한 장의 사진도 찾지 못 했다.

이번에는 네이버 검색 창에 ‘장서희 부은 얼굴’을 입력하고 ‘이미지’ 아이콘을 눌러 사진을 찾아보았다. 화면에 보이는 것처럼 장서희가 부은 얼굴로 나온 TV 프로그램 화면이 줄줄이 사탕처럼 보기 좋게 출력된다.

네네이버에서 ‘장서희 부은 얼굴’로 검색하면 원하는 사진을 보여준다.

두 검색엔진의 검색결과를 비교해보면 더 이상 구글이 국내 포탈보다 뛰어나다는 말을 할 수 없을 것이다. 살펴본 것처럼 구글의 검색 결과는 빵점에 가까울 정도로 형편없다. 이러니 연예뉴스 자주 보는 내 아내가 구글을 사용할 리 없고, 온라인게임 좋아하는 내 아들이 구글을 사용할 리 없다. 물론 나도 장서희 사진을 찾을 때는 구글 대신 네이버나 국내 포탈을 이용한다.

구글 검색 결과가 형편 없는 이유, 국내 사이트들이 검색을 막았기 때문

그러면 세계 최강의 검색 기술을 가졌다는 구글이 왜 한국에서는 이렇게 형편없는 검색 결과를 보여줄까? 구글이 영문 검색 기술만 뛰어나고 한국어 검색 능력은 뒤떨어지기 때문일까? 아니다. 구글의 한국어 검색 능력은 분명 국내 포탈보다 뛰어나다. 구글의 검색 결과가 형편없는 이유는 국내 사이트들이 검색을 막고 있기 때문이다.

현재 국내에서 가장 많은 자료를 보유한 곳은 다음 카페다. 289만 명의 회원을 보유한 ‘장미가족의 태그교실’ 카페 하나만 뒤져도 각종 HTML, 자바스크립트 예제를 비롯한 HTML 관련 수많은 한국어 문서를 찾아낼 수 있다. 다음 카페에 이어 지식인과 블로그를 운영하는 네이버, 통(tong)과 싸이월드를 운영하는 네이트 등에 네티즌이 좋아하는 자료들이 축적되어 있을 것이다. 그런데 이들 사이트를 비롯하여 꽤 알려진 국내 사이트는 공통점이 하나 있다. 바로 검색로봇의 검색을 막고 있다는 것이다.

웹 사이트에서 robots.txt를 이용해 검색로봇의 검색을 막을 경우 검색로봇 규약에 의해 검색로봇은 검색을 하지 않아야 한다. 검색로봇 규약을 정하고 검색로봇 거부권을 행사하는 이유는 검색로봇에 의한 개인정보 유출의 위험을 막기 위함이다. 그런데 국내 대형 사이트는 검색로봇 규약을 자사의 자료 독점권 행사를 위해 사용하고 있다. 그래서 정보 알맹이(content)를 축적했다고 하는 곳은 대부분 검색로봇 거부권으로 검색을 막고 있다.

예를 들어 브라우저의 주소창에 ‘http://kin.naver.com/robots.txt’를 입력하고 살펴보자. 네이버 지식인의 루트 디렉토리부터 모든 자료에 대한 접근을 금지시키고 있음을 알 수 있다. 이번에는 ‘http://blog.naver.com/robots.txt’를 입력하고 살펴보자. 역시 네이버 블로그의 루트 디렉토리부터 모든 자료에 대한 접근을 금지시키고 있음을 알 수 있다. 이처럼 네이버는 네이버 지식인 게시판이나 네이버 블로그에 대한 로봇의 검색을 철저하게 막고 있다.

‘http://kin.naver.com/robots.txt’를 보면 네이버 지식인의 로봇 검색을 차단하고 있음을 알 수 있다.

‘http://blog.naver.com/robots.txt’를 통해 네이버 블로그도 로봇 검색을 차단하고 있음을 알 수 있다.

생각해보면 참으로 어이없는 상황이다. 네이버의 정체가 무엇인가? 다른 사이트 게시판을 검색해 그 결과를 보여주는 검색 사이트 아닌가?

자신은 남의 사이트 게시판과 문서를 뒤져서 그 자료를 네티즌에게 보여주면서 돈을 버는 기업이면서 정작 자신들의 게시판과 문서는 검색하지 말라니 이런 이율배반이 어디 있는가? 네이버가 국내 1위 포탈의 자리를 지키면서도 끊임없이 도덕적 비난에 시달리는 이유는바로 이처럼 근본부터 잘못된 철학 때문이다.

다음 카페도 마찬가지다. ‘http://cafe.daum.net/robots.txt’를 입력해보면 역시 루트 디렉토리부터 검색로봇의 검색을 차단하고 있다. 카페의 경우 회원용도 있지만 공개된 게시물도 많기 때문에 로봇 검색을 막으면 안 되는데, 다음은 일괄적으로 외부 검색을 차단하고 있는 것이다. 따라서 다음 역시 도덕적 비난에서 자유로울 수 없는 입장인 것이다. 네티즌이 질문하고 답을 올리는 공개 게시판과 블로그조차 막고 있는 곳이 국내 1, 2위 포탈이자 검색을 대문에 내세우는 곳이라니 이 얼마나 황당하고 부끄러운 일인가.

‘http://cafe.daum.net/robots.txt’에서 알 수 있는 것처럼 다음 카페도 로봇 검색을 차단하고 있다.

robots.txt을 준수하는 구글의 네이버 게시물 검색은 ‘꽝’

표준 규약을 잘 지키기로 유명한 구글이 로봇 규약을 어길 수는 없는 일이다. 그 결과 수 천 만 건의 자료가 있다는 네이버 지식인의 게시물은 구글에서 검색되지 않는다. 이는 ‘site’ 씨낱말(keyword)로 검색해보면 알 수 있다.

구글 검색창에 ‘site:dal.co.kr’을 입력하면 68,600개나 되는 문서를 검색해준다. 반면 ‘site:kin.naver.com’으로 검색하면 겨우 246개만 검색된다. 개인 홈페이지의 문서도68,600개나 검색해주는 구글이 네이버 지식인의 게시물은 겨우 246개만 검색해주는 것이다. 그리고 화면을 보면 알겠지만 요약문을 제공하는 ‘site:dal.co.kr’의 검색결과와 달리 ‘site:kin.naver.com’의 검색결과는 달랑 주소만 나온다. 이는 246개마저 정상적인 경로로 검색된 것이 아니라 다른 문서의 링크를 통해서 검색되었기 때문이다.

구글 검색창에 ‘site:dal.co.kr’을 입력하면 68,600개의 검색결과가 나온다.

구글 검색창에 ‘site:kin.naver.com’을 입력하면 246개의 검색결과만 나온다

이번에는 구글 검색창에 ‘블로그 site:dal.co.kr’을 입력해보았다. 내 개인 홈페이지에서만 16,900개나 되는 검색결과를 찾았다. 반면 ‘블로그 site:kin.naver.com’으로 검색하면 딱 한 개만 나온다.

구글 검색창에 ‘블로그 site:dal.co.kr’을 입력하면 16,900개의 검색결과가 나온다

구글 검색창에 ‘블로그 site:kin.naver.com’을 입력하면 딱 1개의 검색결과가 나온다.

</P

살펴본 것처럼 구글은 개인 홈페이지인 ‘dal.co.kr’에서만 6만 건이 넘는 문서를 검색해주는데, 네이버 지식인의 게시물은 겨우 300개 미만으로 검색해주고 있다. 물론 이것은 네이버 지식인의 대문을 통해 들어가 검색한 것이 아니라 웹문서에 링크 된 주소에 의해 검색된 결과에 불과하다. 만약 구글이 robots.txt를 무시하고 검색했다면 수 백 만 건의 검색 결과가 표시되어야 할 것이다.

robots.txt를 막지 않고 싸우는 외국과 막고 싸우는 국내 포탈
외국 사이트는 어떨까? 구글이 인수한 세계 최대 블로그 사이트라는 블로거닷컴도 검색을 막고 있을까? ‘http://www.blogger.com/robots.txt’를 입력해 블로거닷컴의 로봇규약을 살펴봤다. 블로거닷컴은 회원의 개인정보나 덧글을 단 사람의 이메일주소 등이 노출되는 ‘http://www.blogger.com/profile-find.g’와 ‘http://www.blogger.com/comment.g’ 두 곳만 막고 나머지는 검색을 허락하고 있다.

회원 신상정보와 이메일이 포함되는 덧글 관련 내용만 로봇 검색을 막고 있는 블로거닷컴

때문에 구글 검색창에서 ‘blog site:blogger.com’으로 검색해보면 886,000개의 검색결과를 보여주며, ‘site:blogger.com’으로는 747만 건의 검색결과를 보여준다. 야후(www.yahoo.com)에서도 “blogger.com“으로 검색할 경우 약 2780만 건이라는 엄청난 수치를 보여준다.

blog site:blogger.com’의 검색결과는 886,000개다.

</P

지난 번 데니스 황이 국내에 들어왔을 때 인터뷰 한 내용 중에 다음과 같은 내용이 있다.

아직 저희는 차단된 DB에 대해서는 가져올 수 없고…[줄임] 저희는 정보를 항상 최대한 많은 사람들에게 제공하려다 보니까, 유료였던 것들을 무료로 제공하는 경향이 있어요. 키홀(구글맵에 붙은 인공위성 사진 서비스), 피카사(포토 관리 프로그램)…유료였는데 저희가 가져다가 무료로, 혹은 반값으로 제공하죠. [줄임] 렉시스넥시스(LexisNexis)를 3만원 내고 본다. 왜? 수집해 주니까. 그럼 우리가 수집하면 공짜로 보여줄 수 있잖아.”– 유진닷컴(http://www.youzin.com/blog/archives/000355.html)

차단된 DB에 대해서는 정보를 가져오지 못하기 때문에 유료인 정보를 인수해 무료로 제공하고 있는 곳이 구글이다. 실제로 구글은 블로거닷컴, 피카사, 키홀을 비롯한 많은 기업을 사서 그들 기업이 가진 정보를 무료로 공개하고 있다. 덕분에 과거에는 유료였던 위성사진을 이제는 무료로 볼 수 있다. 여기에 공개API까지 제공해 구글의 자료를 누구나 자유롭게 가공해 사용할 수 있도록 하고 있다. 그래서 구글 지도를 이용한 하우징맵이나 지오블로거와 같은 서비스가 등장할 수 있는 것이다. 이처럼 게시물의 검색 허용을 당연히 허용할 뿐만 아니라 공개 API까지 제공하며 자료 활용을 돕는 외국 사이트와 네티즌이 올린 자료들마저도 막는 국내 검색 포탈의 철학적, 도덕적 차이는 너무 크다.

한국적인 기술력이 고작 robots.txt로 검색로봇 막는 것?

그런데도 국내 포탈 관계자나 경영진은 언론에 종종 “우리들은 한국적 기술력을 가지고 있기 때문에 구글이 들어와도 무섭지 않다”고 자신감을 표출한다. 그 한국적 기술력이 고작 robots.txt로 구글의 검색로봇을 막고, 네티즌으로 하여금 다른 곳에 있는 자료를 퍼오게 해서 자사 DB(Database)서버에 쌓는 것인가? 그것이 한국적 특성에 맞게 개발한 기술력이고 자신감의 원천인가?

이런 자세로는 개방성을 추구하는 인터넷 문화 흐름에 역행하기만 할 뿐 아니라, 자신도 모르게 기술력이 위축될 뿐이다. 현재 국내 검색 포탈의 검색 능력은 구글이나 야후에 비해 크게 뒤떨어진 상태다. 국내 검색 사이트의 웹문서 검색능력에 대해서는 다음 글에서 좀더 자세하게 다룰 것인데, 일단 결론만 말하자면 국내 검색 사이트의 웹문서 검색 능력은 몇 년 전 상황에서 한 걸음도 나가지 못하고 있다. 국내 포탈 사이트는 자사 서버 내의 DB 검색에 매달리고 있으며 그마저도 수 많은 인력이 편집해서 보여주고 있다.

서버 내의 자료는 누가 만든 것인가? 네티즌들이 만든 것이다. 그것도 여기저기 유료 무료 사이트에 올라온 고급 정보들을 펌질해서 올린 자료가 대부분이다. 이것이 한국적인 기술력이고 구글 정도는 상대할 수 있는 이유라고 말한다면 제 손으로 자기 눈 가리기 아닌가?

결국 싸움터는 웹 전체가 될 것이다

네이버 직원이 말한 것처럼 현실적으로 볼 때 구글이 한국 지사를 설립하고 수 백 명의 인력을 투입한다 하더라도 구글이 네이버나 다음을 이길 방법은 없다. 국내 사이트가 robots.txt로 구글 검색로봇의 검색을 막고 구글이 robots.txt를 준수하는 한, 가까운 시일 안에 구글이 검색엔진으로 한국에서 성공할 가능성은 극히 희박하다.

그러나 언제까지 사람들이 원하는 모든 자료가 네이버 지식인과 네이버 블로그에만 쌓여있을 것이라고 생각하는가? 우주처럼 광활한 웹의 세계에서 하나의 점에 불과한 네이버나 다음에 웹의 모든 자료가 쌓여 있을 것이라는 생각은 얼마나 어리석은 생각인가. 이미 고급자료는 점차 개인 블로그에 축적되는 흐름을 보이고 있다. 또한 언젠가는 네티즌도 원하는 자료를 찾기 위해 포탈의 그늘에서 벗어나 더 넓은 웹의 세계로 향할 것이며 그 날은 곧 다가올 것이다. 결국 현재의 편법은 시간을 벌어주는 역할에 불과하다.

그 시간이 지나면 검색로봇을 막고 불공정 경쟁을 하고 있는 국내 포탈은 도덕적 자신감 결여와 기술투자 부족의 칼날에 의해 상처를 입을 것이다. 그런 상처를 입지 않고 장기적인 경쟁력을 갖추려면 지금이라도 공정하게 경쟁하며 기술 축적에 힘써야 할 것이다. 구글의 검색 결과가 형편 없다고 자만할 때가 아니라, 구글의 검색 결과가 형편 없는 이유에 대해 부끄러워 하며 다가올 전면전을 치열하게 준비해야 하는 것이다. 결국 최종 싸움터는 네이버 사이트 안이 아닌 웹 전체가 될 것이며, 싸움의 승패 역시 웹 검색에서 판가름 날 것이다.

ⓒ SpotNews.com&매경인터넷. 무단전재 및 재배포 금지

<이 칼럼의 내용과 주장은 칼럼니스트의 개인 의견이며 IT SpotNews의 편집방향과 다를 수 있습니다>
========================================================
왜 구글에서 국내정보가 잘 안찾아지는가에 대한 해답
이런 이유가 있다고는 생각 못했었는데, 아무튼 난 이래저래 네XX가
맘에 안든다
. 폐쇄적인 블로그 정책도 그렇고 보안을 신경쓴다는 미명하에 프로그램도 무겁게 만들어놓고, 아무튼 구글이 우리나라 검색시장을 장악하는 것도 문제가 되겠지만 기술이나 사용자편의를 개선하지 않은 눈감고 아웅하기 식의 정책으로는 네이버나 다음도 경쟁에서 언제까지나 승리하지는 못할 것 같다.

0 Shares:
Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

You May Also Like
Read More

nVidia Deep Learning Institute 참가 후기

외부 진료 자문 일정에 잠깐 여유 시간이 되어 참가해본 nVidia Deep Learning Institue (http://www.nvidia.com/content/apac/event/kr/nvidia-deep-learning-institute-march/) (사진 출처 : http://biztribune.co.kr/n_news/news/view.html?no=17005)…
Read More

On going

ResNet50 모델을 기반으로 돌린 나의 데이터. Overfitting 문제인지 아니면 그냥 부진한 학습의 문제인지, Epoch을 50까지 늘렸는데, 한 에폭당…
Read More

USMLE 끝나다

2016년 3월에 Step 1, 2017년 5월에 CS, 12월에 CK. 비록 모든 시험이 다 평균에 못 미치는 좋은 결과는…
Read More

그리다 만 그림

문득, 전임의 시작 직전까지 작업하다 멈춘 그림을 아내와 쓰는 메신져에서 찾았다. 나름 좋은 취미가 있었구나(과거형ㅠ) 분당에서 돌아오면 다시…

SCJP 310-065 후기 & 책소개

지난 연말고사기간 동안에 세워놨던,MCSD처럼 여러과목을 공부해야하는 것도 아니기에겨울방학때 한번 해보자 마음먹었던 자격증 시험.재시험을 각오하고서 봐놓고서, 끝에 채점표에 PASS가…