Home > 뉴스 > 라이프
검색의 진화… 당신의 생각까지 읽는다
  • 입력:2010.12.30 18:11
  • 트위터로 퍼가기
  • 싸이월드 공감
  • 페이스북으로 퍼가기
검색의 진화… 당신의 생각까지 읽는다 기사의 사진

인터넷, 정보 검색서 ‘의견 검색’ 시대로

여론조사업계에 지난 6월 지방선거는 재앙이었다. 선거 결과는 여론조사의 예상을 크게 벗어났고, ‘전통적 여론조사 방식은 더 이상 유효하지 않다’는 인식이 확산됐다. 집 전화보다 휴대전화를 쓰는 사람이 훨씬 많은데 집 전화로만 조사해서 여론을 가늠한다는 게 말이 되냐는 지적도 나왔다.

우리보다 먼저 같은 고민을 시작한 미국에서 거론되는 대안이 ‘오피니언 마이닝(Opinion Mining·의견검색)’이다. 트위터, 페이스북, 인터넷 커뮤니티, 블로그 등의 내용을 분석해 여론을 파악하는 기법. 기존 여론조사의 사각지대였던 ‘넷심(네티즌의 마음)’을 알 수 있다는 장점도 있다.

지난 11월 미국 미주리주 상원의원 선거에 이 방법이 활용됐고, 5월 영국 총선에선 한 업체가 13만개 트위터 계정을 조사해 여론을 분석하기도 했다. 나에게 전화를 걸지도, 물어보지도 않고 내 생각을 검색해 알아내는 시대. 국내에서도 이제 시작됐다.

검색엔진 업체 다이퀘스트는 지난해 10월 28일 국회의원 보궐선거에서 이 같은 분석을 시도했다. 방법은 간단하다. 9월 27일부터 10월 27일까지 포털사이트 뉴스에 후보 이름이 언급된 횟수를 기초 자료로 삼았다. 해당 기사에 댓글이 많으면 네티즌 관심이 높다는 것으로 간주했다. 이렇게 후보마다 포털 뉴스 점유율을 계산했다. ‘인터넷 뉴스 점유율이 높을수록 대중의 관심이 많다는 뜻이고, 이는 득표에 유리하게 작용하리라’ 가정한 것이다.

결과는 흥미롭다. 경기도 수원시 장안구, 안산시 상록구을, 강원도 강릉시, 충북 증평·진천·괴산·음성군, 경남 양산시 등 5개 선거구에서 모두 당선자를 맞혔다. 그중 3곳에서 출마한 모든 후보의 득표 순위까지 적중시켰다.

다이퀘스트 관계자는 “일부 선거구는 오차 범위 안에서 예상 득표율과 실제 수치가 차이를 보이긴 했다. 하지만 후보의 뉴스 점유율 과 득표율의 상관관계를 텍스트 분석으로 검증했다는 데 의미가 있다”고 말했다.

기존 검색이 ‘팩트’를 찾아내는 데 집중했다면 오피니언 마이닝은 ‘팩트’에서 ‘의견’을 뽑아낸 뒤 이를 평가하는 것이다. ‘질문해서 받아내는’ 의견이 아니라 ‘스스로 말하는’ 의견을 채집하기 때문에 정보의 순도가 높다고 한다.

오피니언 마이닝을 적용한 비즈니스도 등장했다. 지난해 문을 연 사이트 ‘버즈니닷컴’은 의견검색 엔진을 자체 개발했다. 이 엔진이 자동차, 노트북, 영화, 맛집 등에 대한 네티즌 의견을 각종 웹사이트를 돌아다니며 365일 실시간 수집했다.

신형 쏘나타가 출시될 경우 네티즌들이 어떤 평가를 내리는지 파악하고, 현재 상영 중인 영화들의 관람평을 토대로 선호도 순위를 매겼다. 이용자들이 이 업체에 의견을 보내지 않아도 블로그, 카페, 게시판 등에 올라오는 의견을 검색엔진이 자동으로 수집해 분석했다.

이 사이트는 올 초 문을 닫았다. 너무 많은 분야의 의견을 검색하다 보니 데이터가 지나치게 방대해졌고 정확도가 낮았다. 이 업체 검색엔진의 자동 분류 정확도는 현재 70∼80%다. 대신 영화에만 집중해 스마트폰 애플리케이션(응용프로그램) ‘버즈니영화’를 출시하고, 사람이 개입해 수시로 검색엔진의 오류를 수정해주는 방식을 도입했다. 김성국 기술이사는 “오류를 수정해주면 기계가 기억한다. 반복할수록 기계의 오류가 줄어든다”고 말했다.

형용사, 동사, 부사에 주목하라

의견검색의 출발은 텍스트 분석이다. 이 분야에서 영어는 멀찍이 앞서 가고 있다. 연구가 먼저 시작됐고 연구자도 많지만, 무엇보다 문장 형태가 일정하다는 장점이 있다. 서울대 지능형데이터베이스 연구실 관계자는 “영어는 주어 동사 목적어가 일정한 위치에 자리하지만 한국어는 위치가 자유로운 편이다. 조사가 있고 동사나 형용사의 어미가 상황에 따라 변한다는 점도 한국어 분석을 어렵게 하는 요인”이라고 말했다.

의견검색의 단계는 이렇다. 특정 자동차에 관한 의견을 조사할 경우 먼저 수많은 웹문서 중 그 자동차에 관한 글을 추려내야 한다. 다음은 그 글이 그 자동차를 타본 의견인지, 외관만 본 의견인지 파악해야 한다. 이어 디자인, 소음, 가격 등 여러 속성 가운데 무엇에 관한 것인지 분류한 뒤 그래서 좋다는 건지, 나쁘다는 건지 판단할 수 있어야 한다.

한국어로도 이런 검색을 할 수 있는 기법이 속속 개발 중이다. ‘버즈니영화’ 검색엔진은 특정 문서가 영화에 관한 내용인지 아닌지 판단할 때 ‘영화를 봤다’ ‘영화관에 갔다’ 등의 문장을 단서로 삼는다. 이런 문장이 들어가면 영화를 보고 쓴 글일 확률이 높기 때문이다.

다음은 이렇게 추린 문서 중 의견을 밝힌 문장들을 골라낸다. ‘○○영화는 배우들 연기는 뛰어난데, 스토리가 지루하다’라는 문장이 있다고 하자. 의견은 주로 ‘뛰어난데’ ‘지루하다’ 같은 형용사 부사 동사에 포함돼 있다. 이런 품사들에 대해 긍정적인 의견일수록 높은 점수, 부정적인 의견일수록 낮은 점수를 부여한다.

문제는 같은 단어라도 문맥에 따라 뜻이 달라질 수 있다는 점이다. ‘커피가 뜨겁다’와 ‘남녀 사이가 뜨겁다’에서 ‘뜨겁다’는 전혀 다른 의미로 쓰인다. 이럴 때 문맥에서 의미를 읽어낼 수 있도록 검색엔진에는 각 단어와 예문들이 함께 입력돼 있다. 이렇게 특정 영화에 관한 의견 수집이 끝나면 총평, 연기, 장면, 감독, 배우 등 속성별로 분류해 최종 평가를 제공한다.

사용처 무궁무진

대중을 상대로 한 의견검색 서비스는 아직 걸음마 수준이지만 기업을 상대로는 꽤 활용되고 있다. 기업은 불특정 웹문서가 아니라 특정 게시판에 대한 분석만 요구하는 경우가 많아 정확도를 훨씬 높일 수 있다.

다이퀘스트는 지난해 한 자동차 업체 의뢰로 일본차 혼다에 대한 네티즌 의견을 조사했다. 블로그와 자동차 관련 인터넷 커뮤니티가 대상이었다. 조사 결과 2월 19일부터 24일까지는 긍정적 의견이 부정적 의견보다 압도적으로 많았지만 25일부터 부정적 의견이 급증해 70%를 넘어섰다. 이런 추세는 조사가 끝난 3월 2일까지 계속됐다.

원인은 리콜이었다. 국토해양부는 조사 시작일인 2월 19일 “혼다코리아에서 2008년 수입·판매한 모터사이클 277대에 제작 결함이 발생해 리콜한다”고 발표했다. 이 소식이 알려지고 일정 기간이 지나자 자동차 관련 블로그나 커뮤니티에 부정적 의견이 쏟아져 나온 것이다.

네티즌 의견은 속성별로도 분류됐다. 혼다 브랜드에 대해선 디자인이 가장 높은 평가(13점)를 받았다. 출력 8점, 내구성 7점, 사양 5점 등이 뒤를 이었다. 부정적 평가를 받은 항목은 가격 -5점, 주행성 -1점 등이다. 다이퀘스트 관계자는 “속성별 평가는 경쟁사와 장단점 비교가 가능해 경영에 참고할 수 있다”고 말했다.

상품이나 서비스에 대한 고객들의 구체적인 반응을 파악하는 데도 오피니언 마이닝이 활용된다. 소프트웨어 개발 업체 SAS코리아는 지난해 한 홈쇼핑 업체의 고객들이 인터넷에 올린 상품평을 오피니언 마이닝 기법으로 분석했다. 긍정적이거나 부정적인 댓글이 제품의 가격, 기능, 배송, 외관 등 여러 요소 중 무엇 때문인지 파악하는 작업이었다.

SAS코리아 관계자는 “미국 컴퓨터 업체 휴렛팩커드 콜센터에는 30만건 이상 고객 불만이 보관돼 있다. 이 양은 매일 늘고, 사람이 일일이 분류하기란 불가능하다. 그래서 이를 모두 텍스트로 변환해 오피니언 마이닝으로 분석한다. 홈쇼핑 분석때도 같은 방법을 사용했다. 고객 불만 중 ‘배송’ ‘불량’ ‘품질’ 등 주요 어휘를 추출해 보면 고객들의 생각을 전반적으로 파악할 수 있다. 과거엔 특정 제품에 대한 불만을 조사하는 데 몇 시간이 걸렸지만 이 기법을 도입한 뒤론 20분 정도면 된다”고 말했다.

오피니언 마이닝은 검색의 새로운 장을 열고 있다. 표준화된 기술이 없고, 정확도가 아직 만족스럽지 못하다는 게 문제로 지적되지만 다양한 분야에서 시도되고 있다. 숭실대 데이터마이닝 연구실 관계자는 “지금까지 인터넷과 관련된 분석과 연구는 양적인 측면에 치중해 왔는데, 오피니언 마이닝은 내용을 분석한다. 정량적인 분석과는 차원이 다른 접근법”이라고 평가했다.

김원철 기자 wonchul@kmib.co.kr

투데이 핫 인포ad

트위터로 퍼가기
페이스북으로 퍼가기
싸이월드 공감