Science
소셜 네트워크의 트렌드를 알아내는 추천이론
장종엽엔에스
2014. 11. 25. 13:49
http://mirian.kisti.re.kr/futuremonitor/view.jsp?record_no=253351&cont_cd=GT | |
---|---|
KISTI 미리안 『글로벌동향브리핑』 2014-11-24 |
|
MIT LIDS(MIT’s Laboratory for Information and Decision Systems)의 Devavrat Shah 연구그룹은 소셜 네트워크의 정보 처리 방법에 대한 분석화 분야를 연구하고 있다. 2012년에 이 연구그룹은 어떤 토픽이 트위터에서 어떤 트렌드를 형성하는지 미리 예측할 수 있는 알고리즘을 개발하여 증명하였다. 올해 그들은 비트코인이라는 온라인 화폐의 가격 변동을 예측하기 위해서 동일한 프레임워크를 사용하고 있다. 다음 달에 열리는 신경정보처리시스템 컨퍼런스(Neural Information Processing Systems)에서 그들은 이 연구결과에 대한 논문을 발표할 예정이다. 이 논문의 주요 내용은 우리에게 익숙한 아마존, 넷플릭스와 같은 웹사이트에 그들이 개발한 모델을 추천엔진으로 적용한 것으로 이것은 놀라운 연구결과를 보여주었다. “우리의 관심은 소셜 데이터를 통해서 데이터 처리를 이해하는 좋은 모델을 가지는 것이었다. 이것은 사람들이 어떻게 결정을 하고, 선호도를 나타내거나 행동을 하는 방법을 이해하게 해주는 것이다. 그러나 이것을 개발하고, 더 나은, 간단하고, 기본적인 추천알고리즘을 디자인하는 것은 매우 다른 일이 될 것이다. 이것은 모델에 따라서 표준 추천 알고리즘이 적당하다는 것을 증명하고 있다”고 Jamieson 전기공학 및 컴퓨터과학과 Shah 교수가 말했다. 표준 알고리즘은 협업 필터링이라고 알려져 있다. 이것이 어떻게 동작하는지 알기 위해서 사용자들이 영화를 보는 영화 스트리밍 서비스를 이용하였다. 당신에게 특별한 추천을 만들기 위해서 알고리즘은 먼저 당신과 중복되는 비율을 가진 유사한 다른 사용자들의 유사성 점수를 할당하게 될 것이다. 특별한 영화에 대한 당신의 반응을 예측하기 위해서, 이것은 사용자들로부터 받은 영화에 대한 점수를 종합하게 되는데 유사성 점수에 따라서 합해지게 된다. 그들의 분석을 단순화하기 위해서 Shah와 공동연구자인 LIDS의 박사 후 과정생 Guy Bresler, MIT EECS(Electrical Engineering and Computer Science)의 대학원생 George Chen, EECS의 Polina Golland 교수는 찬성 또는 불찬성이라는 두 가지 값을 가지는 평가시스템을 가정하였다. 그래서 모든 사용자들의 취향이 1과 0라는 문자열에 의해서 완벽한 정확성을 가지고 보여지게 되었다. 이것은 특별한 영화에 해당되는 스트링의 위치와 이 위치에 있는 숫자가 평가점수를 나타내주게 되는 것이었다. MIT 연구원들의 모델은 이러한 스트링의 그룹을 다함께 클러스터링할 수 있으며, 이러한 클러스터가 확률적으로 기술될 수 있다는 것을 가정하였다. 스트링의 각 위치에서 1과 0이라는 수치를 가지지 않고, 확률적인 클러스터는 확률적인 값을 가지게 된다. 그래서 클러스터의 멤버가 A라는 영화를 좋아하는 것이 80%라면, B라는 영화를 좋아하는 것이 20%라는 것과 같이 나타내었다. 그러나 인구의 특징을 나타내기 위해서 얼마나 많은 이러한 클러스터들이 요구되는가에 대한 의문이 발생하게 된다. 만약 영화 다이하드를 좋아하는 사람들의 반이 셰익스피어 인 러브와 같은 영화를 좋아하지만 나머지 반에 해당되는 사람들이 그것을 싫어한다면, 다이하드 팬들은 두 가지 클러스터로 분리될 수 있을 것이다. 그렇지 않으면, 예측하기에 유용한 그들의 선호도 간에 상관관계를 잃어버리게 될 것이다. 한편, 당신이 가지고 있는 클러스터가 더 많아질수록, 그것들 중에 특정한 사용자들이 속하고 있는 것을 결정해야 될 더 많은 점수를 필요로 하게 될 것이다. 제한된 데이터로부터 신뢰할만한 예측을 하는 것은 불가능하다. 새로운 논문에서 MIT 연구원들은 인구의 변화를 설명하는데 요구되는 클러스터의 수가 작아짐에 따라서 협업 필터링은 거의 최적의 예측을 산출해낼 수 있다는 것을 보여주었다. 그러나 실제로 얼마나 낮은 숫자인지에 대한 질문이 발생하게 되었다. 이 질문에 대답하기 위해서, 연구원들은 무비 스트리밍 사이트에서 천만 명의 사용자들에 대한 데이터를 조사하였으며, 동일한 500가지의 영화에 점수를 준 200명을 알아내게 되었다. 인구에 대한 대부분의 변화를 설명해주기에 실제로 그들은 5가지 확률적인 모델인 단지 5가지의 클러스터만으로도 충분하다는 것을 발견하였다. 연구원들의 모델은 협업 필터링에 대한 효율성을 입증하였으며, 또한 이것을 향상시키는 방법을 주장하였다. 일반적으로 협업 필터링 알고리즘이 사용자들의 선호도에 관한 정보를 더 많이 가짐에 따라서, 이것의 예측이 더 정확해질 것이다. 그러나 모든 추가적인 정보가 동일한 결과를 만들어주는 것은 아니다. 만약 사용자가 대부와 같은 영화를 좋아한다면 대부2와 같은 영화도 좋아한다는 정보를 가지고 있는 것이지만, 이 정보가 그가 노트북과 같은 영화를 좋아한다는 예측적인 능력은 아마도 적어지게 되는 것이다. 분석적인 체계를 사용한 LIDS 연구원들은 사용자들의 취향에 관한 정보에 불균형적인 수량을 만들어내는 적은 수치들을 어떻게 선별해내는지를 보여주었다. 만약, 서비스 제공업자들이 결과에 의한 점수에 기초하여 모든 고객들에게 이러한 제품들을 추천하게 된다면, 이것은 확률 클러스터에서 더 효율적으로 선별할 수 있게 될 것이다. 그래서 추천에 대한 품질을 향상시켜야만 되는 것이다. 오스틴에 있는 텍사스대학교(University of Texas at Austin) 전기 및 컴퓨터공학과 Sujay Sanghavi 교수는 “만약 당신이 어떤 종류의 협업 필터링을 하고 있다면, 두 가지의 일이 일어날 수 있다. 나는 사용자로서 이것으로부터 점수를 받고 있지만, 다른 사람들도 또한 점수를 받고 있다. 잠재적으로 이것은 이러한 일들 간의 균형인 것이다. 인기 있는 영화가 있다면, 당신은 내가 이것을 좋아하는지 쉽게 알 수 있지만, 다른 사람들을 위한 추천이 향상되지는 않을 것”이라고 말하면서, 이 연구의 이러한 부분에 가장 큰 흥미를 느끼고 있다고 덧붙였다. 이러한 균형은 실증적인 맥락으로 보여지고 있다고 Sanghavi가 말했다. “그러나 이것이 원칙을 따르고 있는 것은 아무것도 없다. 나에게 이 논문이 흥미를 이끄는 것은 이러한 문제들을 연구하는데 원칙을 가지고 있다는 것이다. 이러한 분야는 지금까지 없었다. 그들은 새로운 종류의 문제를 발견했고, 그 문제를 연구하고 있는 중”이라고 그가 말했다. |