[Review] Folksonomies, the Semantic Web, and Movie Recommendation
Szomszor, M., Cattuto, C., Alani, H., O’Hara, K., Baldassarri, A., Loreto, V. and Servedio, V. D. P.
In: 4th European Semantic Web Conference, Bridging the Gap between Semantic Web and Web 2.0, 3-7th, June 2007, Innsbruck, Austria.
Folksonomy-generated movie tag-cloud가 서로 다른 종류의 영화에 대한 사용자의 흥미 레벨을 반영하여 더 나은 사용자 프로파일을 구축할 수 있다는 것을 보인다.
사용자의 흥미는 아이템을 표현하는 애트리뷰트들로 표현된다. => 시스템 내부 정보만 사용, 아이템이나 사용자 자신에 대한 외부정보를 사용하지 않는다.
폭소노미의 이점 => 그 실제 사용과 기술하고자 하는 리소스간의 긴밀한 연결, 개발과 활용이 용이
=> 어떤 추천 상황에서 고려될 수 있는 사용자의 인식에 관련된 정보 제공
즉, 온톨로지가 두개의 영화가 유사한가 아닌가에 대한 객관적인 지각을 제공한다 하더라도,
그것은 사용자의 인식과 일치하게 매핑되는 것은 아니므로 이러한 관점에서 보완의 역할을 할 수 있다.
semantic web과 web 2.0은 서로 경쟁적 관계에 있거나 folksonomy가 더 간단하고 싼 bottom-up방식의 ontology라는 것을 의미하는 것은 아니다.
SW기술은 데이터 통합의 유용한 툴로서 사용
folksonomy는 사용자의 자원 소유에 대한 이해를 반영하는 유기적 구조, 사용자의 흥미 표현을 구성하는 데 더 효과적일 수 있다.
즉, 다양한 소스로부터 얻어진 관련있는 정보를 통합하여, 시스템이 접근할 수 있는 정보의 양을 증가시킴으로서 추천 시스템의 성능을 얼마나 향상시킬수 있겠는가 하는 것이 이 논문의 목적(?)이다.
Dataset
IMDB의 키워드와 netflix의 레이팅을 대응, D2RQ를 사용하여 영화의 확장된 정보를 찾는다, 배우, 작가, 감독 등
온톨로지를 사용하여 데이터 통합
각 사용자가 레이팅 한 모든 영화에서,
사용된 모든 키워드에 대해,
사용자가 r (= 1, 2, 3, 4, 5)이라는 레이팅을 한 모든 영화, 즉 rating 1인 영화들, rating 2인 영화들 각각에 대해서
키워드의 빈도수를 이용하여 tag-cloud를 생성
Average-based Rating 어떤 사용자가 새로운 영화에 대해 레이팅 할 때, 그 영화에 레이팅한 다른 사용자들의 평균 레이팅으로 레이팅 할 것이라고 가정
Simple Tag-cloud 새로운 영화 m의 키워드 집합과 각 레이팅에 대한 그 사용자의 태그클라우드를 본다.
m의 키워드와 사용자의 각 레이팅별 태그클라우드 안의 키워드들을 비교하여 공통으로 포함된 키워드의 수를 측정한다.
가장 많은 키워드를 공유하는 레이팅이 해당 영화의 레이팅이 된다.
Weighted Tag-cloud 새로운 영화 m의 키워드 집합과 사용자의 각 레이팅에 대한 태그클라우드와의 유사도를 구한다.
공통으로 포함하는 키워드에 대해, TFIDF방법으로 웨이트 줌, 키워드 k의 빈도수/ log(키워드 k의 global 빈도)
전체 합(레이팅 * 웨이트)/전체합(웨이트)=예측값
실험에서 쓰인 방법은...
Average-based rating + Weight Tag-cloud
(1-a)*평균레이팅 + a*가중치레이팅 , a=1/2로 사용, 0<a<1
최종 계산된 레이팅은 반올림하여 정수로 얻는다.
영화 m에 대한 키워드셋이 공집합일 경우에는 평균레이팅만 사용
실험데이터 Netflix에서 임의로 뽑은 500명의 사용자의 레이팅 선택
테스트 셋은 각 사용자의 최종(최근)100개 레이팅, 나머지는 트레이닝 셋으로 사용
Average-based Rating, Simple Tag-cloud(unweighted), Average-based rating + Weight Tag-cloud(weighted)를 비교한다.
예측값을 정수로 얻으므로, correct/incorrect rating을 퍼센트로 나타내고, RMSE를 구한다.
RMSE는 테스트 셋 안의 모든 아이템의 예측값과 실제값의 차를 제곱하여 아이템 갯수로 평균, 루트를 취한 오차율
unweighted의 경우가 정확하게 예측한 아이템의 갯수는 제일 많았지만, RMSE는 weighted의 경우가 가장 적다.
unweighted 와 weighted의 레이팅된 영화갯수에 따른 RMSE 분포를 비교하면, weighted가 오차범위가 적고,
레이팅된 영화의 갯수에 대해 오차율이 독립적이라는 것을 알 수 있다.
전체 데이터의 레이팅 분포 (1-5)와 세가지 방법으로 예측한 값의 레이팅 분포를 비교하면, 예측한 값을 살펴볼때 1과 2로 레이팅된 아이템은 거의 무시된다...(?)는 것을 알수 있다.
1, 2, 5와 같이 실제 레이팅이 매우 낮거나 높은 아이템은 모두 잘 예측해내지 못한 반면, 분포가 높은 3, 4의 레이팅은 모두 비교적 잘 예측해낸다.
3, 4와 같은 중간 레이팅의 경우 제안된 방법이 평균값을 레이팅으로 사용하는 경우보다 더 잘 예측해낼 수 있다.
(그림 6에서 실제 레이팅과 예측 레이팅이 같은 자리의 색이 연할수록 잘 예측된 것임)
3-4, 4-3으로 예측된 경우와 비교하였을 때, 색의 차이가 더 많다. (a와 b 비교)
레이팅 1, 2, 5에 대한 예측은 성능이 더 안좋다.
future work에서...
더욱 content-based 된 scheme을 사용하면 성능이 향상될 것이다. IMDB에서 제공하는 각종 영화에 대한 메타정보는 물론 레이팅의 demographic breakdown을 제공하기 때문에 더욱 자세한 프로파일을 만드는 것이 가능하다. 본 논문에서는 협력적 여과 기법이 사용되지 않았지만 tag-cloud가 유사이웃집단을 찾는데 도움을 줄 것이라는 것을 보여줄 예정이란다.
이 글은 스프링노트에서 작성되었습니다.
'HotStudy+-+ > !!PAPER!!' 카테고리의 다른 글
| [Review] AgentOWL: Semantic Knowledge Model and Agent Architecture (0) | 2007/10/02 |
|---|---|
| [Review] Folksonomies, the Semantic Web, and Movie Recommendation (0) | 2007/09/19 |
| [Publication] A User-Item Predictive Model for Collaborative Filtering Recommendation (0) | 2007/06/22 |
| [Publication] 협력적 태그를 이용한 추천 시스템 (0) | 2007/05/18 |


