티스토리 잠정 폐쇄

티스토리 블로그는 문을 닫습니다. 지금까지 티스토리에 너무 많은 포스트가 있어서 네이버와 함께 올리고 있었지만 관리하기가 어렵네요. 네이버에서 타 블로그의 백업이 지원되지않아서 옮길 방법이 없어 그냥 두고 있었는데 차차 옮겨..

Jeremy
Jeremy 2012/05/03

퇴근길에 병원에 들러 뚜둥이 약 받아가지도 돌아왔는데... 오늘 두 개만 와 있을 줄 알았던 택배가 네 개...헐 뭘 그렇게 많이 질러댄거니...ㅜ_ㅜ 주말에 구입했는데 상품이 없어서 배송해주기로 한 작은 핸드백 근 10년간..

그들의 즐거운 한 때.

정말 오랜만이네요. 인형 포스팅을 하는게...ㅜ_ㅜ 뚜둥이 때문에 마음도 심난하고 우울하고 정신놓고 뚜둥이만 쳐다보고 있다가 뭔가 해야지 하고 셋팅을 했지요. 오랜만의 연휴였는데 아무것도 남기지 않으면 더 우울할 것 같아서요...

Szomszor, M., Cattuto, C., Alani, H., O’Hara, K., Baldassarri, A., Loreto, V. and Servedio, V. D. P.

In: 4th European Semantic Web Conference, Bridging the Gap between Semantic Web and Web 2.0, 3-7th, June 2007, Innsbruck, Austria.



Folksonomy-generated movie tag-cloud가 서로 다른 종류의 영화에 대한 사용자의 흥미 레벨을 반영하여 더 나은 사용자 프로파일을 구축할 수 있다는 것을 보인다.


사용자의 흥미는 아이템을 표현하는 애트리뷰트들로 표현된다. => 시스템 내부 정보만 사용, 아이템이나 사용자 자신에 대한 외부정보를 사용하지 않는다.

폭소노미의 이점 => 그 실제 사용과 기술하고자 하는 리소스간의 긴밀한 연결, 개발과 활용이 용이

     => 어떤 추천 상황에서 고려될 수 있는 사용자의 인식에 관련된 정보 제공

          즉, 온톨로지가 두개의 영화가 유사한가 아닌가에 대한 객관적인 지각을 제공한다 하더라도,

          그것은 사용자의 인식과 일치하게 매핑되는 것은 아니므로 이러한 관점에서 보완의 역할을 할 수 있다.


semantic web과 web 2.0은 서로 경쟁적 관계에 있거나 folksonomy가 더 간단하고 싼 bottom-up방식의 ontology라는 것을 의미하는 것은 아니다.

SW기술은 데이터 통합의 유용한 툴로서 사용

folksonomy는 사용자의 자원 소유에 대한 이해를 반영하는 유기적 구조, 사용자의 흥미 표현을 구성하는 데 더 효과적일 수 있다.

즉, 다양한 소스로부터 얻어진 관련있는 정보를 통합하여, 시스템이 접근할 수 있는 정보의 양을 증가시킴으로서 추천 시스템의 성능을 얼마나 향상시킬수 있겠는가 하는 것이 이 논문의 목적(?)이다.


 Dataset

IMDB의 키워드와 netflix의 레이팅을 대응, D2RQ를 사용하여 영화의 확장된 정보를 찾는다, 배우, 작가, 감독 등

온톨로지를 사용하여 데이터 통합


 각 사용자가 레이팅 한 모든 영화에서,

사용된 모든 키워드에 대해,

사용자가 r (= 1, 2, 3, 4, 5)이라는 레이팅을 한 모든 영화, 즉 rating 1인 영화들, rating 2인 영화들 각각에 대해서

키워드의 빈도수를 이용하여 tag-cloud를 생성


Average-based Rating 어떤 사용자가 새로운 영화에 대해 레이팅 할 때, 그 영화에 레이팅한 다른 사용자들의 평균 레이팅으로 레이팅 할 것이라고 가정

Simple Tag-cloud 새로운 영화 m의 키워드 집합과 각 레이팅에 대한 그 사용자의 태그클라우드를 본다.

m의 키워드와 사용자의 각 레이팅별 태그클라우드 안의 키워드들을 비교하여 공통으로 포함된 키워드의 수를 측정한다.

가장 많은 키워드를 공유하는 레이팅이 해당 영화의 레이팅이 된다.

Weighted Tag-cloud 새로운 영화 m의 키워드 집합과 사용자의 각 레이팅에 대한 태그클라우드와의 유사도를 구한다.

공통으로 포함하는 키워드에 대해, TFIDF방법으로 웨이트 줌, 키워드 k의 빈도수/ log(키워드 k의 global 빈도)

전체 합(레이팅 * 웨이트)/전체합(웨이트)=예측값


실험에서 쓰인 방법은...

Average-based rating + Weight Tag-cloud

(1-a)*평균레이팅 + a*가중치레이팅 , a=1/2로 사용, 0<a<1

최종 계산된 레이팅은 반올림하여 정수로 얻는다.

영화 m에 대한 키워드셋이 공집합일 경우에는 평균레이팅만 사용


실험데이터 Netflix에서 임의로 뽑은 500명의 사용자의 레이팅 선택

테스트 셋은 각 사용자의 최종(최근)100개 레이팅, 나머지는 트레이닝 셋으로 사용

Average-based Rating, Simple Tag-cloud(unweighted), Average-based rating + Weight Tag-cloud(weighted)를 비교한다.


예측값을 정수로 얻으므로, correct/incorrect rating을 퍼센트로 나타내고, RMSE를 구한다.

RMSE는 테스트 셋 안의 모든 아이템의 예측값과 실제값의 차를 제곱하여 아이템 갯수로 평균, 루트를 취한 오차율

unweighted의 경우가 정확하게 예측한 아이템의 갯수는 제일 많았지만, RMSE는 weighted의 경우가 가장 적다.

unweighted 와 weighted의 레이팅된 영화갯수에 따른 RMSE 분포를 비교하면, weighted가 오차범위가 적고,

레이팅된 영화의 갯수에 대해 오차율이 독립적이라는 것을 알 수 있다.

전체 데이터의 레이팅 분포 (1-5)와 세가지 방법으로 예측한 값의 레이팅 분포를 비교하면, 예측한 값을 살펴볼때 1과 2로 레이팅된 아이템은 거의 무시된다...(?)는 것을 알수 있다.

1, 2, 5와 같이 실제 레이팅이 매우 낮거나 높은 아이템은 모두 잘 예측해내지 못한 반면, 분포가 높은 3, 4의 레이팅은 모두 비교적 잘 예측해낸다.

3, 4와 같은 중간 레이팅의 경우 제안된 방법이 평균값을 레이팅으로 사용하는 경우보다 더 잘 예측해낼 수 있다.

(그림 6에서 실제 레이팅과 예측 레이팅이 같은 자리의 색이 연할수록 잘 예측된 것임)

3-4, 4-3으로 예측된 경우와 비교하였을 때, 색의 차이가 더 많다. (a와 b 비교)

레이팅 1, 2, 5에 대한 예측은 성능이 더 안좋다.


future work에서...

더욱 content-based 된 scheme을 사용하면 성능이 향상될 것이다. IMDB에서 제공하는 각종 영화에 대한 메타정보는 물론 레이팅의 demographic  breakdown을 제공하기 때문에 더욱 자세한 프로파일을 만드는 것이 가능하다. 본 논문에서는 협력적 여과 기법이 사용되지 않았지만 tag-cloud가 유사이웃집단을 찾는데 도움을 줄 것이라는 것을 보여줄 예정이란다.



이 글은 스프링노트에서 작성되었습니다.

Creative Commons License
Creative Commons License
◀ PREV | 1 | ... 294 | 295 | 296 | 297 | 298 | 299 | 300 | 301 | 302 | ... 352 | NEXT ▶

BLOG main image
히히히...ㅡ_ㅡ by 뚜방꽁

카테고리

ALL--? (352)
.On.tHe.EDgE. (92)
HotStudy+-+ (64)
CoolTHINGS!! (196)

달력

«   2012/05   »
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    
Total : 47,301
Today : 25 Yesterday : 40