'HotStudy+-+/!!PAPER!!'에 해당되는 글 30건

  1. 2010/03/12 Target Journal - Special Issue of International Journal of Electronic Commerce on MINING SOCIAL MEDIA
  2. 2010/03/12 [Review] Trend Detection in Folksonomies
  3. 2008/12/16 [Review] ALPACAS: A Large-scale Privacy-Aware Collaboration Anti-spam System
  4. 2008/12/04 [Review] TOSSTI: Saving Time and Energy in TinyOS with Software Thread Integration
  5. 2008/11/07 [Review] The Fractal Nature of the Semantic Web
  6. 2008/10/24 Target Conference - Canadian AI 2009
  7. 2008/10/24 Target Conference - UMAP 2009
  8. 2008/08/20 [펌] 논문 쓰기 (Part 2) - 논문 쓰는 첫걸음
  9. 2008/08/20 [펌] 논문 쓰기 (Part 1) - Publish or Perish
  10. 2008/06/01 [Publication] Collaborative Tag-based Filtering for Recommender systems
  11. 2008/02/25 [Review] Exploiting Social Annotation for Automatic Resource Discovery
  12. 2008/02/15 [Review] NeOn - Lifecycle Support for Networked Ontologie (Overview and Objectives)
  13. 2008/02/14 [Review] A Workflow for the Networked Ontologies Lifecycle: A Case Study in FAO of the UN
  14. 2008/01/04 [Review] A Hierarchy of Twofold Resource Allocation Automata Supporting Optimal Web Polling
  15. 2007/11/23 [Publication] Multi-Agent Framework for a Distributed Collaborative Filtering
  16. 2007/11/23 [Publication] Collaborative Tagging in Recommender Systems
  17. 2007/10/02 [Review] AgentOWL: Semantic Knowledge Model and Agent Architecture
  18. 2007/09/19 [Review] Folksonomies, the Semantic Web, and Movie Recommendation
  19. 2007/06/22 [Publication] A User-Item Predictive Model for Collaborative Filtering Recommendation
  20. 2007/05/18 [Publication] 협력적 태그를 이용한 추천 시스템
  21. 2007/05/01 [Publication] Distributed Collaborative Filtering for Robust Recommendations against Shilling Attacks
  22. 2007/01/01 [Publication] Error-based Collaborative Filtering Algorithm for Top-N Recommendation
  23. 2007/01/01 [Publication] Semantic Web Approach in Designing a Collaborative E-Item Bank System
  24. 2006/08/07 [Review] Inferring Trust Relationships in Web-based Social Networks
  25. 2006/08/07 [Review] Propagation Models for Trust and Distrust in Social Networks
  26. 2006/03/22 [Review] ITEM BASED COLLABORATIVE FILTERING RECOMMENDATION ALGORITHEMS
  27. 2005/12/22 [Review] CoAKTinG: Collaborative Advanced Knowledge Technologies in the Grid
  28. 2005/12/22 [Review] Toward a Personal Recommender System
  29. 2005/12/22 [Review] Toward an Ontology-Driven Architectural Framework for B2B
  30. 2005/11/11 [Publication] Enhancing Method of Collaborative Filtering using Item-Based Trust

티스토리 잠정 폐쇄

티스토리 블로그는 문을 닫습니다. 지금까지 티스토리에 너무 많은 포스트가 있어서 네이버와 함께 올리고 있었지만 관리하기가 어렵네요. 네이버에서 타 블로그의 백업이 지원되지않아서 옮길 방법이 없어 그냥 두고 있었는데 차차 옮겨..

Jeremy
Jeremy 2012/05/03

퇴근길에 병원에 들러 뚜둥이 약 받아가지도 돌아왔는데... 오늘 두 개만 와 있을 줄 알았던 택배가 네 개...헐 뭘 그렇게 많이 질러댄거니...ㅜ_ㅜ 주말에 구입했는데 상품이 없어서 배송해주기로 한 작은 핸드백 근 10년간..

그들의 즐거운 한 때.

정말 오랜만이네요. 인형 포스팅을 하는게...ㅜ_ㅜ 뚜둥이 때문에 마음도 심난하고 우울하고 정신놓고 뚜둥이만 쳐다보고 있다가 뭔가 해야지 하고 셋팅을 했지요. 오랜만의 연휴였는데 아무것도 남기지 않으면 더 우울할 것 같아서요...

물론 내 타겟은 아니고..ㅋㅋㅋ
난 살짝 참여할지도...(그닥 많이 참여가 안될지도..ㅋㅋㅋ)
그래도 마음을 가다듬는 의미에서 포스팅...ㅋㅋㅋ




http://socialgamingplatform.com/msm09/index.html

Call for Papers for a Special Issue of International Journal of Electronic Commerce on MINING SOCIAL MEDIA

GUEST EDITORS
Jose C. Cortizo, CTO, principal researcher on Social Media at Social Gaming Platform, professor at
Universidad Europea de Madrid. josecarlos.cortizo@wipley.com
Francisco M. Carrero, CEO, principal researcher on Recommender Systems at Social Gaming Platform,
professor at Universidad Europea de Madrid. francisco.carrero@wipley.com
Jose M. Gomez, Research Director at Optenet, jgomez@optenet.com


OVERVIEW
Recently, Forrester published a report, “The Future of the Social Web” where they sketched a timeline of the development of the Social Web, dividing its evolution in 5 eras. According to that report, the first era of the development of the Social Web started to explode the social relationships among users. Then, in the social functionality era, these social relationships resulted in the social functionality era where several websites started to add social functionalities in order to help users to interact with their peers. We are now in the era of Social Colonization, where technologies like Facebook Connect or Google Friend Connect have standardized social functionalities among websites and a vast majority of websites now include several social functionalities. Soon these federated identities will empower people to enter the era of social context with personalized and social content, and the development of tools for personalize social content will aim the development of the era of social commerce The primary goal of the proposed special issue of International Journal of Electronic Commerce is to foster research in the interplay between Social Media, Data Mining and Electronic Commerce, trying to reflect the actual developments on technologies that fit on the Social Context era.

SCOPE
The International Journal of Electronic Commerce is the #1-ranked journal on Electronic Commerce globally. This Special Issue will provide a significant opportunity for authors to publish important novel and original contributions in the area of Data Mining applied to Social Media. The guest editors seek papers and proposals that address various aspects of Mining Social Media, including recommender systems for social media, data mining algorithms designed to explode Social Networks, information management for Social Networks, etc.

RESEARCH QUESTIONS
We invite scholars and professionals from a broad range of disciplines to submit to this Special Issue. Papers
may encompass any or all of the following: foundational theoretical analyses, modelling, simulation, and
empirical studies. Authors may examine different aspects of mining social media in any of a variety of possible
contexts. Special topics of interest include, but are not limited to, the following:

A. Data Mining for Social Networks
• Novel Algorithms
• Association Rules
• Mining semi-structured data
• Classification and Ranking
• Clustering
• Text Mining
• Machine Learning
• Privacy Preserved Data Mining
• Statistical Methods
• Temporal and spatial data mining
• Parallel and Distributed Data Mining
• Interactive and Online Mining
• Data and Knowledge Visualization
• Multimedia mining (audio/video)
• Ensemble Methods
• Web Mining
• Graph Mining
• Link Mining

B. Information Management for Social Networks
• Recommender Systems
• Information Retrieval
• Sentiment Analysis
• Natural Language Processing
• Question Answering
• Semantic Processing
• Graph Analysis and Complex Networks
• Social Network Analysis

C. Possible applications
• Electronic Commerce
• E-Mail Spam Detection
• Blog/Social Networks Spam Detection
• Community Detection
• Users/content recommenders
• Trends discovery
• Blogs/Social Networks Community Dynamics
• User Reviews Ranking
• Blogs/Social Networks Contributions Summarization
• Abuse/Fraud Detection
• User Profile Modelling
• Event Detection and Tracking in Social Media
• Online Advertising

SUBMISSION GUIDELINES
Manuscripts submitted to the special issue should contain original material not published in nor submitted to other journals. Each manuscript has to have a cover page with the author information and another page with title and abstract but the author information omitted. The review process is double-blind and papers which do not meet publication quality standards will be rejected before the review process. Interested authors are required to submit extended abstracts of no more than two pages for their planned
submissions. This will give the editorial team an opportunity to determine if a given submission is appropriate or expedited handling and review.
Full papers should be sent via e-mail to Jose Carlos Cortizo <josecarlos.cortizo@wipley.com> in anonymized PDF Format, not including any author names or affiliations, and should not exceed 40 pages.

IMPORTANT DATES
Abstracts deadline 15 January 2010
Abstracts feedback 30 January 2010
Full paper submission 15 April 2010
Revisions notification 1 June 2010
Revised manuscripts 1 August 2010
Final decision 1 October 2010

GUEST EDITORS
Jose C. Cortizo,
CTO at Social Gaming Platform,
Professor at UEM, Spain
josecarlos.cortizo@wipley.com
Tel: (+34) 912115616
Fax: (+34) 912115611
Francisco M. Carrero,
CEO at Social Gaming Platform,
Professor at UEM, Spain
francisco.carrero@wipley.com
Tel: (+34) 912115616
Fax: (+34) 912115611
Jose M. Gomez
Research Director at Optenet
Spain
jgomez@optenet.com
Tel: (+34) 902154604
Fax: (+34) 913575433

저작자 표시 비영리 변경 금지
Creative Commons License
Creative Commons License
역시나 오랜만에 다시 연구를 좀 해봐야겠다고 생각해서 읽게 된 논문....
일년 남짓 이 쪽과 담 쌓고 살았으니, 다시 감을 좀 찾기 위해 선배오빠의 논문을 슬쩍 도와주기로 했다.
그래서 요즘 보고 있는건...
사용자가 컨텐츠에 단 태그가 시간이 지남에 따라 그 인기도랄까, 트렌드가 변하게 되는데
그걸 어떻게 하면 잘 측정해서 반영할까..에 대한 관련 연구를 읽고 있다.
읽었으니..기록, 기록, 기록..ㅋㅋㅋ

 

[Review] Trend Detection in Folksonomies

A. Hotho, R. J¨aschke, C. Schmitz, and G. Stumme
Y. Avrithis et al. (Eds.): SAMT 2006, LNCS 4306, pp. 56–70, 2006.
Springer-Verlag Berlin Heidelberg 2006


Abstract
Abstract. As the number of resources on the web exceeds by far the number of documents one can track, it becomes increasingly difficult to remain up to date on ones own areas of interest. The problem becomes more severe with the increasing fraction of multimedia data, from which it is difficult to extract some conceptual description of their contents. One way to overcome this problem are social bookmark tools, which are rapidly emerging on the web. In such systems, users are setting up lightweight
conceptual structures called folksonomies, and overcome thus the knowledge acquisition bottleneck. As more and more people participate in the effort, the use of a common vocabulary becomes more and more stable. We present an approach for discovering topic-specific trends within folksonomies. It is based on a differential adaptation of the PageRank algorithm to the triadic hypergraph structure of a folksonomy. The approach allows for any kind of data, as it does not rely on the internal structure of the documents. In particular, this allows to consider different data types in the same analysis step. We run experiments on a large-scale real-world snapshot of a social bookmarking system.


앞부분은 생략하고,
저자들은 PageRank를 기본으로 folksonomy내의 사용자, 리소스, 태그의 순위를 정한다. 결국 이 관계는 symmetric하기 때문에 사용자, 리소스, 태그의 어느 것에나 같은 방법을 적용할 수 있다.
PageRank를 사용하기 위해서 이들의 관계를 그래프로 나타내는데, tripartite 구조로 표현된다.
첫번째 그림이 일반적인 방향성 그래프의 형태라면, 두번째 그래프는 사용자가 어떤 리소스에 대해 어떤 태그를 사용하여 태깅하였는가를 나타내는 그래프이다.
이 그래프에서, PageRank와 같이 Random sufer model을 사용하는데,
w의 값이 weight, 즉, 해당 elememt의 rank값이 된다.
A는 row-stochastic version of adjacency matrix of the graph라고 되어있는데,
해당 엘리멘터에 대한 edge발생을 반영하기 위한 값으로 대충 이해하고 있다. (정확한 계산을 하려면 나중에 더 찾아봐야겠지만...)
여기서 중요한 건 p와 d의 값인데, p는 preference를 의미하고, d는 이 preference가 식에 얼마나 영향을 미칠것인가를 결정하게 된다.
이 p값을 이용하여, 저자들은 topic-specific한 rank를 결정할 수 있다고 주장하고 있다.
||w||=||p||를 유지하면서, d가 1보다 작을때(논문에서는 0.85)의 값에서 d가 1일때(특정한 preference가 없을때)의 값을 빼서 최종 weight값을 구한다.
실험에서는 메인 토픽 키워에 50%의 p값을 주고, 나머지 관련 태그에 나머지 p값이 그 관련정도에 따라 분포시켜 분석하고 있다. 

다음은 내가 더 관심을 가지고 있는 부분인, 각 엘리먼트의 인기도 변화의 측정 부분이다.

t는 시간 단위, n은 해당 시간의 전체 엘리먼트의 사이즈, r은 해당 시간의 해당 엘리먼트의 랭킹이다.
(이 논문에서는 항상 사용자, 태그, 리소스에 대해서 각각 분석하고, 각 요소에 같은 식을 적용한다.)
수식의 의미는, 상위 90%의 엘리먼트가 80%로 순위가 올라가는 것은, 0.09%에 있는 엘리먼트가 0.08
% 위치로 올라가는 것보다 3배가 쉽다...는 의미로 계산된다. 이렇게 시간 t0 - > t1동안 각 엘리먼트의 순위 변화를 통해 트렌드를 계산한다. 

이 논문에서는 이러한 값을 계산해서 추천에 이용한 것이 아니라, del.icio.us. 데이터를 이용하여 1년동안의 사용자, 태그, 리소스의 추이를 분석했다. 마지막으로 다른 논문의 Interestingness라는 트렌드 측정 방법과 비교하여, 상대적으로 long-term의 트렌드 분석에 본인들의 방법이 유리하다고 말하고 있다. (비교한 방법은 TF/IDF방식을 사용하고 있다....)





흑...역시 정리하는 건 너무 오래 걸린다...
그래도 나중에 다 피가 되고 살이 된다고 생각하고 열심히 하자!!!


저작자 표시 비영리 변경 금지
Creative Commons License
Creative Commons License

Z. Zhong, L. Ramaswamy and K. Li

IEEE, INFOCOM 2008


네트워크 수업 발표 논문.

교수님 말씀대로 INFOCOM에서 골랐지만, 네트워크랑 직접 관계가 있는걸까? ㅋㅋㅋ

암튼 우리 신임 교수님들, 정말 너무 빡세게 하시는 거 아냐..._-_



Abstract

Collaboration의 개념이 많은 수의 수신자에게 보내지는 massive spam email에 대해서 자연적인 방어력을 제공하기 때문에, 효과적인 collaborative anti-spam system의 설계는 많은 주요한 연구 과제를 던진다. 무엇보다도 먼저, email은 기밀 정보를 포함하고 있을 수 있기 때문에, 어떤 collaborative anti-spam system의 경우에도 참여 엔티티의 프라이버시를 반드시 보호할 수 있다는 것을 보장해야 한다. 두번째로, 계속해서 진화하는 스팸의 성질은 다양한 변종 공격에 탄력적인 collaboration technique을 요구한다. 세번째로, collaboration은 lightweight, efficient, scalable해야 한다. 이러한 과제를 해결하기 위해 본 논문은 ALPACAS, a privacy-aware framework for collaborative spam filtering을 제안한다. ALPACAS 프레임 워크를 설계하여 우리는 두 가지 contribution을 달성했다. 첫째로, 가장 최신의 스팸 공격에 매우 탄력적인 feature-preserving massage tranformation technique이다. 두번 째로 참여 엔티티의 개선된 privacy 보장을 제공하는 privacy-preserving protocol이다. 실제 이메일 데이터베이스에서 수행된 실험 결과는 최신의 스팸 공격 중 한 가지에 대해 제안된 프레임워크가 베이지안 기반의 bogofilter에 비해 false nagative rate이 10 fold의 향상을 제공하는 것을 보여준다. 또한, privacy의 위반은 극히 적었다. 이는 강력한 privacy의 보호가 ALPACAS에 의해 제공되는 것을 보여준다.







이 글은 스프링노트에서 작성되었습니다.

Creative Commons License
Creative Commons License

Zane D. Purvis and Alexander G. Dean

IEEE Real-Time and Embedded Technology and Application Symposium, 2008


임베디드 시스템 소프트웨어 수업에서 발표를 위한 논문 리뷰...

임베디드는 재미도 있고 전망도 있을 것 같지만, 어렵다.

수업을 너무 빡세게 하셔...ㅜ_ㅜ

수업이 빡세더라도 뭐라도 얻어 가는 게 있는 수업이라서 열심히 해보려고 하지만...

넘 어렵고 졸립다...ㅋㅋㅋ


Abstract

무선 센서 노드(mote)는 상대적으로 느린 주변 장치와 인터페이스 하면서, 프로세서가 대기하기를 요청한다. 이러한 딜레이는 많은 mote에 의해 사용되어야 하는 제한적인 리소스인 시간, 에너지, 전력의 낭비이다. 이 논문은 TinyOS에서 STI(Software Thread Integration)을 사용하는 기술을 제시하는데, 유용한 프로세싱을 위한 idle time을 발견하기 위한 방법이다. 저자들은 통합된 쓰레드를 선택하고 실행하는 것을 지원하도록 TOS 스케쥴러를 수정하였다. 또한 태스크 응답시간에 이러한 통합(integration)이 미치는 영향을 분석하였다. 계산 시간과 에너지를 절약하기 위해, 마이크로폰 어레이 샘플링 어플리케이션에 이러한 방법을 적용하였다. 통합된 태스크는 17.7% 빨리 종료되었고, 어플리케이션의 active time은 6.3% 감소하였다.

Introduction

 무선 센서 네트워크의 노드(mote)는 종종 잦은 busywaiting 기간을 갖는다.: 수신기와 통신하거나 센서, 플래시 메모리 직교류변압기 등과 통신하면서. 이러한 상황에서의 대기 시간은 매우 짧아서 다른 태스크로 context switch하는 비용이 많이 든다. STI를 이용하여 이러한 대기시간에 유용한 작업이 수행될 수 있다. STI는 컴파일러 기술로서 빠른 context switch를 위해 추가적인 하드웨어 없이 프로세서에서 fine-grained concurrency를 얻기 위한 것이다. 이 논문에서는 TOSSTI를 소개하는데, 일반적인 무선 센서 네트워크 OS인 tinyOS에서 STI를 사용한 소트프웨어 시스템을 말한다.
   
conclusion

이 연구는 TinyOS와 같은 mote 소프트웨어와 소프트웨어 쓰레드 인티그레이션을 이용하여 TinyOS의 스케줄러를 변경하고 통합된 쓰레드를 마킹하는 방법인 TOSSTI를 제안한다. 또한 소프트웨어 쓰레드 인티그레이션을 사용한 예시 프로그램과 비지 웨이팅 타임을 회수하기 위한 TOSSTI 어플리케이션을 보인다. 비지 웨이팅 타임 동안 모트는 유용한 오퍼레이션을 수행하고, 액티브 사이클을 빨리 완료하고, 저전력 모드로 빨리 복귀하며 에너지 소비량을 줄인다. 샘플 어플리케이션에서 액티브 타임은 6.3% 감소했다. 커스텀 스케줄러 유틸라이징에 더욱 쉽게 접근할 수 있는 방법을 제공하는 TinyOS 2.0으로 이식될 예정이다.


PPT를 먼저 만들어서...번역은 중단..ㅋㅋ




이 글은 스프링노트에서 작성되었습니다.

Creative Commons License
Creative Commons License

Tim Berners-Lee and Lalana Kagal

AI Magazine, Fall, AAAI, 2008 (pp. 29-34)


발표 준비용,

XXX같은 조박사, 뭐라도 주워 들을라고 이런거나 시킨다. 제발 니가 읽고 이해 좀 해라.

이런식으로 얕은 지식만 쌓아가니 애들이 뭐라고 하는지 이해가 안가지...에휴...


안그래도 바쁜 와중에 하기는 귀찮고..

눈으로 읽으면서 하려니 머리속에도 안 들어오고 잘 이해가 안되서...집중의 일환으로 타이핑하다보니...기계적인 번역이 되어버렸다.

허허...아주 일반적인 이야기인데 결국 논문을 거의 다 번역해버렸음...ㅜ_ㅜ


Introduction

프랙탈은 복잡하고 비규칙적인 패턴에 대해 고려하고 캡쳐할 하는 솔루션을 제공한다. 패턴이 프랙탈이라는 것을 밝히는 것은 그 패턴을 적절하게 모델링하고 분석하는 데 도움이 된다. 인간 사회에서의 언어와 문화의 상속적 프랙탈 성질은 프랙탈의 자기 자신과 같은 형태의 패턴을 예시하는 시멘틱 웹을 기대할 수 있게 한다.


Cyc나 SUMO와 같이 방대하고 단일적인 온톨로지는 전통적 지식 표현 이론을 이용하여 개발되었다. 적은 그룹의 사람들이 많은 시간과 노력을 들여 훨씬 많은 그룹의 사람들의 요구사항을 만족시키려고 한다. 이와 같은 온톨로지는 서로 다른 그룹간의 interoperability를 잘 제공한다. 또 다른 형태는 소프트 웨어 엔지니어의 큰 집단에 의해 개발된 고립되고 스케일이 작은 온톨로지이다. 이들은 특별한 목적, 예를 들어 약속을 조정하거나 은행 거래를 분석하는 등의 목적을 갖으며 다른 어플리케이션에서 생성되는 정보를 재사용할 수 없다. 이 두 극단은 그림 1에서처럼, 사이즈와 노력 대 재사용성과 상호조작성 간의 트레이드 오프를 명확이 보여준다. 두 어프로치 혼자서는 웹 상에서 유용할 수 없고, 두 극단의 사이에 적절한 솔루션이 있다고 주장한다.

사용자 삽입 이미지


인간 사회는 프랙탈이다. 해당 피어 집단과 그룹의 하위 구조를 갖을 때 그룹이 안정적인 프랙탈이다. 너무 큰 그룹은 너무 많은 피어와 서브 그룹을 갖어서 의사소통이나 상호작용에 비용이 많이 들기 때문에 효율적이지 않다. 안정 그룹(stable group)을 갖는 서브 그룹은 자신의 고유 언어를 개발하지만 상호작용을 위해 그 중 일부 용어는 다른 서브 그룹과 공유되어야 한다. 서브 그룹이 오버랩되어 이러한 공유 용어가 통합되고 그룹의 모든 사람들이 이해할 수 있게 된다. 이와 유사하게 웹 시스템도 모든 사이즈의 집단들이 오버랩되어 구성되어 있는 프랙탈로 본다. 각 커뮤니티는 자신만의 온톨로지를 갖으며 다른 커뮤니티들과 상호작용할 수 있도록 하는 공유 온톨로지 또한 개발될 것이다.일부 기본적인 온톨로지는 모든 커뮤니티에서 (globally) 사용된다. 같은 커뮤니티 혹은 서로 다른 커뮤니티의 에이전트 간의 의사소통은 이러한 글로벌 온톨로지와 로컬 온톨로지 양쪽으로부터의 용어를 포함한다.


시멘틱 웹 기술은 이러한 온톨로지의 사용과 개발을 지원한다. 용어는 온톨로지 내에 정의되고, 온톨로지는 커뮤니티에 의해 정의된다. 여러 집단에 포함된 사용자는 많은 서로 다른 온톨로지로 부터 용어를 혼합하여 메시지를 만들 수 있고, 오퍼레이션은 오직 특정 오퍼레이션을 위해 사용되는 온톨로지의 부분들의 일관성(consistency)만을 요구한다. 이는 조화(ahrmonization)을 요구하지만, 모든 것들에 대한 글로벌 온톨로지를 개발할 필요는 없다.

모든 것에 대한 거대한 단일 온톨로지를 만들기는 어렵다. 반면 로컬 온톨로지를 갖는 단순한 시스템(stovepipe system)은 interoperability와 데이터의 재사용성 부족에 대한 문제점을 갖는다. 웹 시스템의 프랙탈 패턴은 거대한 글로벌 온톨로지를 갖는 것과 여러 구별된 로컬 온톨로지들을 가즌 것 간의 절충을 가능하게 한다.


Real world Example: Fractal Topology

사용자 삽입 이미지
이 레이블은 상품 바코드(제품 구별), 영양 정보(양, 칼로리, 재료,), 제품 로고와 이름으로 구성된다. 바코드는 가격과 재고를 알기 위해 스토어에서 사용되는데, 국제적으로 인정되는 바코드 형식을 가져야 한다. 영양 정보의 형식과 명시사항은 미국 식의약청에 의해 제공된다. 로고와 이름은 생산자 도메인으로 부터 얻어진다. 오른쪽의 숫자는는 레이블의 프린트를 위한 정보이다.

레이블의 각 섹션은 서로 다른 커뮤니티로 부터 얻어지고, 서로 다른 컨셉과 온톨로지를 사용하지만, 오해없이 사용된다. 그 이유는 어떤 커뮤니티와 관련이 없는 레이블의 정보는 관련이쓴 부분에서 비일관성(inconsistency)문제를 일으키지 않으면서 drop될 수 있기 때문이다. 레이블의 각 부분은 해당 용어가 추출되어 온 도메인과의 관련성을 암묵적으로 내포하고 있다.


Culture, Boundaries, and the Web

그룹 내에서 사람들이 의사소통 할때, 자신들의 언어를 개발하고 확장한다. 때로는 그룹내의 일정 집단만이 이해할 수 있는 용어를 선택하여 그 용어의 의미에 대한 충분한 공공의 이해를 발전시켜 그 그룹 전체의 용어로서 사용하기도 한다. 그룹 내 협의를 통한 용어의 수정, 보완, 혹은 새로운 개념을 창조하거나 그룹내 활동으로부터 용어를 발견하기도 한다. 또 어던 때에는 매우 신중하고 자세하게 새로운 단어를 만들어내기도 하는데 그 집단에서 이전에 사용해오던 것과는 다른 것을 선택한다. 이는 기술 그룹임이 명백하지만 이와 같은 과정은 사회 전반적인 활동에서도 나타난다.

이러한 과정의 결과는 새로운 언어, 혹은 언어의 새로운 변종이거나 현존 언어를 약간 변형한 것이다. 이것이 그룹내에서 의사소통을 가능하게 하는 motivating factor이다. 공유된 용어가 많을 수록 서로 오해없는 공통된 디스커션의 범위가 넓어진다. 또한 이러한 변화의 상보적 효과로서 그룹 내의 공통의 결속이 생성되고, 동시에 그룹의 barrier가 만들어진다. 이것은 대체로 부지불식간의 일이다. 그룹내의 의사 소통을 촉진시키는 모든 언어적 발달에서, 대응되는 단계 변화가 발생하는데 이는 그룹의 경계에서의 의사소통의 어려움에서부터 비롯된다. 더 넓은 interoperability를 위해 가장 중요한 솔루션은 경계선의 다른 쪽에 있는 사람들이 여기에 포함된 어떤 것에 대해 무엇을 생각하는가를 고려하는 것이다. 대화상에서, 이것은 듣는 것(job of listening)이다. 기술적 관점에서, 상대방의 관점에서도 논리적으로 해당 단어가 어떻게 연관되어 있어야한 하는가의 결론을 만들어내기 위해, 상대방의 겉보기에 무의미한 단언에서 사용된 언어를 주의깊게 연구하는 것이다.

 작은 집단에서 적은 노력으로 빠른 결과를 얻을 필요성과 더 많은 시간과 노력을 들여 서로 다른 집단 간의 넓은 이해를 얻을 필요성 간에는 늘 텐션이 존재한다. 실세계는 overlapping communities, overlapping cultures간의 fractal tangle이 존재하며, 이는 위와 같은 텐션이 항상 존재할 것이며, 또한 항상 공통의 공유된 언어나 개념이 존재한다는 것이다.

전통적으로는 지리적 특성이 집단을 발전하도록 하는 데 제약이 되었지만, 인터넷과 웹을 이용하면 이러한 지리적 제약이 사라진다. 우리가 선택할 수 있는 집단은 지리적 집단뿐 아니라, 특정 분야의 전분가 집단, 특별한 건강상태를 갖는 사람들의 집단, 어떤 세계적인 이슈에 관심을 갖는 사람의 집단 등에 소속될 수 있다. 이것은 커뮤니티의 위상(topology)와 어떤 메트릭에 의한 연결이 달라질 수 있으며, 이전보다 더 좋을 수 있다. 웹상에서 통합된 위상(topology)는 많은 사람들의 개별적 선택에 의해 이루어지지만, 지금까지의 웹의 사용에 대한 연구에 따르면 이것이 모든 크기의 fractal distribution이 될 것이라고 예상한다.


Ontology Development and Usage on the Semantic Web

사용자 삽입 이미지

현재의 온톨로지 사용에 대한 분석은 그림 3a와 같이 similar fractal distribution을 갖는다. 그림 3a는 그 문서들이 사용되어진 전체 시멘틱 웹 문서의 수에 기초한 온톨로지의 사용율에 대한 그림이다. (13,675/2,379,164) 그래프는 단지 10.4 퍼센트의 온톨로지가 적어도 10개의 온톨로지에서 사용되었고 1퍼센트 이하의 온톨로지가 100,000개의 문서에서 사용되었다. Swoogle에 따르면 가장 많이 사용된 것은 Dublin Core(http://purl.org/dc/elements/1.1/)로100만개 문서에서 적어도 한번 사용되었다. 그 다음 가장 많이 사용된 것은 Description Framework (http://www.w3.org/1999/02/22-rdf-syntax-ns), Friend Of A Friend (http://xmlns.com/foaf/0.1/), RDF Schema (http://www.w3.org/2000/01/rdf-schema),Trackback of RSS (http://madskills.com/public/xml/rss/module/trackback/)등이다. 그림 3b는 가장 많이 사용된 온톨로지와 그 온톨로지를 사용한 문서의 수를 나타낸다.

온톨로지 개발의 비용은 때로 잘못 계산되어진다. 대부분의 시스템 개발자들은 시스템에 의해서 요구되어지는 온톨로지가 모두 top-down방식이거나 bottom-up방식으로 개발되어야 한다는 잘못된 개념을 갖고 있다. top-down 방식에서 온톨로지는 표준형 구조에 의해 만들어지는데, 이 표준적 구조는 그들의 모든 요구를 만족시키는 표준형 온톨로지를 만든 후에 가능하다. bottom-up 방식은 시스템에서 요구되는 모든 정보가 시스템 개발자에 의해 만들어지며, 비용과 시간이 많이 든다. 그러나 실제로 프랙탈 적인 특성은 이 두 가지 접근방법을 조합한 비용 효율적인 개발 방법을 이끌어 낼 수 있다. 글로벌 온톨로지인 Dublin Core나 Cal (http://www.w3.org/2002/12/cal/ical), Geo (http://www.w3.org/2003/01/geo/wgs84_pos)는 표준형 구조에 의해 유지보수된다; 커뮤니티 온톨로지는 이러한 온톨로지를 필요로 하는 조직의 그룹에 의해 생성되고 그 비용이 공유된다; 로컬 온톨로지는 시스템에 특성화 되어 시스템 개발자에 의해 만들어진다.  이것은 비록 시스템 개발자가 로컬 온톨로지의 가장 핵심적인 책인을 갖지만, 표준온톨로지와 커뮤니티 온톨로지의 개발에 그들이 참여하도록 하는 이점이 있다.  


Design Consideration for Semantic Web Technologies

인간 그룹이 overlapping되어 있고, 웹 시스템에서 이러한 유사한 overlapping현상을 시멘틱 웹이 서포트 할 수 있다. 이러한 기술은 분산되어 있는 글로벌 커뮤니티의 발달을 가능하게 하는데 필요할 뿐만 아니라 서로 연결되어 있고(interconnect) 상호조작가능한(interoperable) information system을 개발하는데도 필요하다. 필요한 기술은

  1. 서로 다른 커뮤니티로부터 온 리소스와 용어를 사용자가 유니크하게 구별할 수 있는 global unique identification 제공
  2. 몇개의 그로벌, 로컬 온톨로지가 지식과 메시지를 발달시키는 데 사용될 수 있도록 서로 다른 온톨로지로부터 온 용어의 자유로운 믹싱 기능
  3. 표준적 구조와의 합일, 합치를 기다리지 않고도 개개인이 새로운 용어나 온톨로지를 생성할 수 있도록 하는 확장성 제공
  4. 다른 컨셉의 의미에 영향을 주지 않으면서 온톨로지나 데이터의 일부분이 무시되거나 드롭될 수 있도록 허용
  5. 서로 다른 온톨로지를 사용하나 의사 소통이 필요하 두 커뮤니티간에 두 온톨로지의 맵핑 기능

RDF나 OWL과 같은 시멘틱 웹 기술은 다음과 같은 성격을 통해 위의 요구사항을 지원할 수 있다.

  1. 다양한 커뮤니티 간의 의사 소통을 위해서는 하나의 글로벌한 identification system이 필요하다. URI는 웹 리소스나 용어를 모호하지 않게 구별해줄 수 있다. 용어의 경우 the Person concept defined by the http://xmlns.com/foaf/0.1/Person vs. the Person concept defined by the http://www.w3.org/2000/10/swap/pim/contact#Person 두개의 Person은 서로 다르다. 웹 리소스의 경우, HTTP가 URI와 그것이 나타내는 리소스를 연관시킨다.
  2. 사용자는 네임스페이스로 지칭되는 각 그룹들의 URI를 통해 서로 다른 온톨로지로부터 용어를 참조하고 사용할 수 있다.
  3. DNS(Dimain Name System)를 이용하여 손쉽게 커뮤니티를 새로 만들어 그들의 도메인을 등록하고 온톨로지를 포함한 커뮤니티 정보를 올릴 수 있다.
  4. 시멘틱 웹 기술은 RDF나 RDFS를 통해 각 개인이 쉽게 새로운 온톨로지를 생성하거나 수정하거나 존재하는 온톨로지에 추가할 수 있는 간단한 메커니즘을 제공한다. rdf:Class, rdf:Property등 쉽게 추가가능, 반드시 사용되기 위해 웹 페이지나 특정 URI에 발행될 필요가 없다. 또한 존재하는 온톨로지의 수정 사항을 현재 존재하는 온톨로지와 동일한 URI를 갖도록 발행할 필요도 없다. Foaf 네임 스페이스의 Peraon 컨셉에 다른 프로퍼티를 추가했다면 다른 주소에 이러한 변화를 반영하여 발행할 수 있다. 사용자는 현존하는 온톨로지에 용어를 수정하거나 추가하거나 변화사항을 자신만의 URI에 발행할 수 있고, 즉시 사용 가능하다. 일반적으로 사용자는 온톨로지를 생성하거나 수정하는데 있어서 어떤 커뮤니티나 표준형 구조의 동의를 기다릴 필요가 없다.
  5. 시멘틱 웹은 트리플(subject, predicate, object)로 구성된 RDF 그래프를 구성한다. 이들은 서로 conjunction 관계일 뿐이므로, 사용자가 그 그래프의 일부분을 사용하기 원하지 않을 때는 무시하거나 드롭할 수 있다. 만약 어떤 에이전트가 두 개의 온톨로지로 부터 온 용어들을 포함하는 문서에 접근하려고 하는데, 이 에이전트가 둘 중 한 개의 온톨로지만을 이해할 수 있다고 하자. 이러한 경우, 에이전트는 다른 하나의 온톨로지로부터 오는 용어를 무시할 수 있고, 이 때 이러한 용어들이 제거된 문서의 나머지 부분은 일관성(consistence)이 있음을 보장할 수 있다. 만약 RDF가 트리풀의 conjunction과 disjunction 둘 다로 이루어진다면 관련되지 않는 부분을 드롭하는 것은 어렵다.
  6. 서로 다른 온톨로지에서 용어(concepts and properties)간의 맵핑을 위해 OWL은 SameAs, equivalentProperty, differentFrom 등의 프로퍼티를 지원한다. vcard 에 정의된 tel 은 foaf에 정의된 phone과  owl:equivalentProperty라는 프로퍼티를 주어 같다고 정의할 수 있다. 서로 다른 온톨로지로부터의 용어 간의 관계를 표현하기 위해 subClassOf 나 subPropertyOf 같이 classification을 다룰 수 있는 속성이 제공되기도 한다. 

Principles for Developing Ontologies and Applications

이 논문에서 제시한 시멘틱 웹 커뮤니티에서 스케일러블한 온톨로지를 개발할 수 있는 원칙은 다음과 같다.

  1. Ontology Development

    • 커뮤니티에 대해 잘 알고, 현존하는 커뮤니티에서 이미 개발된 온톨로지로부터 용어를 가져다 사용하는 것이 중요하다. 니가 scout troop에 대해 온톨로지를 만든다면, 이미 사용되고 있는 troop 온톨로지가 있는지, troop 멤버들이 가장 많이 사용하고 있는 온톨로지가 무엇인지 고려해야 한다.
    • 너의 커뮤니티의 interest에 specific한 용어만을 새로 정의하고, 해당 커뮤니티에 포함된 서브 커뮤니티에 specific한 용어는 남겨두도록 노력해라. scout troop온톨로지를 만든다면 girl scout troop에서 요구되는 용어들을 개발할 필요는 없다. 
    • 니가 정의한 용어를 커뮤니티 웹 페이지에 발행하고 URI를 잘 유지보수하여 너의 온톨로지의 신뢰성을 보여라.
  2. Client Cache

    클라이언트 사이드의 온톨로지일 경우, 글로벌 온톨로지는 로컬에 캐싱되어야 한다. 그 이유는 글로벌 온톨로지를 종종 접근해야 하기 때문임은 물론, 온톨로지를 호스팅하거나 공유/커뮤니티 온톨로지가 영구적인 공간에 저장되어야 하거나 로컬/워킹 온톨로지가 자주 변경되어 실행 시간에 읽혀져야 할 경우에 서버에 부담이 되는 것을 막기 위함이다.

  3. User Interface

    프랙탈 커뮤니티를 제공하기 위해서는 사용자가 올바른 결정을 하는 것을 촉진하고 돕기 위해 유져 인터페이스에 특별한 초점을 맞추어져야 한다. RDF 그래프가 Tabulator에서 편집된다고 가정해보자. predicate를 변경하고 추가하는 동안, 사용자는 우선 FOAF와 같은 글로벌 온톨로지로부터 얻은 predicate을 추천받는다. 그 다음 사용자는 커뮤니티/도메인 specific한 용어를 볼수 있다. 그래도 알맞은 용어가 없으면 사용자가 용어를 생성할 수 있다. 이것은 현존 온톨로지의 재사용을 강조하고, interoperability가 만들어지는 것을 돕는다.

  4. Functionality

    서로 다른 온톨로지는 서로 다른 기능을 요구한다. 글로벌 온톨로지는 자주 사용되기 때문에 specific code를 갖어야 한다. 도메인/커뮤니티 온톨로지는 필요할 때마다 다운로드 받을 수 있는 플러그 인 등과 같이 adaptable code를 가져야 한다. 로컬/specific 온톨로지는 스프레드 시트에서 볼 수 있는 등의 기본적인 기능을 가져야한다. 예를 들어, 어플리케이션에서  FOAF  온톨로지를 핸들링할 수 있는 specific code가 있어야 하고, 크랜베리소스 커뮤니티 웹 페이지로부터 크랜베리소스 온톨로지를 다운받을 수 있는 코드가 있어야 하며, 크랜베리소스 레이블에 프린팅되는 프린터 정보와 같은 종류의 정보가 텍스트화되고 요구된다면, 스프레드 시트에 cut & paste될 수 있어야한다.  


 



이 글은 스프링노트에서 작성되었습니다.

Creative Commons License
Creative Commons License

AI'09, the twenty-second Canadian Conference on Artificial Intelligence, will be held in Kelowna, British Columbia (May 25-27, 2009). The organizers invite papers that present original work in all areas of Artificial Intelligence. Topics include, but are not limited to:

Knowledge Representation
Constraint Satisfaction 
Automated Reasoning
Games
Search
Planning
Cognitive Models
Case-based Reasoning
Machine Learning
Uncertainty
Robotics
Agent Systems
Natural Language
User Modeling
Neural Nets 
Evolutionary Computation
AI Applications
Web Applications 
Data Mining
Information Retrieval
Bioinformatics and BioNLP
Smart Graphics
Multi-media Processing
E-Commerce 

Papers will be reviewed by the Program Committee members and judged according to their originality, technical merit and clarity of presentation. Accepted papers are allocated a maximum of 12 pages in the proceedings. The conference proceedings will be published as Lecture Notes in Artificial Intelligence by Springer and have to be formatted accordingly. Papers can only be included in the Proceedings upon registration of at least one author.

Papers submitted to AI'2009 must not have been accepted for publication elsewhere or be under review for another conference. Best paper and best student paper awards will be presented.


IMPORTANT DATES

Paper submission due: January 23rd, 2009

Notification of acceptance: March 3rd, 2009

Final paper due: March 16th, 2009 


http://ai2009.site.uottawa.ca/

Creative Commons License
Creative Commons License

The biennial conference series User Modeling (UM, 1986-2007) and Adaptive Hypermedia and Adaptive Web-Based Systems (AH, 2000-2008) have been merged into the annual conference series User Modeling, Adaptation, and Personalization (UMAP).

  UMAP Topics

UMAP concerns (interaction with) systems that acquire information about a user (or group of users) so as to be able to adapt their behavior to that user or group.

The following lists describe several dimensions along which UMAP systems can vary. A submission to UMAP will normally describe either (a) an advance with respect to one or more of these dimensions or (b) results that shed new light on the current state of the art and suggest possible advances.



Application domains for UMAP

  • Electronic commerce
  • E-learning and intelligent learning environments
  • Cultural heritage
  • Health care
  • Assistive technologies
  • Digital libraries
  • Office work
  • Telecommunication
  • Customer support
  • ...



Platforms on which UMAP can run

  • Adaptive hypermedia
  • Other web-based systems (including Web 2.0)
  • Desktop systems for individuals
  • Groupware systems
  • Mobile and wearable systems
  • Smart environments
  • Digital TV
  • ...

Functions that UMAP can serve

  • Recommending products
  • Supporting information retrieval
  • Tailoring information presentation to the user
  • Setting up and mediating collaboration and communication
  • Supporting learning and reflection
  • Taking over routine tasks
  • Adapting aspects of an interface
  • Conducting spoken or multimodal dialogs
  • Tailoring natural language processing
  • Giving help in a personalized way
  • ...

Aspects of users that are modeled and adapted to

  • Knowledge and skills
  • Interests and preferences
  • Special needs
  • Affective states
  • Goals and plans
  • Contexts of use
  • ...

Computational methods used for realizing UMAP

  • Methods for acquiring information about users
  • Methods for constructing and representing user models
  • Methods for exploiting user models
  • Architectures for UMAP
  • ...

Usability issues that can arise with UMAP systems

  • Ensuring adequate control, understanding, and predictability
  • Preserving privacy
  • Avoiding excessive narrowing of experience
  • ...

Methods for designing and testing UMAP systems

  • Analysing requirements for UMAP
  • Prototyping and iterative testing of UMAP systems
  • Demonstrating the value of UMAP systems
  • ...

Practical experience with the application of UMAP

  • Cost-justifying the application of UMAP in an organizational context
  • Integrating UMAP methods with other types of software
  • Convincing users of the added value of UMAP
  • Learning from users’ responses to a UMAP system
  • ...

  Research Papers

Long (12-page) research papers should present original reports about substantive new research. They should place the work within the field, cite related work, and indicate the innovative aspects of the work and its contribution to the field.

Short (6-page) research papers should present original and unpublished highly promising research, whose merit will be assessed in terms of originality and importance rather than maturity and technical validation.

Each research paper submission will be reviewed according to the criteria of relevance, originality, significance, soundness, and clarity. These reviews will be integrated by a metareviewer and by the program chairs to ensure they meet the standards of this premier conference.

The submissions must conform to the Springer LNCS style. Submissions exceeding the specified length for the category will not be reviewed. Authors will be asked to declare that their submission is not under review, in press, or in print for a journal or another conference. Accepted research papers will be published by Springer in the Lecture Notes in Computer Science (LNCS) series. Long papers will be presented orally at the conference; short papers will be presented either orally or as posters, depending on the program committee’s decision.


Important Dates

Monday  12, January, 2009 Submission of abstracts

Monday  19, January, 2009 Submission of papers


Monday  9, March, 2009  Notification to authors

Monday  30, March, 2009  Submission of final versions


http://umap09.fbk.eu/


 

Creative Commons License
Creative Commons License

출처: http://blog.empas.com/sonkissed/355729


논문 쓰기 (Part 2) - 논문 쓰는 첫걸음

나는 박사과정을 거의 7년이나 지냈다. 두 분의 담당 교수가 개인 사정으로 학교를 떠나면서 결국 세 번째 교수님과 일한 연구결과로 졸업을 하게 되었는데, 코넬 대학교 (Cornell University)에서 물리학으로 박사학위를 받은 이분과 보냈던 3년 동안 가장 인상깊었던 점은 '연구하는 방법'이었다. 질문이 있어 가지고 가면 우선 하는 소리가 "B.K. Go back and think about it." 간혹 1주일 이상 고민 고민하다가 가서 하는 질문에도 그런 반응을 보일 때면 열이 받기도 했지만, 재미있는 사실은 다시 돌아와 이런 저런 생각을 하며 고민하다보면 아이디어가 조금씩 떠오른다는 것이었다. 어떨 때는 잠을 자다가 뭔가 번득이기도 하고, 길을 가다가 좋은 아이디어가 떠오르기도 하고, 성경을 읽던 중에 갑자기 오래 고민했던 문제의 실마리가 보여 메모를 하기도 했다. 그 당시에 나는 점심시간을 이용해 학교 체육관에 가서 운동을 하며 머리를 식히곤 했는데, 내가 가장 좋은 아이디어를 많이 낸 장소는 다름 아닌 학교 체육관 안에 설치된 사우나였다. 사람이 어떤 한가지 일에 몰두하면 참 놀라운 일이 일어난다는 것을 체험했던 시기였다.

논문 쓰기가 쉬운 일은 물론 아니다. 그러나, 천리 길도 한 걸음부터라고, 연구한 자료를 조금씩 모아 어느 정도의 시간이 지나고 나면, 그 결과를 어떻게 정리하느냐의 문제로 귀결된다. 수개월의 연구결과를 학회(conference)위 논문 수록집(proceedings)에 싣고, 두 세 편의 학회논문을 엮어 저널에 싣는 방법도 있고, 능력이 된다면 처음부터 저널을 겨냥할 수도 있다. 중요한 것은 지도교수의 역량과 학생의 노력이다. 때로는 지도교수가 자신의 전문분야가 아닌 쪽으로 새로운 연구를 추진하고자 학생을 받는 수가 있는데, 이런 경우에는 학생이 탁월하지 않으면 서로 고생한다.

저널에 논문을 출간한다면 대게 다음의 절차를 거친다.
(1) 출판을 원한다는 편지와 함께 논문을 editor-in-chief나 기타 지정된 사람에게 보낸다.
(2) 심사 결과를 받는다 (소요기간은 논문마다 차이가 크다)
논문 초고가 그대로 통과되는 경우는 드물다. 보통 수정이나 보충을 요구한다.
(3) 수정본을 보낸다.
(4) 논문 출간을 승낙한다는 편지가 오고, 저자는 최종본을 보낸다.
(5) 출판사에서 타이핑한 원고 (proof)가 오면 최종점검을 해서 보내는데, 이때는 오타를 점검할 수는 있지만, 내용을 바꾸지는 못한다. 가장 오타가 많은 부분은 수학 공식(公式)이다.
(6) 최종논문이 출간된다.
(7) 25~50부 정도의 무료 offprint가 저자에게 보내진다. 더 필요하면 저자 자신도 비싼 돈주고 사야한다.

학회에서 발표하는 논문 수록집의 출간은 절차가 훨씬 간단하다.
(1) 먼저 한 페이지 정도의 abstract를 보낸다. 함께 일하는 교수님이 그 분야의 권위자라면 심사 없이 accept이다. 학회에 대한 광고는 웹사이트나 학회지에 'Call for Papers'라는 광고와 함께 실린다.
(2) 정해진 기간까지 완성된 원고를 제출한다.
(3) 학회 장소에서 수록집이 배부되거나, 아니면 학회 기간 중에는 요약집만 나눠주고 이후에 논문집이 배달되기도 한다.

최근에 개발된 연구분야이거나 변화 속도가 빠른 분야라면 학회 논문집이 다른 분야의 저널 이상으로 평가받기도 하지만, 일반적으로는 저널이 아무래도 한 수 위이다. 그러나, 최근 연구결과를 신속히 접할 수 있는 학회논문의 장점을 살리면서 논문의 질을 올리기 위한 목적으로 학회 제출 논문의 심사를 처음부터 강화하거나 제출 논문 중 잘된 논문을 선별해 저널의 'special edition'으로 내는 경우도 자주 있어, 수개월 내에 유명 저널에 논문을 싣는 일도 가능하다.

연구의 업적이 논문으로 평가되는 만큼 논문을 많이 쓸 수 있다는 것은 학자로서 갖추어야하는 중요한 능력이다. 또한 연구를 활발히 할 수 있는 젊은 시절에 많은 연구결과를 산출하는 일도 연구자로서의 자질이다. 그러나, 때로 논문의 수에 지나치게 집착하는 국내 학계의 현실을 보면서 '백년지대계'(百年之大計) 여야 할 교육의 중요부분인 연구활동이 너무 근시안적으로 운영되고 있다는 느낌을 받을 때가 있다. 연구논문의 수를 채우기 위해 유사한 결과를 조금씩 바꾸어 이 저널, 저 저널에 싣는 일이나, 다른 사람의 결과를 이용하는 일은 물론, 전혀 그 논문에 공헌한 바가 없는 사람을 저자로 끼워주는 등의 일은 결과적으로 건전한 연구풍토에 악영향을 미칠 수밖에 없다.

미국 생활을 오래하면서 엔지니어로서 부러운 것 중 하나는 학교나 연구소 기업을 막론하고 상당한 수의 노대가들을 찾을 수 있다는 것이다. 한 분야에서 수십 년을 연구해오며 독보적인 입지를 굳힐 수 있는 환경이 조성되는 연구여건, 기술자가 경영자와 동등한 입장에서 의견을 제시할 수 있는 풍토의 조성은 기술선진국을 목표로 하는 우리가 신중히 고려해 보아야할 사항이다. 능력 있는 인재들이 박사학위를 마칠 때 모아둔 자료와 지식으로 그 후 2~3년 간 논문을 쓰고는 잠적해버리는 국내의 연구풍토를 개선하기 위해서는 논문의 숫자를 채우라는 식의 강압적인 접근 방법으로는 무리가 따른다. 첨단 기술 뿐 아니라 그 기술의 발전을 가져올 수 있는 기초과학 분야까지의 전 영역에 걸쳐 정부의 장기적인 계획 (정부가 바뀔 때마다 무효화되는 그런 계획이 아닌) 과 과감한 투자가 필요하다. 또한, 기술의 산실인 대학교에서도 교수 한 명 당 연구소 하나가 필요한지, 또 한 명의 교수가 정년퇴임을 하면 그 연구실이 없어지고 신임교수가 새로이 연구소를 시작하는 식의 악순환을 되풀이 해야하는지를 자문(自問)해야 한다. 마지막으로, 연구자 개개인도 자신의 논문이 자신의 얼굴이라는 자세로 임해야 할 것이다.

 

Creative Commons License
Creative Commons License

출처: http://blog.empas.com/sonkissed/355723


논문 쓰기 (Part 1) - Publish or Perish

교수사회에서 흔히 사용되는 표현 중에 'Publish or perish.'라는 말이 있다. 논문을 출판하든지 아니면 도태되든지 하라는 이 문구는 대학가에서 연구실적이 얼마나 중요한가를 단적으로 나타낸다. 논문 출간은 교수들에게 뿐만 아니라 대학원생들에게도 큰 부담이 아닐 수 없다. 박사학위를 받기까지 유명 저널에 한두 편의 논문을 싣지 못하면 같은 분야의 사람들이 모인 자리에서 자기 소개를 할 때 떳떳하지 못하고, 혹시 교수가 되기 위한 준비를 하고 있는 사람이라면 논문의 숫자는 그 사람의 미래와 직결된다. 물론 미국에서는 'SCI 저널'과 같은 외형적인 기준이 없다. 언젠가 국내 신문에서 대학가의 SCI 저널 논문 게재 숫자에 관한 통계를 보고, 교직에만 30년을 계신 분께 SCI라는 걸 아시냐고 여쭤본 적이 있었다. 대답은 "I've never heard about it." 물론 그분이 출간한 논문은 대부분 SCI에 속해있는 저널 중에서도 top에 속한 것이었고, 그분 자신이 International Journal of Fatigue라고 하는 재료의 피로파괴 분야에서 가장 권위 있는 저널의 editor-in-chief 였다.

논문 출간에 관한 한 크게 두 가지 입장이 있을 수 있다. '양이야 질이냐'의 문제이다. 물론 두 가지 모두를 취할 수 있다면 더할 나위 없이 바람직하겠지만, 천재가 아닌 다음에야 좋은 논문을 많이 쓴다는 것은 불가능하다. 문과 쪽의 정치학이나 경제학 분야이거나, 같은 이과라도 연구 분야가 실험이 아니라 순수 이론 쪽이라면, 박사과정 내내 공부한 내용으로 좋은 논문 한편을 내기 힘들 수도 있다. 자연과학 분야를 공부하는 사람들이라면, Science 나 Nature, 혹은 Cell 과 같은 저널에 논문 한편 싣는 것이 '가문의 영광' 일 테고, 이들은 비록 SCI에 등재되어 있기는 하지만 수준이 높지 않은 저널에 10편을 싣는 것보다 이런 유명 저널에 한편 싣는 것을 더 가치 있게 여길 것이다. 그러나, 유학생들의 경우 국내 대학의 교직으로 취업을 하기 위해서는 10편의 논문이 더 가치가 있을 수도 있으므로, 이 문제는 정답이 없다고도 할 수 있다. 결국 '학자로서의 자존심'과 '보장된 미래'의 두 갈래 길에서 고민하지 않을 수 없는 것이 현실이다. 선택은 물론 각자에게 달려있다.

어쨌거나 논문을 쓰는 일은 'pain in the neck'이다. 내가 첫 번째로 소위 유명 저널에 논문을 낸 때는 1997년이었다. 약 1년 간 일한 분량을 정리해서 96년에 제출을 하고 출간되기까지 약 1년의 시간이 걸렸으니까, 연구를 시작해서 논문이 나오기까지 2년 정도가 걸린 셈이었다. 생전 처음으로 유명 저널에 논문을 싣게 될지도 모른다는 기대감에 밤잠을 설쳐가면서 무려 30페이지에 달하는 초고를 완성하여 지도교수님께 가져다 드렸는데, 한 3일 후에 전화가 왔다.

교수: Hi, B.K. Would you do me a favor?
나: Sure. What can I do for you?
교수: Could you copy your paper on a floppy disk and bring it to me?

별다른 설명은 없었지만, 교수님은 3일 동안 내 영어와 전체적인 구성을 고쳐보려고 무진 애를 쓰다가 결국 포기하고 처음부터 다시 쓰려고 마음을 먹은 것이었다. 쪽팔림을 무릅쓰고 원고를 복사한 디스켓을 가져다 드린 이틀 후 다시 전화가 왔다.

교수: Hi, B. K. I'm done with the revision. You can get your paper back and polish it.
나: Sure. Thank you, Bill.

디스켓을 가져오면서 이런 저런 생각을 했다. 내가 한달 이상 밤새가며 쓴 원고를 단 이틀만에 완전히 교정을 보았다는데 우선 놀랐고, 그럼에도 불구하고 그 원고를 아직도 'our paper'가 아닌 'your paper'로 불러주는데 눈물나게 고마웠다. 가져와서 파일을 열어보니 전반적인 내용 자체에는 큰 변화가 없었으나, 구성이나 어휘선택, 부연설명, 참고문헌 등의 면에서 '급진전'을 보여 전혀 다른 논문이 되어있었다. 논문을 읽어가며 나는 이런 생각을 할 수밖에 없었다. "내가 상당히 훌륭한 연구를 했나보다......" 그리고, 고등학교 때 종합영어를 공부하며 배웠지만 단 한번도 사용해 본적이 없는 'Suffice it to say that'이라는 격조 있는 문구가 과학논문에 적절하게 사용된 실례를 '목격'했다. 또한, 실력 있는 교수님과 일하는 것의 장점 중 하나는 별것 아닌 연구 결과라도 별것처럼 보일 수 있게 만드는 방법을 배우는 것이라는 사실을 그 때 깨달았다.

그러나, 반면에 단점이 없는 것도 아니다. 그 중 하나는 실력 있는 교수는 논문의 양보다는 질을 추구하기 때문에 유사한 결과를 약간 수정해서 두세 편씩 논문을 쓰는 '자존심에 반하는 행동'을 꺼리고, 이는 '다작'이 절실한 학생들에게는 불리하다는 것. 또 하나는 교수님과 같이 있을 때는 질 좋은 논문이 나오지만, 막상 졸업을 하고 나면 비슷한 수준의 논문을 쓰기가 어렵다는 것이다. 나는 내 지도 교수님과 몇 편의 논문을 낸 이후 졸업 후에 다른 분들과 일하면서 논문작성을 주도할 기회가 있었는데, 지도교수님의 영어가 워낙 출중했던지라 그 이후로는 그런 수준의 영어를 구사하지 못해 답답해 하고있다. 내 최근 논문을 읽어보는 사람들이 "이 친구 옛날에는 논문 잘 쓰더니 영어 실력이 줄었네..." 라는 평을 하지 않을까 두려워하면서...

'좋은 논문을 쓰려면 많은 논문을 읽어야한다.'는 말이 있다. 맞는 말일 수도 있고, 그렇지 않을 수도 있다. 내가 국내에서 석사과정에 있을 때 같은 실험실의 학생이 어떻게 하면 박사논문을 쓸 수 있느냐고 지도 교수님께 여쭤본 적이 있었다. "한 500편쯤 읽으면 아이디어가 떠오르지." 그 당시의 감동이 컸던지, 내 자신이 박사과정에 들어간 이후 가장 큰 목표는 '논문 500편 정독'이었다. 그래서 한번은 내 지도교수님께 잘 보일 욕심으로 논문을 한 30편쯤 복사해서 들고 간 적이 있었다.

교수: What are they?
나: These are technical papers I will be reading this month.
교수: Let me take a look.
(잠시 훑어본 후 몇 개를 골라주며)
You don't have to read them all.
Just read these papers by Evans, Hutchinson and others.
나: Why? My goal is to read 500 papers before I start my own research.
교수: Well, reading many papers is important, but some papers could mislead you.

내 지도교수님의 지론은 '다독보다는 잘된 논문 몇 편을 읽는 것이 낫다.'는 것이었다. 사실, 유명저널에 실리는 논문들도 오류가 있을 수 있기 때문에 일단은 연구를 시작하기 전에 그 분야의 대가들 논문을 통해 흐름을 파악하고 그 줄기를 바탕으로 가지를 치라는 말에는 일리가 있다. 또한 논문이라는 것이 수개월에서 수년에 걸친 연구를 불과 몇 페이지에서 길어야 20~30페이지에 축약해 놓은 것이라, 한두 번 읽어보고 넘어가서는 그 속내용을 파악하기가 어렵다. 학문세계에서도 '주류'가 있는 만큼, 그 분야의 연구경향을 분석하는 것이 중요한 기초돌이 될 수 있다.

연구 시작 전에 효과적으로 논문을 읽는 요령은 아래와 같다.
(1) 최근 1~2년 내에 출간된 논문 중에서 그 분야의 대가가 쓴 논문을 골라 읽으며 경향을 파악한다. Review paper라면 더욱 좋다.
(2) 그중 특별히 관심이 있는 분야의 해당 논문을 참고문헌(references)에서 찾아 읽는다.
(3) 그 참고 문헌의 참고 문헌 중 관심 있는 논문을 찾아 읽는다.
(4) 논문은 abstract, introduction과 conclusion을 먼저 읽고 도움이 된다고 생각하면 본론으로 넘어간다.

내가 박사과정을 마치면서 쓴 학위논문에는 98편의 참고문헌이 수록되어있다. 그 논문은 물론 모두 읽어보았고, 수록하지 않은 논문 중에서도 연구를 위해 읽었던 논문은 상당수 있었다. 그러나, 정작 내 논문의 큰 줄기를 형성하는데 필수적이었던 논문의 수는 한 20여편 정도였다. 그 중에서도 내 지도교수님의 논문 한편은 워낙 중요하면서도 어려웠던 까닭에 약 20회 이상을 줄을 치며 정독해서 너덜너덜해질 정도가 되었다 중요 논문을 제외한 다른 논문들은 크게는 연구경향을 파악하는데 도움이 되었고, 내 결과를 비교 분석하는데 사용되기도 하였다.

 

Creative Commons License
Creative Commons License
연철, 지애띠, 김흥남, 조근식,
"효과적인 추천 시스템을 위한 협업적 태그 기반의 여과 기법",
한국지능정보시스템학회논문지 제14권 2호 2008. 6

요약

최근 웹 2.0의 영향으로 태깅을 지원하는 인터넷 서비스들이 많아졌다. 태깅의 원래 목적은 컨텐츠를 분류하고 재검색을 용이하게 하는 것이지만, 컨텐츠에 태깅되어 있는 태그들을 분석하여 컨텐츠의 특성을 파악할 수 있다. 본 논문에서는 내용 파악이 힘든 컨텐츠들이 증가함에 따라 이러한 컨텐츠들의 효과적인 추천을 위해, 여러 사용자들에 의해 협업적으로 태깅된 정보를 이용한 여과 기법을 제시한다.
제안하는 방법은 사용자가 태깅한 정보들을 바탕으로 사용자의 관심을 파악하는 부분과 파악된 관심에 맞는 컨텐츠를 선별하는 부분으로 나뉘어 진다. 사용자의 관심을 파악하는 부분은 사용자가 태깅한 정보들을 협업적 여과를 이용하고, 컨텐츠 선별은 확률적인 방법인 나이브 베이지안 분류자를 이용한다. 이를 통해 협업적 여과 방법의 문제점인 희박성 문제(sparsity problem)와 초기 사용자 문제(cold-start user probleam) 대해 기존의 방법들과 비교하여 그 효과를 보인다.
Creative Commons License
Creative Commons License

Anon Plangprasopchok, Kristina Lerman

Comments:  6 pages, submitted to AAAI07 workshop on Information Integration on the Web
Cite as:  arXiv:0704.1675v1 [cs.AI]


Motivation

  • Resource discovery of information integration application ==> automating modeling resource

    • understanding semantics of data they use and the functionality they provide.
    • traditional search engines which index resources by their contents (words or terms) are not useful, since the contents dynamically generated.
  • "Social media," allows to users to share documents including bookmarks, photos or videos and to tag the contents woth free keyworkds.

    • tagging to help user to organize and manage own documents ==> collective tagging of common documents to organize information via an informal classification system dubbed 'folksonomy"
    • without controlled vocabulary in socail annotation system, tags can be used to categorize resource.
  • They claim that social tagging can be used for information resource discovery.

    • the probabilistic latent semantic model ==> ingnores individual user by integrating bookmark behaviors from all users.
    • the three-way aspect model ==> global conceptual space that generates the observed values, resources and tags independently.
    • the author-topic model ==> latent topics from author's words in documents. (interest - resource)

Problem Definition

  • Suppose a user needs to find resources that provide some functionality; wants more than one resources to improve robustness and data coverage of an application.
  • the user provides "seed", an example resource which has the same functionality (the same data type and same operation).
  • resources R, users U, tags T
  • a bookmark i of resource r by user u; as a tuple <r, u, {t1, t2,...}>i
  • a co-occurrence of a triple of a resource, a user and a tag; <r, u, t>

이 글은 스프링노트에서 작성되었습니다.

Creative Commons License
Creative Commons License

Dzbor, M.   Motta, E.   Studer, R.   Sure, Y.   Haase, P.   Gomez-Pirez, A.   Benjamins, R.V.   Waterfeld, W.  

This paper appears in: Integration of Knowledge, Semantics and Digital Media Technology, 2005. EWIMT 2005. The 2nd European Workshop on the (Ref. No. 2005/11099)
Publication Date: 30 Nov. - 1 Dec. 2005
On page(s): 451- 452
ISSN: 0537-9989
ISBN: 0-86341-595-4
Date Published in Issue: 2006-01-16 09:05:22.0



NeOn project


  • Background

    • Methodologies and technologies from the days of closed and knowledge-poor systems do not adequately support the whole application developement lifecycle for these new semantic application.
    • The most popular tool available for ontology development, Protege, is limited wrt.

    1) lifecycle support,

    2) collaborative development of semantic applications,

    3) web integration, and

    4) the cost-effective integration of heterogeneous components in large application


  • Objectives

    Developing generic NeOn reference architecture whose aim is to provide a standard, plug&play framework for integrating ontology life-cycle components,

    Ensuring that the NeOn vision is concretely instantiated in a concrete implementation of the architecture, the NeOn ontology engineering toolkit, which will provide the first instance of a new generation of ontology management tools,

    Capturing key engineering processes into a NeOn methodology will provide the necessary framework to organize and manage the development of semantic applications à-la NeOn.


  • Vision of the NeOn project

    • A large number of ontologies developed wrt. contextual factors, which may reflect the developers' skills, their application needs, their cultural and social biases, and tools they prefer to use. ==> The new applications need to reflect the fact

    1) that new ontologies are embedded in a network of already existing ones and

    2) that ontologies and metedata have to be kept up-to-date within changing application environments.

    • A single, globallyconsisitent semantic model, which fully integrates the pre-existing ontologies vs. networks of contextualized ontologies, which are locally but not globally consistent.
    • The complete R & D cycle of the new semantic application using contextualized networked ontology environments

      1) Contributiona to foundational research

      2) System-level outcomes - tangible s/w products

      3) Sector-level outcomes - efficiency of information sharing in industries

      4) Community-oriented outcomes - interaction of developers, architects and users.


    • Rationale for the NeOn project

      • For managing the dynamics of contextualized networked ontologies ==> needed to facilitate evolution of ontologies while quaranteeing thier "local consistency"
      • For collaborative development of contextualized networked ontologies ==> needed to support collaborative developement as well as mechanisms for reasoning about the provenance of ontological structures and their quality.
      • For using and reasoning with contextualized networks of ontologies ==> contextualized ontologies, where contexts provide means for parameterizing a network of ontologies wrt. users, groups, or tasks. cost-effective, user-centred and application-tailored use and reuse of ontologies.
    • NeOn: The infrastructure for semantic technologies

      The challenge for NeOn is to make its tools and developed infrastructure the de-facto standard in networked ontology management.

  • Conclusion

    In a  nutshall, we have now reached a stage in the lifecycle og semantic web technologies, where a major integrative effort is needed, so as to achieve the kind of robust infrastructure that the community requires.

이 글은 스프링노트에서 작성되었습니다.

Creative Commons License
Creative Commons License

Óscar Muñoz-García, Asunción Gómez-Pérez, Marta Iglesias-Sucasas and Soonho Kim


Lecture Notes in Computer Science, Current Topics in Artificial Intelligence  
Springer Berlin / Heidelberg
ISSN 0302-9743 (Print) 1611-3349 (Online)
Volume 4788/2007
Pages 200-209

  • Motivation and Goal

    A major goal for FAO is to have a strong and reliable ontology management system for editing the networked ontologies that applications will use as a basis.


  • Fisheries Ontologies Lifecycle

    User     Ontology engineers

    Subject experts

    Roles    Subject experts

    Validators

    Viewers

    Major Process

    Ontology conceptualisation

    Ontology population

    Integration of conceptualization and population process (until getting a stable version)

    Ontology validation and update through editorial workflow

    Ontology publication

    Editorial Workflow

    Possible statuses

    Draft, To be approved, Approved, Published, To be deleted

    Subject experts will be able to:

    Insert, Update

    Send to be approved

    Delete (To be deleted)

    Validators will be able to:

    Update

    Send to be approved, Rejected to draft

    Rejected to be approved, To be deleted

    Delete, Destroy

    Reject the deletion

    Publish


  • Use Case

    Next we put a description of the most relevant use cases. These use cases take the NeOn metamodel as a basis. This networked ontology model has been
    designed in the NeOn project and is derived from the modeling primitives offered by OWL[3].

    • Search - Ontology editor can perform searches across the whole ontologies being edited.
    • Answer Query - Ontology editor can perform queries across the whole ontologies being edited.
    • Manage Multilinguality - Ontology editor deals with the multiligual aspect of the ontologies adding languages to ontology.
    • Export - an ontology to other formats.
    • Convert - an ontology from other formats.
    • Manage Mappings - creation of alignmnets between ontologies in a manual way and a semi-automatic way.
    • Visualize
    • Modularize
    • Manage Provenance and Statisics - the system captures ontology cnahges.
    • Populate from text - the Ontology editor choose the textual corpora.
    • Evaluate and Validate Ontology
    • Obtain Documentation











이 글은 스프링노트에서 작성되었습니다.

Creative Commons License
Creative Commons License

Ole-Christoffer Granmo and B. John Oommen



ㅡㅡ;; 조박사가 심사 시킨 논문...저자님들 죄송...

/* Accept되셨군요, 축..ㅋㅋ
Lecture Notes in Computer Science, New Frontiers in Applied Artificial Intelligence
Publisher Springer Berlin / Heidelberg
ISSN 0302-9743 (Print) 1611-3349 (Online)
Volume Volume 5027/2008
Pages 347-358  */

[요약]

WWW의 모니터링을 위해 웹 페이지 폴링 문제를 모니터링 전략으로 사용 (polling web pages)

문제는 반복적인 웹 페이지 선택의 폴링으로 구성되며 시간에 따라 발생하는 변화를 발견하는데, 단위 시간당 폴링된 웹페이지의 최대 갯수가 어쩔수 없이 제한된다.

어떤 웹 페이지가 폴링될 것이냐를 결정하는 것으로 감지된 변화의 갯수를 최대화하는 방법으로 이를 시도한다.

이 문제를 stochastic non-linear fractional knapsack problem으로 모델링하고

완전히 새로운 온라인 러닝 오토마타시스템인 hierarchy of twofold resource allocation automata를 제안한다.

주요 컴포넌트는 twofold resource allocation automata이다.

둘 다 점근적으로 옵티멀이 된다고 증명되어 있다.

실험적으로 H-TRAA는 최신 기술인 LAKG에 비해 10배정도 빨리 수렴한다.

또한 LAKG에 비해 sub-linearly 증가한다.

실험 결과로 보아 H-TRAA는 실세계 어플리케이션의 요구, 특히 WWW에서, 를 다루는데 매우 큰 잠재능력을 갖는다고 본다.


poll·ing n. 투표(voting);여론 조사;【컴퓨터링 《특정 말을 지정하고 (局) 송신하도록 권유하는 과정


Web polling

웹 페이지 모니터링의 방법

반복적으로 웹 페이지의 선택을 폴링하여 시간에 따라 발생하는 변화를 체크하는 것

비용이 크기 때문에 실제로는 단위 시간당 폴링되는 웹 페이지의 최대 숫자가 제약될 수 밖에 없다.

최대 숫자의 바운드는 통할된 커뮤니케이션 대역폭과 처리과정에 의해 생기는 속도 제한에 의해 결정된다.

주어진 단위시간 안에 웹 페이지의 일부분만이 폴링될 수 있기 때문에, 시스템 분석자는 어떤 웹 페이지들이 폴링될 것이냐를 결정해야 한다.

변화가 감지되는 수가 많은 웹 페이지를 선택하는 것이 가장 좋은 선택이 되며, 옵티멀한 리소스의 분배는 시도와 실패를 수반한다.

웹 페이지는 변화되는 빈도수 varying frequencies로 변경될 수 있고, (의사결정자도 모르는) 변화는 더 혹은 덜 임의적일 수 있다.

개개의 웹 페이지 폴이 자신의 변화를 발견하는 확률은 그 웹 페이지에 대한 폴링 빈도와 같은 양상으로 감소한다.


Stochastic Non-linear Fractional Equality Knapscak problem으로 주어진 문제를 모델링하고 Learning Automata solution을 언급


전통적인 linear Fractional Knapsack problem(FK) vs. NEFK problem

linear FK

정해진 수용량의 knapsack을 각 material의 양에 대한 혼합으로 채운다. 이때 이 조합이 갖는 value가 최대가 되도록한다. fi(xi)의 총합이 최대가 되도록

n material

vi 1<=i<=n 각 material의 value(단위량당)

xi material의 사용량, xi<=bi 가능 사용량

fi(xi)=vixi 해당 material의 사용량이 갖는 value


NEFK

separable and concave objective function

목적함수는 모든 fi(xi)의 합, concave function이 된다.

각 fi(xi)도 concave function이 된다.

xi가 0보다 큰 경우 fi(xi)의 도함수는 감소한다. (위로 볼록한 그래프, x가 0보다 클때는 기울기 감소)


Stochastic NEFK

NEFK문제의 일반화 -> 본 논문에서 제안했다고...

xi의 단위 볼륨 당 material value를 확률함수 pi(xi)로 놓는다. 확률 분포는 unknown, 즉, 각 시간에 물질 i의 양 xi는 knapsack안에 있고,

우리는 pi(xi)의 값이 아닌 xi에 대한 pi(xi)의 일시적이 값만을 관찰할 수 있다.

pi(xi)는 xi값에 따라 단조감소, xi1 <= xi2 <=> pi(xi1) >= pi(xi2)

이와 같은 환경에서, 최대 기대값을 갖는 material의 mix를 학습하는 on-line incremental scheme사용, series of informed guesses 이용


Stochastic Knapsack Problem -State-of-the-Art

본인들 연구에서 일반적 방법을 제시했고, 웹 모니터링 도메인에서 다양한 방법론이 있다.

알려지지 않은 특정 파라메터를 예측하기 위한 수단으로 웹 페이지의 폴링을 트랙킹하는 것의 경우, 시간이 오래 걸리며 다이나믹 환경에서는 더욱 심해진다.


Learning Automata

LA방법은 unknown stochastic 환경과 상호작용 하거나 이와같은 환경에서 동작될 때 옵티멀 액션을 학습하므로 매우 유익하다.

또한 낮은 복잡도를 갖으면서도 빠르고 정확하게 수렴한다.

LAKG Learning Automata Knapsack Game 예전에 본인들이 제안

파라메터의 예측에 의존하지 않고, static, dynamic한 모든 환경에 stochastic NEFK문제를 해결하기 위해 사용

라그랑게 급수의 원리에 따라 도출되는 임의의 정확성을 갖는 옵티멀 솔루션을 찾을 수 있다고 증명한 바 있다.

파라메터를 찾는 방식에 비해 정적 동적 환경에서 모두 성능이 우수하다.

LAKG는 stochastic NEFK문제를 해결하는 데 있어 가장 첨단의 방법으로, 이제 TRAA와 그 hierarchical version인 H-TRAA로 확장된다.


본 논문의 contribution

1) stochastic NEFK 문제의 formal solution을 사용하여 옵티멀 웹 폴링 문제를 해결하는 방법을 위한 분석적 결과 보고

2) 새로운 two-material resource allocation, 즉 twofold resource allocation automata (TRAA) 제안

3) TRAA의 수렴 결과 제공

4) TRAA에 기반하여 stochastic NEFK 문제를 해결하는 hierarchical solution H-TRAA

5) H-TRAA가 LAKG에 비해 수십배 이상 빠른 수렴이 된다는 사실을 실험적으로 증명


H-TRAA에 대해 더 자세히 알아볼까?

우선 전통적인 knapsack 문제부터 살펴보면,

fi(xi) = vixi, xi에 대해 linear하다. 즉, 미분값 fi'(xi) = vi 로 고정되어있다.

단위 볼륨 당 가장 value가 큰 material을 가능한 한 많이 취하고, 공간이 남았다면, 그 다음으로 value가 큰 material을 취한다. knapsack이 가득찰 때까지 반복하는 greedy algorithm이다.

이를 일반화 하여, material 단위 볼륨 value를 constant and known 분포를 갖는 random variable이라고 가정하자.

개념적 명확성을 위해 0과 1의 binary 값만을 고려하자.

단위 볼륨 값 vi가 1일때의 확률을 pi, 0일 때는 1 - pi

이같은 환경일 때는, 위에서 말한 greedy 전략은 단순히 실제 단위 볼륨의 값이 아닌 단위 볼륨의 기대값을 보고 material을 선택함으로서 knapsack의 기대값을 최대화하는 데 사용할 수 있다. 기대값 E[vi] = 0 * (1-pi) + 1 * pi

물론 위와 같은 방법은 pi가 unknown일 때는 적합하지 않다. 또한 pi가 constant가 아니라 각각의 maetrial 양 xi 에 의존할 경우 더욱 복잡하다.

pi(xi)는 material i의 현재 단위 볼륨 값 vi가 1일 확률, xi 만큼의 양이 knapsack안에 들어있다고 할 경우.

material i 의 단위 볼륨 당 기대값 E[vi] = 0 * [1-pi(xi)] + 1 * pi(xi) = pi(xi), 따라서 xi 만큼의 양에 대한 기대값은 fi(xi) = integral 0 to xi pi(u)du

제안한 방법은 온라인에서 목적함수 f(x)의 값을 최대화 하기위한 NEFK문제를 최적화하는 방향으로 향해가는 방법을 찾는 것이다.

f(x) = 1 to n fi(xi), fi(xi) = integral 0 to xi pi(u)du, pi(xi)=fi'(xi), xi<=0, 1부터 n까지 xi를 모두 더하면 knapsack의 capacity

물질i가 knapsack안에 xi만큼 존재하는 각 시간에, xi에 대한 instantiation vi만 관찰할 수 있다.

이와 같은 복잡성때문에 informed material mix guesses 에 의존하여 문제에 접근한다. 즉, 서로 다른 material mix를 가지고 실험하거나 랜덤 단위 볼륨 값으로부터 얻어진 결과를 학습하여 이에 의존하는 것을 의미한다.

여기서 xi는 0과 1 사이의 어떤 수로 가정한다.

다음의 문제는 xi에 대한 현재의 추측값을 어떻게 변경할 것인가를 결정하는 것이다. 이를 위해서 본문에서는 discretised manner로, 단위 인터벌을 N 개의 점으로 나누고 {1/N+1, 2/N+2...N/N+1}, N은 러닝 방법의 resolution이다.

knapsack문제에서는 N값이 클수록 정확한 결과를 얻는다고 한다.


TRAA를 자세히 알아보자..

우선 두개 material에 대한 Stochastic NEFK문제를 LA기반 솔루션

vi=0일때 [1-pi(xi)] vi= 1일때 pi(xi), i={1,2}

x*=[x1*,x2*] optimal allocation을 학습

s(t)={1,2,...n}의 상태를 갖는 유한 고정 구조 오토마타가 두개의 물질간에 리소스 할당을 결정하기위해 사용

s(t)를 현재상태라고 하면 qs(t)는 s(t)/N+1, rs(t)는 1-qs(t)


A_Hierarchy_of_Twofold_Resource_Allocation_Automata_Supporting.ppt


이 글은 스프링노트에서 작성되었습니다.

Creative Commons License
Creative Commons License
지애띠, 연철, 이승훈, 김흥남, 조근식,
"분산 환경에서의 협력적 여과를 위한 멀티 에이전트 프레임워크",
한국지능정보시스템학회논문지 제13권 3호 2007. 9


요약
추천 시스템은 정보의 홍수 속에서 사용자로 하여금 자신에게 더욱 가치 있고 흥미로운 정보를 선별할 수 있도록
돕는 자동화된 정보 여과 시스템이다. 최근 분산 컴퓨팅 환경에 대한 연구가 활발히 진행되면서, 지금까지의 중앙 서버에서 모든 정보를 관리하는 중앙 집중 방식의 추천 시스템에서 P2P 환경의 접근 방식으로 선회하고 있다. 협력적 여과는 상업적인 추천 시스템에서 가장 많이 사용하는 정보 여과 기법이지만, 그 성공에도 불구하고 확장성(scalability)과 데이터의 희박성(sparsity), 악의적인 사용자의 공격(shilling attack)에 대한 방어 등에 관련된 여 제약을 갖는다. 중앙 집중 방식에서 분산된 방식으로의 변화는 추천의 신뢰성과 개인 정보의 남용 가능성에 관련한 문제점을 일부 해결할 수 있으나, 조작된 사용자 프로파일을 사용하여 추천을 조작하려는 의도를 갖는 악의적인 사용자의 공격에는 중앙 집중 방식과 마찬가지로 취약할 수 있다.
본 논문에서는 개인 정보의 오남용과 악의적인 사용자의 공격에 관련된 문제점을 해결하고, 분산된 환경에서 효과적인 협력적 여과를 수행하여 추천의 성능과 정확성을 높이기 위한 멀티 에이전트 기반의 추천 프레임워크를 제안한다. 추천의 신뢰성을 높이기 위해 사용자 간의 신뢰 정보를 사용하며, 각 사용자의 개인 에이전트와 이동에이전트 간의 정보교환을 통해 효과적으로 신뢰 정보를 전파하고 분산된 유사도 계산의 효율성을 높였다.
Creative Commons License
Creative Commons License

AE-TTIE JI*, CHEOL YEON*, HEUNG-NAM KIM* AND GEUN-SIK JO**

Lecture Notes in Artificial Intelligence ("20th Australian Joint Conference on Artificial Intelligence"), Vol. 4830, pp. 377-386, Springer-Verlag, Dec. 2007

20th Australian Joint Conference on Artificial Intelligence - AustAI 2007 (acceptance rate : 31% 60/194)

abstract.
This paper proposes a collaborative filtering method with user-created tags focusing on changes of web content and internet services. Collaborative tagging is employed as an approach in order to grasp and filter users’ preferences for items. In addition, we explore several advantages of collaborative tagging for future searching and information sharing which is used for automatic analysis of user preference and recommendation. We present empirical experiments using real dataset from del.icio.us to demonstrate our algorithm and evaluate performance compared with existing works.



발표자료

Creative Commons License
Creative Commons License

Michal Laclav´ık, Zolt´an Balogh, Mari´an Bab´ık and Ladislav Hluch´y
Computing and Informatics, Vol. 25, 2006, 419–437
 
전자상거래 숙제를 위해...




목적은요,

MAS과 시멘틱 웹 연구 간의 상업적, 기술적 표준을 세우고자 하는 데 있다네요.

MAS에서 knowledge는 대부분 states, rules, predicate logic으로 표현되죠. 이것은 강력한 도구이긴 하지만 사람으로부터 직접, 혹은 룰이나 로직 기반의 현재 정보시스템으로부터 knowledge를 캡쳐해 내기는 쉽지 않다. 또한 사람에게 정보나 지식을 로직이나 룰로 표현해서 보여주기도 어렵지.

온톨로지는 현재의 정보시스템에 가깝다. 정보 캡쳐와 표현이 쉬운 XML/RDF기반으로 되어있지요.

MAS architecture들을 살펴보면,

Belief Desire Intention에서는 architecture의 'belief'를 지식 모델로 표현한다. (뭔 소린지....)

Behavioral architecture에서 지식은 변수나 알고리즘의 states에 감춰져 있거나, 룰이나 온톨로지 등의 다른 메카니즘을 통해 표현될 수 있죠.

FIPA는 온톨로지를 기반으로 한 지식 모델을 기술하는데, 내부 에이전트 메모리 모델, 그 구현과 에이전트 설계에 대한 이해를 개발자의 결정에 남겨두고 있다.

또한, FIPA는 FIPA-SL, FIPA-KIF 등과 같이 강력하지만 상업적인 툴이나 표준과는 전혀 연결성이 없는 contents 언어에 기반한 지식 manipulation을 정의한다.

예를 들어, JADE 에이전트 시스템은 메시지 교환을 위해 FIPA-SL언어를 지원하지만, 이와 같은 지식 모델의 저장소나 FIPA-SL쿼리 엔진은 없지.

 이것이 우리가 실제 어플리케이션에 더욱 적합하도록 하기위해 시멘틱 웹의 영역으로부터 온톨로지 기술(desciption)을 찾아야하는 이유랍디다.

FIPA는 FIPA-RDF를 정의하고 있지만, 이는 또한 메세지 구조에만 관련되어 있죠. 그래서 현재 MAS의 표준인 FIPA 구조는 weak하고 sw 에이전트를 이용하여 KMS를 구축하고자하는 개발자들에게는 부적합해요. 그래서말이지, 시멘틱 웹 기술을 MAS에 통합하고 이러한 통합을 위한 architecture, methodalogy, sw를 개발하기로 결정했답니다.  그리고, discrete event로 기술될수 있는 fully observable 환경에서의 어플리케이션을 위한 에이전트 지식 모델의 표현에 알맞는 generic ontology를 개발했다구요.


최신 기술을 볼까요.

에이전트 아키텍쳐라고 하는 것은 실세계, 능동적이고 오픈된 환경에서 effective behavior를 지원하는 개개의 컴포넌트들의 바탕이되는 기본 엔진이랍니다.

본 연구에서 고려되는 기본적인 에이전트 아키텍쳐는,

Reactive Architecture

Belief Desire Intention Architecture - BDI

Behavioral Architecture


메인 포커스는 에이전트의 외부에 있다. 즉, 주변 환경 혹은 다른 에이전트와의 소통 등을 의미

몇몇 툴들이 BDI 에이전트를 생성할 수 있도록 하지만, 이것은 시뮬레이션이나 테스트에만 충분할 뿐 어떤 실제 시스템에도 사용할 수 없다.

FIPA도 이러한 영역을 지원하지 않는다. FIPA는 어떻게 에이전트가 의사소통 해야 하는가, 그들이 어떻게 온톨로지를 공유, 번역, 커뮤니케이션 할 수 있는가에 대해 기술하고 있을 뿐이다.

FIPA가 지원할 수 있는 에이전트 시스템의 구현에서는 에이전트 지식 모델을 구현하기 위한 좀 더 다른 접근방법들이 모색될 수 있다.

가장 진보했지만, 충분하지는 않은 시스템이 JADE이다(java 기반). 그러나 JADE는 OWL과 같은 시멘틱 온톨로지 representation feature를 제공하지 못하고,

FIPA-SL 언어를 위한 쿼리엔진도 없다. 또한 predicate logic 기반의 모델은 사용자나 현존하는 상업 시스템과 결합되기 어렵다.

그래서, RDF/OWL 기반의 에이전트 메모리 모델을 생성하였다.

RDF/OWL을 기반으로 한 에이전트 간의 의사소통과 FIPA 기반 에이전트 시스템은 [9] OWL ontology agent based on FIPA proposal 에서 기술되고 있지만, 일반적인 에이전트 내부 모델에 대한 기술은 부족하며 RDF/OWL이 어떻게 에이전트간의 의사소통에 사용될 수 있는가 라는 이론만을 제시하고 있다.


이 논문의 접근 방법은 event based memory model로 에이전트 분야에서는 [10]에서 이벤트 모델을 전형적인 reaction architecture로 보았고. [4]에서 action-situation pair가 이 논문에서의 이벤트와 유사한 이벤트를 생성한다. 제안된 모델은 시간에 따라 변화하는(?) 환경에서 에이전트가 정보나 지식을 탐색할 필요가 있는 어플리케이션에 적합하다. 에이전트를 탐색하거나, KM어플리케이션 내에서의 에이전트에 유용하다.

이벤트는 애션을 취하거나 이전의 액션을 참조하는데 사용되며, 어느 순간의 환경에 대한 히스토리를 제공한다. 만약 에이전트 개발자에 의해 생성된 프로세싱 알고리즘이 불충분하거나 정제되어야 한다면, 히스토리 이벤트는 같은 지식 모델로부터 다른 결과를 얻는 것이 가능한 때에 프리프로세싱될 수 있다.

  fig1(2).JPG

 FIPA를 따르는 MAS에서 현존하는 feature와 missing feature


본 논문에서 부분적으로 개선하고자 하는 점은

  • 온톨로지, 지식모델 등의 더 나은 시멘틱 인프라 스트럭쳐 제공
  • sw와 지식 엔지니어링의 기본 원칙을 적용
  • MAS와 현존하는 상업 기술간의 더욱 강력한 연결을 구성

 AGENT KNOWLEDGE MODEL

 에이전트 메모리 모델이 행위를 구현하는데 사용되는 behavioral architecture (대부분의 에이전트 모델은 기존의 여러 아키텍쳐의 혼합이라고 하네요.)

discrete, fully observable 환경에 적합하며, 환경변화는 discrete event로 캡쳐된다.

즉, 특정 시간, 상황에 맞는 (in time and context) 불연속적 사건들로 어떤 환경이 모델링될 수 있는 어플리케이션에 적합하다. (information searching, km application에 사용되는 에이전트)

모델의 formal description

5 main elements : resources, actions, actors, context and events

제목_없음.JPGbasic ontology

Actor ⊆ Resource 에이전트 환경 내의 모든 리소스, Actor는 Resource의 서브 클래스

{actor} ∈ Actor

{action} ∈ Action Action class의 각각 actor는 Action class의 action을 취할 수 있다.

Resource ⊆ Context

Action ⊆ Context

Domain ⊆ Context 온톨로지의 application domain extensions

{domain} ∈ Domain

Task ⊆ Context 행하여졌거나 앞으로 행해질 tasks, 어플리케이션에 따라 problem이 될수 있다.

Context ⊃ Resource ∪ Action ∪ Domain ∪ Task actors, environment 등의 context

{context} ∈ Context

Task ⊆ domain.Task(domain) ∩ Context Task의 중요 프로포티는 domain이다. 이는 어플리케이션 컨셉과 관련된 도메인을 상징화한다. actor context와 resource updating 을 위한 적절한 km 알고리즘을 셋팅하는데 이러한 커넥션이 유용하다.

Event ⊆

action.Event({action}) ∩

resource.Event({resource}) ∩

actor.Event({actor}) ∩

context.Event({context})

{event} ∈ Event 각각의 {event}는 {context}에서 기술된 상황에서 특정 {resource}에 대해 {actor}에 의해 취해진 {action}

Agent ⊆ Actor

{agent} ∈ Agent Agent는 특수한 타입의 Actor이다.

{aQuery, aInform} ∈ Action ACL QUERY-REF, ACL INFORM메시지 등과 같은 에이전트 내부커뮤니케이션을 표현

{aUpdate, aDelete, aCreate} Action 리소스의 생성, 갱신, 삭제 등의 수행

Actor

resource.Actor({resource}) ∩ actor의현재 모든 resource

context.Actor({actor}) actor의 현재 context

Resource

context.Actor({actor}) = fC(∀event;actor.Event({actor}) ∈ {event}) 시스템이나 어플리케이션의 환경은 저장된 이벤트에 기반한다. 이벤트는 환경의 상태를 모델링한다. 환경의 현재 상태나 actor와 관련된 환경/상황은 관련있는 새로운 이벤트에 영향을 받는다.

resource.Actor(resource)= fR(context.Actor({actor})) actor의 의도나 목적의 결과, 현재 actor의 환경/상황에 의존적(context.Actor)

위 두 식은 context나 resource를 갱신하는 함수나 알고리즘을 의미하며, 나중에 알고리즘이 변경되었을때, 같은 데이터와 같은 모델을 가지고 더 나은 결과를 얻을 수 있는 장점이 있다. 모든 이벤트를 저장하기 때문에, 과거에서부터 어느 순간에서든 그 환경을 모델링 할 수 있고, 어느 시작점으로부터도 후에 그것을 프로세싱할 수 있다.

또한 MAS 외부에서도 효과적으로 사용될수 있다. actor와 그 지식 모델을 모델링 할 필요가 있는 지식 집중적 어플리케이션에서 사용될 수 있으며, 종종 어떤 어플리케이션에서든 대체로 메인인 엑터를 모델링할 필요가 있는 경우이다.

                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 Resource


MODELING AND DEVELOPMENT METHODOLOGY FOR AGENT DESIGN

KM 어플리케이션에 적합하도록 정의

commonKADS - main two part

a knowledge model based on other three models:

  • an organizational or environmental model

  • an agent model

  • a task model

and design of the system (MAS in this paper)


OWL ontology + Protege ontology editor similar to [12] A case study in using protege 2000 as a tool for commonKADS

프로티지로 모델된 온톨로지는 commonKADS 모델을 반영하며, JADE 온톨로지 모델과도 몇몇 공통점이 있다.

UML, AUML, MAScommonKADS, several iteration of modeling

온톨로지와 에이전트 모델을 생성하는 방법
  • The Organizational or the Environment Model

actor와 어플리케이션의 환경을 모델링

리소스 엘리먼트는 리소스의 새로운 타입에 의해 확장 (documents, contacts, goods, services)

      도메인 엘리먼트는 문제상황을 모델링하는 도메인/어플리케이션 종속적인 개념, 특히 actor의 의사결정, 작업수행을 위해 사용되는 개념에 의해 확장

      actor의 목표(goal)에 대한 결과로 판단되는 리소스또한 모델링 된다. (found documents, sold goods)

  • The Aengt or Actor Model

    task와 action을 수행하는 actor를 모델링, 시스템에 의해서 모니터되는 액션을 수행하는 사람, 에이전트, 혹은 다른 개체를 모델링

    액터모델의 중요한 부분은 actor의 context이다. 이는 성취된 골의 결과인 actor의 리소스와 actor의 현재 환경을 정의한다.

    때문에 actor모델은 actor의 context(fC), resource(fR) 갱신하는 함수 혹은 알고리즘을 포함한다.

  • The Task Model

    actor와 관련된 tasks, activities, processes, action을 모델링

    task의 중요한 부분은 domain이다. 이는 종종 다른 리소스나 다른 도메인 엔티티와 관련되어 있고, 우리는 리소스와 컨텍스트의 갱신하는 함수를 정의하기위해 이 관계를 알아야한다.

Outcome - 프로티지에서 개발된 OWL포맷 온톨로지, 각 에이전트를 위한 context(fC), resource(fR) 갱신 함수, 알고리즘

제시된 모델을 이용한 에이전트 기반 시스템의 설계
  • Use Case diagram
  • Sequence Diagram
  • Class Diagram
 DESIGN AND SPECIFICATION OF AGENTOWL LIBRARY

AgentOWL library - JADE agent system, jena semantic web library기반, JADE와 같은 현재의 시스템에서 제공하지 않는 아래와 같은 기능 제공

Agent Knowledge Model based on RDF/OWL

Action-resource pair (bases of events) as basics for communication included in OWL ontology model

Sending ACL based RDF/OWL message

Receiving ACL based RDF/OWL message

Including received information (events) into a model

XML-RPC receiving messages

XML-RPC returning RDF/OWL and plain XML

Inference Engine

SPARQL messages handling


Classes

The class Ontology -  사용된 온톨로지와 OWL 온톨로지와 관련된 기본 상수

The class Memory - 에이전트 메모리의 load, store, manipulation

메모리는 프로티지에서 구축된 OWL파일을 로드할 수 있다. 이는 에이전트 메모리의 온톨로지 모델이 된다.

메모리는 MySQL과 같은 Jena에서 제공되는 RDBS에 저장되거나, OWL 파일에 저장될수 있다.

DB 모델을 사용할 때, 에이전트는 노드 사이를 이동하며 자신의 메모리를 옮길 필요가 없다. 모바일 에이전트가 요구되는 경우, 단지 메모리로부터의 연결을 끊고, 실행이 다른 노드에서 시작된 후에 다시 연결하면 된다.

The class Message - ACL 메시지를 생성하고, 모델을 RDF나 XML 스트링으로 변환하는 static method를 포함한다.

XML-RPC 서버와 랩핑되었을 경우 XML-RPC communication을 위해 사용되기도 한다.

JADE 시스템은 에이전트 메모리로서 Jena OWL을 제공하기 위해, 이 라이브러리를 사용하여 개발될 수 있고,

나아가 외부 시스템으로부터 RDF 메시지로 표현된 이벤트를 받거나 지식을 표현하기 위한 XML_RPC 기반 기능을 포함하는 것이 가능하다.

또한 FIPA-ACL content 언어로 RDF/OWL 기반의 에이전트간의 커뮤니케이션도 지원할 수 있다.






이 글은 스프링노트에서 작성되었습니다.

Creative Commons License
Creative Commons License

Szomszor, M., Cattuto, C., Alani, H., O’Hara, K., Baldassarri, A., Loreto, V. and Servedio, V. D. P.

In: 4th European Semantic Web Conference, Bridging the Gap between Semantic Web and Web 2.0, 3-7th, June 2007, Innsbruck, Austria.



Folksonomy-generated movie tag-cloud가 서로 다른 종류의 영화에 대한 사용자의 흥미 레벨을 반영하여 더 나은 사용자 프로파일을 구축할 수 있다는 것을 보인다.


사용자의 흥미는 아이템을 표현하는 애트리뷰트들로 표현된다. => 시스템 내부 정보만 사용, 아이템이나 사용자 자신에 대한 외부정보를 사용하지 않는다.

폭소노미의 이점 => 그 실제 사용과 기술하고자 하는 리소스간의 긴밀한 연결, 개발과 활용이 용이

     => 어떤 추천 상황에서 고려될 수 있는 사용자의 인식에 관련된 정보 제공

          즉, 온톨로지가 두개의 영화가 유사한가 아닌가에 대한 객관적인 지각을 제공한다 하더라도,

          그것은 사용자의 인식과 일치하게 매핑되는 것은 아니므로 이러한 관점에서 보완의 역할을 할 수 있다.


semantic web과 web 2.0은 서로 경쟁적 관계에 있거나 folksonomy가 더 간단하고 싼 bottom-up방식의 ontology라는 것을 의미하는 것은 아니다.

SW기술은 데이터 통합의 유용한 툴로서 사용

folksonomy는 사용자의 자원 소유에 대한 이해를 반영하는 유기적 구조, 사용자의 흥미 표현을 구성하는 데 더 효과적일 수 있다.

즉, 다양한 소스로부터 얻어진 관련있는 정보를 통합하여, 시스템이 접근할 수 있는 정보의 양을 증가시킴으로서 추천 시스템의 성능을 얼마나 향상시킬수 있겠는가 하는 것이 이 논문의 목적(?)이다.


 Dataset

IMDB의 키워드와 netflix의 레이팅을 대응, D2RQ를 사용하여 영화의 확장된 정보를 찾는다, 배우, 작가, 감독 등

온톨로지를 사용하여 데이터 통합


 각 사용자가 레이팅 한 모든 영화에서,

사용된 모든 키워드에 대해,

사용자가 r (= 1, 2, 3, 4, 5)이라는 레이팅을 한 모든 영화, 즉 rating 1인 영화들, rating 2인 영화들 각각에 대해서

키워드의 빈도수를 이용하여 tag-cloud를 생성


Average-based Rating 어떤 사용자가 새로운 영화에 대해 레이팅 할 때, 그 영화에 레이팅한 다른 사용자들의 평균 레이팅으로 레이팅 할 것이라고 가정

Simple Tag-cloud 새로운 영화 m의 키워드 집합과 각 레이팅에 대한 그 사용자의 태그클라우드를 본다.

m의 키워드와 사용자의 각 레이팅별 태그클라우드 안의 키워드들을 비교하여 공통으로 포함된 키워드의 수를 측정한다.

가장 많은 키워드를 공유하는 레이팅이 해당 영화의 레이팅이 된다.

Weighted Tag-cloud 새로운 영화 m의 키워드 집합과 사용자의 각 레이팅에 대한 태그클라우드와의 유사도를 구한다.

공통으로 포함하는 키워드에 대해, TFIDF방법으로 웨이트 줌, 키워드 k의 빈도수/ log(키워드 k의 global 빈도)

전체 합(레이팅 * 웨이트)/전체합(웨이트)=예측값


실험에서 쓰인 방법은...

Average-based rating + Weight Tag-cloud

(1-a)*평균레이팅 + a*가중치레이팅 , a=1/2로 사용, 0<a<1

최종 계산된 레이팅은 반올림하여 정수로 얻는다.

영화 m에 대한 키워드셋이 공집합일 경우에는 평균레이팅만 사용


실험데이터 Netflix에서 임의로 뽑은 500명의 사용자의 레이팅 선택

테스트 셋은 각 사용자의 최종(최근)100개 레이팅, 나머지는 트레이닝 셋으로 사용

Average-based Rating, Simple Tag-cloud(unweighted), Average-based rating + Weight Tag-cloud(weighted)를 비교한다.


예측값을 정수로 얻으므로, correct/incorrect rating을 퍼센트로 나타내고, RMSE를 구한다.

RMSE는 테스트 셋 안의 모든 아이템의 예측값과 실제값의 차를 제곱하여 아이템 갯수로 평균, 루트를 취한 오차율

unweighted의 경우가 정확하게 예측한 아이템의 갯수는 제일 많았지만, RMSE는 weighted의 경우가 가장 적다.

unweighted 와 weighted의 레이팅된 영화갯수에 따른 RMSE 분포를 비교하면, weighted가 오차범위가 적고,

레이팅된 영화의 갯수에 대해 오차율이 독립적이라는 것을 알 수 있다.

전체 데이터의 레이팅 분포 (1-5)와 세가지 방법으로 예측한 값의 레이팅 분포를 비교하면, 예측한 값을 살펴볼때 1과 2로 레이팅된 아이템은 거의 무시된다...(?)는 것을 알수 있다.

1, 2, 5와 같이 실제 레이팅이 매우 낮거나 높은 아이템은 모두 잘 예측해내지 못한 반면, 분포가 높은 3, 4의 레이팅은 모두 비교적 잘 예측해낸다.

3, 4와 같은 중간 레이팅의 경우 제안된 방법이 평균값을 레이팅으로 사용하는 경우보다 더 잘 예측해낼 수 있다.

(그림 6에서 실제 레이팅과 예측 레이팅이 같은 자리의 색이 연할수록 잘 예측된 것임)

3-4, 4-3으로 예측된 경우와 비교하였을 때, 색의 차이가 더 많다. (a와 b 비교)

레이팅 1, 2, 5에 대한 예측은 성능이 더 안좋다.


future work에서...

더욱 content-based 된 scheme을 사용하면 성능이 향상될 것이다. IMDB에서 제공하는 각종 영화에 대한 메타정보는 물론 레이팅의 demographic  breakdown을 제공하기 때문에 더욱 자세한 프로파일을 만드는 것이 가능하다. 본 논문에서는 협력적 여과 기법이 사용되지 않았지만 tag-cloud가 유사이웃집단을 찾는데 도움을 줄 것이라는 것을 보여줄 예정이란다.



이 글은 스프링노트에서 작성되었습니다.

Creative Commons License
Creative Commons License
Heung-Nam Kim, Ae-Ttie Ji, Cheol Yeon, and Geun-Sik Jo,
"A User-Item Predictive Model for Collaborative Filtering Recommendation",
Lecture Notes in Artificial Intelligence (11th International Conference on User Modeling),
Vol. 4511, pp. 334-338, Springer-Verlag, Jun. 2007


Abstract
Collaborative Filtering recommender systems, one of the most representative systems for personalized recommendations in E-commerce, enable users to find the useful information easily. But traditional CF suffers from some weaknesses: scalability and real-time performance. To address these issues, we present a novel model-based CF approach to provide efficient recommendations. In addition, we propose a new method of building a model with dynamic updates, when users present explicit feedback. The experimental evaluation on MovieLens datasets shows that our method offers reasonable prediction quality as good as the best of user-based Pearson correlation coefficient algorithm.
Creative Commons License
Creative Commons License

연철, 김흥남, 지애띠, 조근식,
"협력적 태그를 이용한 추천 시스템", 한국지능정보시스템학회,
2007 춘계학술대회, 2007. 05. 18.

요약
디지털 기기가 보편화 되면서 많은 디지털 컨텐츠가 생성되고 있다. 또한, 인터넷 서비스의 발전으로 이들 컨텐츠를 과거에 비해 손쉽게 웹 상에 개제할 수 있게 되었다. 따라서, 많은 컨텐츠를 추천해 주기 위해 추천 시스템에 관한 연구가 활발히 진행되고 있다. 이들 컨텐츠가 기존의 텍스트 기반에서 사진이나 동영상, 사운드 등 컴퓨터가 자동으로 내용을 파악하기 힘든 컨텐츠로 변화하면서, 내용의 파악이 필요 없는 협력적 여과(Collaborative Filtering)가 추천 시스템에서 유용하게 이용될 수 있다. 또한, web 2.0의 영향으로 컨텐츠를 분류하고 재검색을 용이하게 하기 위해 태깅(tagging)을 제공하는 서비스가 많아지고 있다. 본 논문에서는 내용 파악이 힘든 컨텐츠의 효과적인 추천을 위해 협력적 여과(Collaborative Filtering)와 협력적 태깅(Collaborative Tagging)을 접목시킨 방법을 제안하고, 전통적인 협력적 여과 방법과 제안한 방법의 비교 실험을 통하여 협력적 여과 방법에서의 태깅의 효과에 대해 논한다.

 

Creative Commons License
Creative Commons License
Ae-Ttie Ji, Cheol Yeon, Heung-Nam Kim , Geun-Sik Jo,
"Distributed Collaborative Filtering for Robust Recommendations against Shilling Attacks",
Lecture Notes in Artificial Intelligence (20th Canadian Conference on Artificial Intelligence),
Vol. 4509, pp. 14-25, Springer-Verlag, May. 2007


Abstract.
Recommender systems enable a user to decide which information is interesting and valuable in our world of information overload. Collaborative Filtering (CF), one of the most successful technologies in recommender systems suffers from improper use of personal information and the incredibility of recommendations. To deal with these issues, we have been focusing on the trust relationships between individuals, i.e. web of trust, especially for protecting the recommender system against profile injection attack. Based on trust propagation scheme, we proposed TCFMA architecture which is added agent-based scheme obtaining attack resistance property as well as improving the efficiency of distributed computing. In web of trust, users’ personal agents find a unique migration path made up of latent neighborhoods and reduce search scope to a reasonable level for mobile agents by using the Advogato algorithm. The experimental evaluation on Epinions.com datasets shows that the proposed method brings significant advantages in terms of dealing with profile injection attack without any loss of prediction quality.

발표자료
Creative Commons License
Creative Commons License
Heung-Nam Kim, Ae-Ttie Ji, Hyun-Jun Kim, and Geun-Sik Jo,
"Error-based Collaborative Filtering Algorithm for Top-N Recommendation",
Lecture Notes in Computer Science (APWEB/WAIM 2007),
Vol. 4505, pp. 594-605, Springer-Verlag, Jun. 2007


Abstract
Collaborative Filtering recommender system, one of the most representative systems for personalized recommendations in E-commerce, is a system assisting users in easily finding useful information. However, traditional collaborative filtering systems are typically unable to make good quality recommendations in the situation where users have presented few opinions; this is known as the cold start problem. In addition, the existing systems suffer some weaknesses with regard to quality evaluation: the sparsity of the data and scalability problem. To address these issues, we present a novel approach to provide enhanced recommendation quality supporting incremental updating of a model through the use of explicit user feedback. A model-based approach is employed to overcome the sparsity and scalability problems. The proposed approach first identifies errors of prior predictions and subsequently constructs a model, namely the user-item error matrix, for recommendations. An experimental evaluation on MovieLensdatasets shows that the proposed method offers significant advantages both in terms of improving the recommendation quality and in dealing with cold start users.
Creative Commons License
Creative Commons License
Heung-Nam Kim, Ae-Ttie Ji, Soon-Geun Lee, and Geun-Sik Jo,
"Semantic Web Approach in Designing a Collaborative E-Item Bank System",
Lecture Notes in Computer Science
(33rd International Conference on Current Trends in Theory and Practice of Computer Science),
Vol. 4362, pp.693-704, Springer-Verlag, Jan. 2007.

Abstract
Existing item bank systems present a variety of assessments for data management and integration with individual learning evaluation systems. However, as the data in these established item bank systems do not include semantics, the bank systems cannot analyze implications and perform accurate searches such as for synonymous words. Therefore, both learners and teachers can access only simple text data using the item bank system and often waste time checking unnecessary search results and extracting information from data repeatedly. Moreover, since there is no clear definition of the relationship between items and teachers or learners, or between data and units, it is difficult to use and share extra-item information. In order to solve these problems, this research describes the definition of conception and organization by constructing the Ontology of an E-Item Bank system using OWL, which is a form of semantic web technology. Furthermore, on the basis of Ontology, OWL metadata, individuals, are built, semantic factors are then extracted using OWLJessKB. We do not only use this extracted semantic factors as a fact, but also domain rules using SWRL for the JESS inferencing engine. As such, it is possible to make inferences and provide reasoning in web data structures. As a result, it is possible to combine all the data of the E-Item bank system and facilitate understanding of the meanings of concepts by the computer. In addition, a search service with inference can be applied to education and can lead to cooperative study between teachers and students.
Creative Commons License
Creative Commons License
+ title : Inferring Trust Relationships in Web-based Social Networks
+ author :  Golbeck, J., Hendler, J.
+ conference/journal :  ACM Transactions on I.T. 
+ publisher : ACM
+ year : 2006


Abstract.
The growth of web-based social networking and the properties of those networks have created great potential
for producing intelligent software that integrates a user's social network and preferences. Our research looks
particularly at assigning trust in web-based social nets and investigates how trust information can be mined and integrated into applications. This paper introduces a definition of trust suitable for use in web-based social
networks with a discussion of the properties that will influence its use in computation. We then present two
algorithms for inferring trust relationships between individuals that are not directly connected in the network.
Both algorithms are shown theoretically and through simulation to produce calculated trust values that are
highly accurate.. We then present TrustMail, a prototype email client that uses variations on these algorithms to
score email messages in the user's inbox based on the user's participation and ratings in a trust network.




Creative Commons License
Creative Commons License
+ title : Propagation Models for Trust and Distrust in Social Networks
+ author :  C. Ziegler, G. Lausen
+ conference/journal :  Information Systems Frontiers
+ publisher :  Springer Science + Business Media
+ year : 2005


Abstract. SemanticWeb endeavors have mainly focused on issues pertaining to knowledge representation and ontology design. However, besides understanding information metadata stated by subjects, knowing about their credibility becomes equally crucial. Hence, trust and trust metrics, conceived as computational
means to evaluate trust relationships between individuals, come into play. Our major contribution to SemanticWeb trust management through this work is twofold. First, we introduce a classification scheme for trust metrics along various axes and discuss advantages and drawbacks of existing approaches for Semantic Web scenarios. Hereby, we devise an advocacy for local group trust metrics, guiding us to the second part which presents Appleseed, our novel proposal for local group trust computation. Compelling in its simplicity, Appleseed borrows many ideas from spreading activation models in psychology and relates their concepts to trust evaluation in an intuitive fashion. Moreover, we provide extensions for the Appleseed nucleus that make our trust metric handle distrust statements.

Creative Commons License
Creative Commons License
+ title :  ITEM BASED COLLABORATIVE FILTERING RECOMMENDATION ALGORITHEMS
+ author :  Badrul Sarwar , George Karypis , Joseph Konstan , John Reidl
+ conference/journal :  the 10th international conference on World Wide Web
+ publisher : 
+ year : 2001

Abstract
Recommender systems apply knowledge discovery techniques to the problem of making personalized recommendations for information, products or services during a live interaction. These systems, especially the k-nearest neighbor collaborative filtering based ones, are achieving widespread success on the Web. The tremendous growth in the amount of available information and the number of visitors toWeb sites in recent years poses some key challenges for recommender systems. These are: producing high quality recommendations, performing many recommendations per second for millions of users and items and achieving high coverage in the face of data sparsity. In traditional collaborative filtering systems the amount of work increases with the number of participants in the system. New recommender system technologies are needed that can quickly produce high quality recommendations, even for very large-scale problems. To address these issues we have explored item-based collaborative filtering techniques. Itembased Techniques first analyze the user-item matrix to identify relationships between different items, and then use these relationships to indirectly compute recommendations for users.
In this paper we analyze different item-based recommendation generation algorithms. We look into different techniques for computing item-item similarities (e.g., item-item correlation vs. cosine similarities between item vectors) and different techniques for obtaining recommendations from them (e.g., weighted sum vs. regression model). Finally, we experimentally evaluate our results and compare them to the basic k-nearest neighbor approach. Our experiments suggest that item-based algorithms provide dramatically better performance than user-based algorithms, while at the same time providing better quality than the best available user-based algorithms.

Creative Commons License
Creative Commons License
"CoAKTinG: Collaborative Advanced Knowledge Technologies in the Grid"
Simon Buckingham Shum, David De Roure, Marc Eisenstadt, Nigel Shadbolt and Austin Tate

Proc. Second Workshop on Advanced Collaborative Environments
[www-fp.mcs.anl.gov/fl/wace/summer2002/index-wace2002.htm]
Eleventh IEEE Int. Symposium on High Performance Distributed Computing (HPDC-11),
July 24-26, 2002, Edinburgh

1차때 그리드 컴퓨팅 수업시간에 발표한 논문...


Creative Commons License
Creative Commons License
+ title :  PocketLens : Toward a Personal Recommender System
+ author :  B.N. Miller, J.A. Konstan, J. Riedl
+ conference/journal :  ACM Transactions on Information Systems
+ publisher : ACM
+ year : 2004

Recommender systems using collaborative filtering are a popular technique for reducing information overload and finding products to purchase. One limitation of current recommenders is that they are not portable. They can only run on large computers connected to the Internet. A second limitation is that they require the user to trust the owner of the recommender with personal preference data. Personal recommenders hold the promise of delivering high quality recommendations on palmtop computers, even when disconnected from the Internet. Further, they can protect the user’s privacy by storing personal information locally, or by sharing it in encrypted form. In this article we present the new PocketLens collaborative filtering algorithm along with five peer-to-peer architectures for finding neighbors. We evaluate the architectures and algorithms in a series of offline experiments. These experiments show that Pocketlens can run on connected servers, on usually connected workstations, or on occasionally connected portable devices, and produce recommendations that are as good as the best published algorithms to date.




Creative Commons License
Creative Commons License
+ title :  Toward an Ontology-Driven Architectural Framework for B2B
+ author :  E. Kajan, L. Stoimenov
+ conference/journal :  Communication of The ACM
+ publisher : ACM
+ year : 2005




Creative Commons License
Creative Commons License
지애띠, 김흥남, 조근식, "아이템 기반의 신뢰도를 이용한 효율적인 협력적 여과 방법",
한국정보과학회, 2005 추계학술발표회, 2005.11.11

요약 
상업적인 추천 시스템에서 폭넓게 사용되고 있는 사용자 기반의 협력적 여과 방법 (User-Based Collaborative Filtering)은 확장성과 실시간 성능에 관련된 많은 제약을 갖는다. 이와 같은 맹점을 해결하기 위해 제안된 모델 기반의 협력적 여과 방법 (Model-Based Collaborative Filtering)은 추천은 매우 빠르지만, 모델을 구축하는 데 많은 시간이 소요되며, 사용자 기반의 협력적 여과 방법에 비해 추천의 질이 떨어지는 경향이 있다. 또한, 과거에 추천되었던 히스토리를 바탕으로 한 신뢰도 정보를 고려하는 추천 시스템은 추천의 정확도를 향상시키기 위한 다양한 연구 가운데 하나이다. 본 논문에서는 사용자 기반의 협력적 여과 방법의 문제점을 개선하고 추천의 정확도를 높이기 위해, 유사한 아이템의 모델을 미리 구축하는 아이템 기반의 협력적 여과 방법 (Item-Based Collaborative Filtering)에 각 아이템의 추천에 대한 신뢰도를 고려하여 보다 효율적인 추천 시스템을 제안하고자 한다. 또한, 기존 추천 시스템과의 성능 비교 실험을 통해 제안한 방법의 타당성을 제시한다.
Creative Commons License
Creative Commons License

BLOG main image
히히히...ㅡ_ㅡ by 뚜방꽁

카테고리

ALL--? (352)
.On.tHe.EDgE. (92)
HotStudy+-+ (64)
CoolTHINGS!! (196)

달력

«   2012/05   »
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    
Total : 47,301
Today : 25 Yesterday : 40