Similarity Search

From Big Data Analytics Lab

Overview

저희 팀은 유사성 검색(Similarity Search)에 대한 연구를 하고 있습니다. 데이터베이스의 데이터가 점점 다양하고 복잡해지면서 유사성 검색에 대한 필요가 높아지고 있습니다. 유사성 검색의 대표적인 예로 멀티미디어 데이터베이스에서의 이미지 검색을 들 수 있습니다. 이미지 검색은 정확히 동일한 이미지를 찾는 것보다는 유사한 이미지를 찾는 것이 더욱 중요합니다. 그리고 생물정보학에서 유사한 DNA서열을 검색하는 것도 유사성 검색의 한 예입니다. 특히 최근에는 지식을 온톨로지라는 형태로 인코딩하여 데이터로 접근하면서 의미론적 유사성(Semantic similarity)에 대한 관심이 높아지고 있습니다. 저희 팀에서도 의미론적 유사성 검색에 대한 연구를 수행하고 있습니다. 온톨로지로 의미를 기술한 데이터가 존재하는 상황에서 어떻게 하면 유사한 의미를 가진 데이터를 검색 할 수 있는지, 의미론적 유사성의 정의를 어떻게 내릴지, 어떻게 효율적으로 검색할 수 있는지, 등이 저희 팀의 주된 연구 주제 입니다. 현재 유사한 기능을 하는 단백질을 검색하는 GORank시스템을 개발하였으며 계속적으로 발전시키고 있는 상태입니다. 앞으로는 이런 의미론적 유사성을 사용하여 클러스터링에 적용하는 방향으로 연구를 진행할 계획입니다.

Resources

The Overview of GORank