시맨틱 웹이란?(1)
2007-04-05
성원경
- 5433
- 1
[의미와 정보기술]
의미(meaning)에 대한 연구는, BC 4세기 무렵 고대 그리스 철학자인 아리스토텔레스에 의해 기초가 마련된 이후 현대에 이르기까지, 철학과 언어학의 특수 영역에서만 다루어져 왔다. 의미에 대한 연구는 오래되었지만 쉽게 접할 수 있는 것이 아닌 것이었다.
이처럼 생소하기만 했던 의미에 대한 관심이 정보기술 분야에서도 고조되기 시작하였다. 인터넷의 도입과 함께 유통되는 정보가 폭증함에 따라 이제는 사람이 직접 정보를 일일이 열어보고 내용을 파악하는 것이 불가능해졌기 때문이다. 특히 합리적인 계획수립 및 의사결정을 위해 대량의 정보에 의존할 수밖에 없는 기업들의 경우, 정보의 의미 파악을 위한 기술은 무엇보다도 절실해졌다.
8, 90년대에 활발히 연구되었던 자연어처리(natural language processing) 기술은 이와 같은 환경 변화에 대응한 최초의 정보기술이었다. 자연어처리 기술의 등장과 함께 오늘날의 정보검색 기술의 근간인 형태소 분석과 색인이 가능해졌으며 구문 분석 및 의미 분석 등과 같은 기술들은 정보의 의미 처리를 위한 기반 기술로 기대되기도 하였다. 하지만 언어 표현의 다양성과 다국어라는 장벽은 자연어처리 기술의 실용적 한계를 드러내어 현재 자연어처리 기술은 제한적으로만 활용되고 있는 실정이다.
[의미와 시맨틱 웹]
자연어처리 기술은 심층적인 언어 분석을 통하여 사람이 보기 위한 정보로부터 그 의미가 무엇인지 알아내기 위한 기술로서 “똑똑한 시스템(intelligent system)”을 추구한다고 말할 수 있다. 반면, 오늘날의 웹을 창시한 Tim Berners-Lee가 제안한 시맨틱 웹(semantic web)에서는 정보의 의미에 대한 대조적인 접근 방안이 제시되고 있다. 이는 그의 시맨틱 웹에 대한 다음의 정의에서 잘 드러난다.
“The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation.”
(출처: T. Berners-Lee, J. Hendler, and O. Lassila. The Semantic Web. Scientific American, May 2001)
“정보에 잘 정의된 의미를 부여” 한다는 것은 정보의 내용 또는 의미를 형식적으로 기술하기 위한 메타데이터(meta-data)들을 정의하고 이를 활용하여 개별 정보의 의미를 명시적으로 기술한다는 것이며 이들 메타데이터들을 컴퓨터 소프트웨어가 활용하여, 언어 분석 과정 없이, 정보의 의미와 정보들 간의 의미적 연계관계를 처리하게 하는 것이 시맨틱 웹의 철학인 것이다. 이런 면에서, 시맨틱 웹은 똑똑한 시스템보다는 “똑똑한 데이터(intelligent data)”를 추구한다고 말할 수 있다.
[시맨틱 웹의 기술적 기반]
메타데이터에 의존하는 시맨틱 웹의 기술적 기반은 Tim Berners-Lee의 시맨틱 웹 기술 계층도가 명확히 보여주고 있다.

시맨틱 웹은 다국어 문자 처리를 위하여 유니코드(unicode)를 기반으로 하며 주소 체계의 일종인 URI(Uniform Resource Identifier)를 사용하여 메타데이터로 기술될 정보 자원들을 정의하고 식별한다. 이는 사람의 경우, 개개인을 주민번호로 정의하고 식별하는 것과 동일하다. 메타데이터들은 XML(eXtensible Markup Language) 구문에 기반한 RDF(Resource Description Framework) 트리플(triple) 형식으로 표현되며, RDFS(RDF Schema)와 온톨로지(ontology)는 RDF 트리플 생성 시에 필요한 클래스(class)와 속성(property)을 정의하고 계층 관계를 설정한다. 이와 같은 체계를 따라 만들어진 RDF 트리플 형태의 메타데이터들은 logic에 포함된 추론(inference) 과정을 통하여 통합•연계되어 개별 단위 정보들에는 명시되지 않았던 새로운 정보를 얻을 수 있게 된다. 마지막으로 계층도의 상단에 위치한 proof와 trust 그리고 오른편의 digital signature는 시맨틱 웹의 보안과 정보의 신뢰성 보장을 위하여 도입된 것이나 여타의 다른 부문과는 달리 현재까지 그 개념 정도만 언급되고 있을 뿐이다.
앞의 계층도에 언급된 기술들과 관련하여 W3C는 현재까지 메타데이터의 구축과 관련된 RDF, RDFS 및 OWL(Web Ontology Language)에 대한 표준을 발표하였다. DAML(DARPA Agent Markup Language)과 OIL(Ontology Inference Layer)이 통합된 DAML+OIL을 확장한 OWL은 온톨로지의 기술을 위한 표준 언어로서 그 표현력에 따라 OWL-Lite, OWL-DL 및 OWL-Full로 세분된다. 특히 OWL-DL은 기존에 인공지능 분야에서 추론을 위하여 제안된 DL(Description Logics)을 지원하기 위한 것으로, OWL-DL로 인하여 DL은 결과적으로 logic 층위의 사실상 표준으로서의 지위를 얻게 되었다고 볼 수도 있을 것이다.

현제 다국적 웹에대한 산지식의 장으로 잘 활용 되었음