ПОДХОД К ИНТЕГРАЦИИ СТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ОПИСАНИЙ НА ОСНОВЕ ОНТОЛОГИЙ

В.В. Иванов

Казанский государственный университет, Казань, Российская Федерация
nomemm@mail.ru

Задача интеграции структурированных текстовых описаний возникает при представлении информации в глобальной сети Интернет, где в последнее время актуальной стала идея Semantic Web (или, Web 3.0), реализация которой в большой степени зависит от возможности автомати¬ческой обработки смыслового содержимого веб-ресурсов по их онтологи¬ческому представле¬нию. В докладе описывается подход к разработке математического и программного обеспечения процессов интеграции структурированных текстовых описаний на основе прикладной онтологии. Освещаются вопросы выбора общедоступных ресурсов онтологи¬ческого характера для построения прикладной онтологии по культурному наследию, подход к формализации связей между онтологией верхнего уровня и информационно-поисковым тезаурусом (ИПТ), модель процесса интеграции структури¬рован¬ных текстовых описаний, результаты экспериментов с алгоритмом поиска соответствий между элементами структури¬рован¬ных описаний и онтологии. Предлагаемые методы применялись для интеграции разнородных структурированных текстовых описаний музейных предметов с использованием технологий Semantic Web.

В качестве типичных представителей ресурсов онтологического типа рассматриваются онтологии верхнего уровня и ИПТ. Выбор такого рода ресурсов обоснован двумя факторами: необходимостью формального описания свойств и взаимосвязей объектов предметной области и потребностью использования разнообразной тер¬ми¬но¬логии. Онтология верхнего уровня CIDOC CRM [1] и тезаурус по архи¬тектуре и искусству AAT [2] могут стать основой для построения онтологии по культурному наследию. Приоритет при выборе тезауруса отдавался доступным русскоязычным ресурсам ресурса большого объема – порядка нескольких тысяч понятий. Тезаурус ААТ является наиболее полным среди всех известных тезаурусов в данной предметной области (общее число понятий – около 33 тыс., число терминов – более 130 тыс.). Перевод большего фрагмента тезауруса на русский язык осуществлен в НИВЦ МГУ [3]. Связыва¬ние онтологии верхнего уровня и ИПТ осуществляется с помощью задания набора логических ограничений на множество допустимых значений формальных свойств в онтологии верхнего уровня. Результатом связывания онтологии CIDOC CRM и тезауруса ААТ стал крупный онтологический ресурс по культурному наследию.

Центральным понятием в процессе интеграции является структурированное текстовое описание. Определение этого понятия основано на расширении определения понятия отношения из [4]. Ключевым в процессе интеграции структурированных текстовых описаний является алгоритм поиска элементарных соответствий между структурными элементами описаний и онтологии на основе анализа их текстового содержимого. Проведено сравнение предлагаемого алгоритма поиска соответствий с известными методами классификации. Для экспериментов были выбраны метод KNN, основанный на предварительном обучении, и метод кластеризации: KMeans.

Для оценки качества результата отображения используются методы фактографии¬ческого поиска в интегрированном хранилище описаний. Проведено сравнение алгоритма поиска описаний с ИПС «Google» на 8000 описаний музейных предметов. Точность предлагае¬мого алгоритма поиска на 300 случайных запросах, содержащих понятия тезауруса, лучше в среднем на 11 – 49%. При этом полнота поиска не изменялась, либо (на некоторых из запросов) за счет использования тезауруса количество извлеченных описаний увеличи¬валось в 3 – 5 раз.

Список литературы

1. Crofts N., Doerr M., Gill T., Stead S. Definition of the CIDOC Conceptual Reference Model [Электронный ресурс]. – Режим доступа: http://cidoc.ics.forth.gr/docs/cidoc_crm_version_4.0.pdf, свободный.
2. Petersen T., Barnett P. Art & Architecture Thesaurus: Guide to Indexing and Cataloging With the Art & Architecture Thesaurus. – Oxford University Press, 1994.
3. Добров Б.В., Лукашевич Н.В., Соловьев В.Д. Тезаурус по архитектуре и искусству как средство формализации описаний музейных предметов // Электронный журнал FCCL. – 2006. – [Электронный ресурс]. – Режим доступа: http://fccl.ksu.ru/issue_spec/docs/aat_index.doc, свобод¬ный.
4. Дейт К. Дж. Введение в системы баз данных. – 8-е изд. – М.: Вильямс, 2006.


Международная научно-практическая конференция «Веб-программирование и Интернет-технологии WebConf09»: Сб. матер. Междунар. науч.-практ. конф. Минск, 8-10 июня 2009г.- Мн.: Институт математики НАН Беларуси, 2009.-112с.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *


Ответить с помощью ВКонтакте: