На базе Белорусского государственного университета (Беларусь, Минск) 8–10 июня 2009 будет проводится международная научно-практическая конференция «Веб-программирование и Интернет-технологии (WebConf09)».

Загрузить Первое информационное сообщение WebConf09.

Итак, чем будет интересна WebConf09 разработчикам и исследователям Semantic Web? Read the rest of this entry »

Сегодня,  уважаемые читатели сайта SHCHERBAK.NET, вам предлагается для ознакомления статья, в которой  предлагается подход к представлению онтологий в виде конечного автомата. Такое представление позволяет ввести операции на онтологиях. Операции на онтологиях дают возможность автоматизировать процесс анализа и синтеза онтологий и их составляющих.

Читать


Хочу выразить благодарность авторам статьи, за интересный и, скажем чесно, нестандартный взгляд на проблему представления онтологий. Авторы статьи – Крывый С. Л. , Ходзинский А.Н. (Институт кибернетики им. В.М. Глушкова НАН Украины).

Крывый С. Л., Ходзинский А.Н.

Институт кибернетики им. В.М. Глушкова НАН Украины,

Украина, Киев, пр. акад. Глушкова, 40,

т. (044)-526-22-34, 526-04-58, email: krivoi@i.com.ua, ho@cyber.kiev.ua

Аннотация. Предлагается подход к представлению онтологий в виде конечного автомата.
Такое представление позволяет ввести операции на онтологиях. Операции на онтологиях дают возможность автоматизировать процесс анализа и синтеза онтологий
и их составляющих частей.

Abstract. A representation of ontology by using finite state automata is considered. This representation allows to introduce the operations on ontologies by using regular algebra of languages. The operations over ontologies allow to automatisate the process of analysis and synthesis for ontologies and their members.

Ключевые слова: онтологии,операции, конечные автоматы

Введение

В последнее время в естественных науках и, в частности, в теоретическом программировании появилось столько различных направлений, течений и теоретических результатов, что становится проблематичным охватить хотя бы малую часть поля научной деятельности даже в отдельно взятых областях. Одним из подходов к пониманию взаимосвязей между различными течениями и теориями является онтологический подход [1,2]. Кроме того, в связи с возрастанием сложности программного и технического обеспечения вычислительных процессов требуется интеллектуализация этих процессов и такой интеллектуализации можно достичь, по мнению многих специалистов, путем использования онтолого-управляемых систем поиска, извлечения и обработки знаний, содержащихся в онтологиях. Онтологический подход для построения связей между понятиями некоторой предметной области, как правило, основывается на определении отношения «предметная область – свойства – модели – приложения». В данной работе рассматривается способ представления онтологий с помощью конечных автоматов с одной стороны, и отношений, лежащих в основе каждой онтологии. Этот подход позволяет ввести операции на онтологиях используя операции на языках и автоматах. При таком подходе типы онтологий и их иерархия не детализируется с целью подчеркивания общности рассматриваемых операций. Операции иллюстрируются на простых примерах онтологий,
относящихся к компьютерной математике [3].

Автоматное представление онтологий

Будем предполагать, что онтологии представляются в виде орграфа G = (V, E), где множество вершин V представляет множество предметных областей, а множество ребер E – бинарное отношение между этими предметными областями. С каждым таким орграфом G = (V, E) будем ассоциировать конечный (вообще говоря) частичный детерминированный автомат без выходов A = (V, X=V, f,S, F), где
V – множество состояний, которое также служит входным алфавитом данного автомата, S – подмножество начальных состояний, F – подмножество заключительных состояний (которое, в частности, может быть пустым), а функция переходов данного автомата определяется следующим образом: f(u,v) = v тогда и только тогда, когда (u,v) E и не определено в остальных случаях.

Рассмотрим пример представления фрагмента онтологии для предметной области «Комбинаторика» с помощью конечного автомата [5].

Пример 1. Пусть задана онтология, отражающая малую часть предметной области «Комбинаторика», в виде следующего орграфа:

Рис. 1. Онтология О

Соответствующий данной онтологии конечный автомат имеет вид A = (V = {1,2, 3, 4,5, 6,7}, X = {1,2,3,4,5,6,7}, f, {1}, {7}), где f задана таким графом переходов:

Рис. 2. Конечный автомат А для О

Это значит, что f(1,2) = 2, f(1,3) =3, f(1,4) =4, f(3,5) =5, f(5,7) =7,f(4,6) =6. Остальные переходы в данном автомате неопределенны.

Операции на онтологиях в автоматном представлении

Представление онтологий в виде конечного автомата без выходов позволяет ввести операции на онтологиях. Операции на автоматах означают операции на регулярных языках, которые акцептируются этими автоматами. Основными такими операциями являются следующие:

- объединение – теоретико-множественное объединение множества состояний и множества переходов данных автоматов-аргументов;

- пересечение – теоретико-множественное пересечение множества состояний и множества переходов, пополненное транзитивным замыканием отношения достижимости на автоматах-аргументах;

- конкатенация или умножение двух автоматов – частный случай операции объединения, когда объединение выполняется только по множеству начальных состояний второго автомата;

- итерация – повторяемая конечное число раз операция умножения, применяемая в рамках одной онтологии с целью уточнения и пополнения этой онтологии (эта операция практически означает пошаговое уточнение и пополнение онтологий);

- обращение – ориентация в противоположном направлении переходов в автомате, представляющем данную онтологию, т. е. построение функции переходов g(v,u) = u, тогда и только тогда, когда f(u,v) = v и неопределенно в остальных случаях.

Пример 2. Пусть дана онтология вида

Рис. 3. Онтология О1

Рис. 4. Автомат А1 для онтологии О1

где A1=({0,1,7,8,9,10,11},{0,1,…,11},g,{0},{11}).

Тогда введенные выше операции дают такие результаты, если их применить к автоматам A1 и A из предыдущего примера.

Объединение:

Рис. 5. Автомат АА1

Пересечение:

Рис. 6. Автомат АA1

Итерация: уточнение онтологии О1:

Рис. 7. Уточнение О2 для онтологии О1

Рис. 8. Автомат А2 для онтологии О2

Конкатенируя автоматы А1 и А2 по начальному состоянию 8 автомата А2, получаем автомат, представляющий уточненную онтологию O1*O2.

Обращение: применяя эту операцию к А1, получаем автомат:

Рис. 9. Автомат обращения для онтологии О1

Краткая характеристика операций

Алгебраические свойства введенных операций на онтологиях вытекают из соответствующих свойств операций алгебры регулярных языков. Это значит, что данные операции удовлетворяют следующим законам: коммутативность и ассоциативность операций объединения и пересечения, ассоциативность умножения, дистрибутивность операции умножения относительно операций объединения и пересечения.

Данное множество операций (в случае надобности) можно расширять по крайней мере в двух направлениях. Одним из таких направлений является расширение операциями на графах (введение и удаление вершины и ребра, соединение графов, изоморфного соединения [6], декартового произведения и т. д.). Другим направлением является алгебра отношений. Поскольку каждая онтология является
представлением некоторой совокупности отношений (в частности: одного), то можно вводить операции реляционной алгебры.

Какое из возможных направлений будет выбрано, зависит от практических потребностей использования онтологий. Прогнозировать что-либо на этот счет не имеет смысла, так как практика оказывается всегда богаче любой теории. Авторы надеются, что представленные операции над онтологиями окажутся полезными при анализе, синтезе и манипулировании онтологиями и онтологическими объектами.

Проблемы реализации операций

Рассмотрим теперь некоторые проблемы, возникающие на пути реализации данных операций.

Первая проблема (и возможно основная при работе с онтологиями) связана с тем, что корректное выполнение описанных выше операций требует создания некоторого общего глоссария предметных областей и понятий, с помощью которого можно было бы однозначно идентифицировать соответствующие объекты. По видимому, эта проблема является не только проблемой на пути реализации введенных операций, но и в некотором смысле общей проблемой на пути построения онтологий и работы с онтологиями.

Вторая проблема, возникающая при реализации операций, связана с имеющейся иерархией областей и понятий. Дело в том, что в различных онтологиях одни и те же понятия и объекты могут находиться на разных уровнях иерархии и это необходимо учитывать при применении операций. В предлагаемом подходе эта проблема решается с помощью построения транзитивного замыкания отношения достижимости на состояниях автоматов, представляющих данные онтологии. Однако, авторы не уверены в том, что этого замыкания достаточно для решения проблемы. Здесь, по-видимому, необходимы
эксперименты на реальных онтологиях и их представлениях.

Третья проблема связана с полнотой знаний, имеющихся в представленных онтологиях. Эта проблема является основной в процессе спецификации и верификации программного и технического обеспечения. Здесь же эта проблема связана с возможностью построения в некотором (хотя бы) смысле полной
онтолого-управляемой информационной системы.

Заключение

Тема данной работы возникла в связи с докладами, которые были представлены на конференциях KDS-2005  и KDS-2007 (Варна, Болгария) [1-4]. Раздел по онтологиям на этих конференциях был одним из самых больших и доклады, представленные в этих разделах, были стимулирующими для разработки представления онтологий и операций на онтологиях с целью автоматизации процесса проектирования и манипулирования этими объектами. Возможно после данной попытки ввести операции на онтологиях появятся и другие подходы к построению алгебры онтологий, что было бы весьма желательным и плодотворным для развития этой области знаний. Наш подход, по видимому, не является самым лучшим, поскольку требует решения перечисленных выше проблем.

Список литературы

[1] Gavrilova T., Puuronen S. In Search of a Vision: Ontological
View on User Modeling Conferences’ Scope. XII-th International Conference KDS
2007, ITHEA, Sofhia, 2007. Volume 2, p.422-427.

[2] Gribova V. Automatic Generation of Context-sensitive Help Using a User Interface Project. XII-th International Conference KDS 2007, ITHEA, Sofhia, 2007. Volume 2, p.417-422.

[3]Кривой С., Матвеева Л., Лукъянова Е., Седлецкая О. Онтологический взгляд на теорию автоматов. XII-th International Conference KDS 2007, ITHEA, Sofhia, 2007. Volume 2, p.427-436.

[4] Artemieva I. XII-th International Conference KDS 2007, ITHEA, Sofhia, 2007. Volume 2, p.403-411.

[5] Кривий С. Л. Дискретна математика. Вибрані питання. Київ.Видавничий дім „Києво-Могилянська академія”. – 2007. – 572 с.

© Е.А.Рабчевский Г.И.Булатова

Пермский государственный университет

614990, Пермь, ул.Букирева,15.

evgeny@ranat.ru

Аннотация

Описывается модель базы знаний поисковой системы, специализирующейся под определенную предметную область. Раскрывается алгоритм автоматизированного построения онтологий с помощью анализа англоязычных текстов, содержащихся в веб ресурсах. Описывается технология RDF/A (одна из спецификаций Semantic Web).

1. Введение

Для удовлетворения своих информационных потребностей, каждый Интернет пользователь периодически посещает сайты профессиональных сообществ, подписывается и просматривает тематические рассылки и RSS подачи, ищет в поисковых системах неизвестные термины. Таким образом, у каждого профессионала выстроена своя, использующая различные Интернет технологии, система интеграции знаний в интересующей его предметной области.

Однако задачи пользователей требуют более систематизированного и настраиваемого механизма интеграции распределенных и разнородных знаний в целостную картину предметной области.

Необходимо заметить, что оригинальная спецификация WWW [1] разрабатывалась именно для решения задачи интеграции научных материалов. Очевидно, что для эффективной интеграции данных некой предметной области из различных Интернет источников, соответствующее приложение должно работать с семантикой веб ресурсов. В этой связи, в таких приложениях актуально использование различных технологий Semantic Web [2].

2. Руководство для читателя

В третьей главе описываются базовые стандарты Semantic Web, которые используются в работе для представления знаний. Четвертая глава посвящена технологиям RDF/A и GRDDL, которые также используются в работе, и недостаточно освещены в литературе. В пятой главе формулируются сервисы, которые должна предоставлять тематическая поисковая система (специализирующаяся под определенную предметную область). Шестая глава раскрывает модель базы знаний, на основе которой строится тематическая поисковая система. В седьмой главе приводятся результаты оригинальных исследований, на основе которых выработан алгоритм, позволяющий автоматизировать процесс построения основного элемента базы знаний тематической поисковой системы – онтологии. Восьмая глава описывает построение указанной онтологии без использования средств автоматизации.

3. Представление знаний в Semantic Web

В Интернет используется множество языков представления данных, основанные на XML. В рамках проекта Semantic Web консорциумом W3 разработан ряд спецификаций для работы с машинным представлением знаний. В частности, для представления данных, имеющих графовую структуру, на основе XML, разработан язык RDF [3] (Resource Definition Framework – Среда Описания Ресурса). RDF предоставляет средства для записи триплетов, троек данных – субъект – предикат – объект.

Объект и субъект соответствуют узлам графа, а предикат или свойство -направленной дуге графа. Все элементы триплета называются RDF ресурсом и идентифицируются с помощью URI идентификаторов.

Платформа RDF активно используется для представления различных данных, в частности RSS 3.0 [4] агрегаторы новостей собирают информацию в формате RDF.

Для машинного представления различных предметных областей в Интернет, используются онтологии. Онтология – спецификация концептуализации[5], или явное, формальное описание предметной области. Как и в объектно-ориентированном описании области знаний, онтология состоит из классов и их экземпляров, У классов и экземпляров выделяются свойства, на свойства могут накладываться логические ограничения.

Поисковой системой SWOOGLE [6] на сегодня проиндексировано свыше 10 тысяч онтологий и словарей, доступных в Веб. Онтологии используются научными сообществами – для описания терминологии [7], в электронной коммерции – для описания товаров и услуг [8], и в других приложениях Интернет. Из-за своей популярности онтологии стали использоваться и в качестве баз знаний локальных интеллектуальных систем [9].

Для описания онтологий, доступных через Веб, созданы языки RDFS [10] (RDF Schema – RDF Схема) и OWL [11] (Ontology Web Language – Язык Сетевых Онтологий). В качестве своих базовых элементов данные языки используют RDF ресурсы. RDFS используется для записи словарей, а OWL – онтологий. Сетевые онтологии предоставляют более выразительные возможности по сравнению с RDF словарями, например логические операции над классами и логические ограничения свойств.

4. Семантическая разметка,  RDF/A, GRDDL

RDF графы и онтологии на их основе могут размещаться в отдельных Веб ресурсах, например файлах или RDF хранилищах, доступ к которым осуществляется через RDF сервера [12]. Также  RDF графы могут встраиваться в другие XML документы, например в XHTML. Встраивание RDF данных в XHTML используется для спецификации семантики (семантической разметки) контента за счет указания ссылки на понятие во внешней семантической модели, которому соответствует часть контента.

Семантическая разметка или аннотирование представляет собой явное описание семантики контента ресурса при помощи понятий семантической модели (онтологии или словаря). Такое явное описание семантики выполняется указанием четкого соответствия между определенной частью контента ресурса и его семантикой, описанной в семантической модели.

Для семантической разметки одной из рабочих групп [13] W3 консорциума был разработана технология RDF/A [14], которая позволяет встраивать RDF данные в XHTML. RDF/A является одним из множества микроформатов [15] или диалектов языков, расширений языка HTML, в котором определяется, каким образом использовать конструкции языка HTML, чтобы интерпретировать записанный таким образом HTML код, как RDF данные.

Существуют микроформаты для записи таких словарей, как vCard, DC, RDF Calendar, RSS, GeoInfo. Все указанные словари записываются в виде RDF графов, RDF/A является микроформатом для записи непосредственно RDF синтаксиса, и может быть использован для записи терминов любых RDF словарей, например тех же vCard, DC, RDF Calendar, RSS, GeoInfo.

Ниже следует пример использования терминов словаря набора данных DC [16] (словарь DC описывает мета свойства электронных документов) в XHTML.

<head profile=»http://www.w3.org/2003/g/data-view»>

<link rel=»schema.DC»href=»http://purl.org/dc»/>

<meta name=»DC.Title» xml:lang=»en» lang=»en» content=»Использование терминов словаря DC в XHTML коде» />

</head>

Данный XHTML соответствует триплету, субъектом которого является URI самого ресурса, предикатом – свойство Title, описанное в словаре DC по адресу http://purl.org/dc, объектом – строка «Использование терминов словаря DC в XHTML коде»Вставка такого RDF триплета в заголовок HTML страницы позволит соответствующим приложениям «понять», что название документа – «Использование терминов словаря DC в XHTML коде». При этом, это название может отличаться от того, которое представлено пользователю с помощью тега <title>.

Таким образом, в XHTML можно вставлять любые RDF графы. Использование профиля profile=http://www.w3.org/2003/g/data-view необходимо для возможности указания значения «transformation» у тега rel, что необходимо для указания ссылки на механизм GRDDL извлечения (см. следующий абзац).

Для извлечения RDF данных из различных микроформатов W3 консорциум разработал технологию GRDDL [17] (Gleaning Resource Descriptions from Dialects of Languages – Извлечение Описания Ресурса из Диалектов Языков). Для работы GRDDL-скреперов (программ, извлекающих RDF данные из XHTML) в XHTML коде необходимо указать ссылку на механизм извлечения:

<link rel=»transformation»http://www.w3.org/2000/06/dc-extract/dc-extract.xsl/> 11

Механизм извлечения основан на технологии преобразования XML документов XSLT [18], в данном случае XHTML преобразуется в RDF.

5. Интеграция знаний в масштабе Интернет

Большинство материалов в Веб представляется в текстовом виде (в данной статье не обсуждается эффективность текстового представления знаний). Под интеграцией знаний масштаба всей сети понимаем процесс, в результате которого, при наличии доступа к Веб пространству, пользователь (или некое приложение) получают целостную картину определенной предметной области, притом, что отдельные знания потенциально содержатся в тексте отдельных ресурсов, распределенных в сети.

Это определение предполагает сервисы, которые должны предоставляться интегрирующим приложением:

§  проверка знаний, содержащихся в различных ресурсах на противоречивость, актуальность;

§  отслеживание появления новых ресурсов по соответствующей тематике;

§  выявление в ресурсах новых знаний, и вписывание их в имеющуюся картину знаний;

§  определение оригинального источника результатов, опубликованных в ресурсе;

§  поиск Веб ресурсов с учетом семантики поискового запроса;

§  объяснение в обучающей экспертной системе для данной предметной области [19].

Такое интегрирующее приложение назовем тематической поисковой системой. Для обеспечения данных сервисов интегрирующее приложение должно иметь базу знаний, представляющую предметную область, для которой предоставляются данные сервисы. В качестве основы для базы знаний интегрирующего приложения предлагаем использовать сетевую онтологию. Ряд работ [20] показал эффективность использования онтологий для решения подобных задач.

Для решения подобных задач разработчики используют лингвистические онтологии [21], которые помимо представления предметной области (формальные онтологии [22]), отражают особенности естественного языка, который используется в терминологии. Например, между понятиями онтологии могут вводиться парадигматические связи (антонимия и др.), а также отношения логического вывода (каузация, пресуппозиция и т.д.).

Данные виды отношений впервые в компьютерных лингвистических ресурсах были введены авторами тезауруса английского языка WordNet [23]. Существует RDF представление тезауруса WordNet [24].

6. База знаний и семантический индекс

Область интеграции ограничивается базой знаний приложения, а механизмы работы приложения с базой знаний являются предметно-независимыми. Основу базы знаний составляет онтология исследуемой предметной области.

Помимо онтологии база знаний приложения содержит семантический индекс Веб пространства, кэшированные Веб ресурсы, относящиеся к предметной области интеграции, которые помимо самого контента содержат его семантическую аннотацию согласно онтологии.

Для семантической разметки кэшированных ресурсов авторы используют технологию RDF/A. Открытость этого стандарта позволит использовать семантически размеченные ресурсы не только во внутренней работе приложения, но и предоставлять веб сервис семантической разметки ресурсов, относящихся к предметной области интеграции, другим информационным системам или авторам ресурсов.

Структурная организация базы знания представлена на следующем рисунке.

image001

Семантически размеченный ресурс хранится в RDF/A части семантического индекса, а его семантика описывается при помощи ссылки на соответствующие части семантической модели. XHTML часть индекса подобна индексу традиционных поисковых систем.

7. Автоматическое построение онтологии

Интеллектуальные системы на основе онтологий показали на практике свою эффективность, однако построение онтологии требует экспертных знаний в исследуемой предметной области и занимает существенный объем времени, поэтому актуальной задачей является автоматизация процесса построения онтологии. Для этого предлагается использовать текстовое содержание массива Веб ресурсов описательного характера определенной тематики.

Базовой является задача разработки алгоритма автоматического построения семантической карты веб ресурса с помощью анализа его текста. Семантической картой ресурса назовем отображение контента Веб ресурса в концептуализацию его содержания, представленную в виде OWL онтологии.

Для решения данной задачи был сформирован корпус англоязычных текстов, относящихся к теме Semantic Web. Ресурсы корпуса представляют собой спецификации технологий Semantic Web с сайта W3 консорциума.

Алгоритм исследовался для определенной предметной области, что объясняется профессиональными интересами автора, а также возможностью последующей оценки полученного метода сравнением результатов с онтологией, полученной с помощью экспертных знаний (параллельно с данными исследованиями автор анализировал выбранный корпус и создавал онтологию данной предметной области без средств автоматизации).

7.1 Автоматическое построение семантической карты ресурса

Семантическая карта ресурса строится на основе особенностей языка, которые позволяют вытягивать семантические конструкции из текста. Исследования проводились следующим образом:

§  формировался набор пар «текст – конструкция языка OWL»;

§  по набору выявленных пар «текст – OWL конструкция» выявлялись правила, позволяющие автоматизировать процесс отображения текста в соответствующую OWL конструкцию;

Семантическая карта строится в два этапа, на первом строится формальная семантическая OWL конструкция, на втором происходит привязка полученной конструкции к конкретной предметной области.

Сформулируем правила, использующие синтаксис языка. Правила синтаксического уровня, выявляют семантику на основе принципов построения словосочетаний и предложений. Правила формулируются, как конструкции из различных частей речи, частей предложения, предлогов и союзов, а также конкретных слов. Дополнительно вводится понятие предмета – сущности, о которой говорится в предложении, предмет может состоять из нескольких слов. Понятие предмета также используется для формулировки правил.

Рассмотрим несколько правил:

§ «Сложный предмет» или «noun1 + noun2» (два подряд идущих существительных), например словосочетание «ontology editor».

Проанализируем данный пример. Можно предположить существует целый класс абстрактных редакторов – Editor. Этот класс характеризуется тем, что все его экземпляры обладают неким характерным для этого класса свойством. В данном случае, это то, что они все что-либо редактируют. Назовем это характерное свойство mainPropertyOfEditor. Доменом этого свойства является класс Editor.

Определим диапазон этого свойства, как класс RangeOfMainPropertyOfEditor.

Выделим класс OntologyEditor, который будет подклассом класса Editor. При этом значение свойства mainPropertyOfEditor для подкласса OntologyEditor имеет строго определенное значение – экземпляр класса RangeOfMainPropertyOfEditor, индивид Ontology. Данные утверждения можно представить следующим OWL кодом:

<owl:Class rdf:ID=»Editor»>

<rdfs:comment rdf:datatype=»http://www.w3.org/2001/XMLSchema#string»>класс абстрактных редакторов</rdfs:comment>

</owl:Class>

<owl:Class rdf:ID=»RangeOfMainPropertyOfEditor»>

<rdfs:comment rdf:datatype=»http://www.w3.org/2001/XMLSchema#string>диапазон характерного свойства реадактора (редактируемый объект)</rdfs:comment>

</owl:Class>

<owl:Class rdf:ID=»OntologyEditor»>

<rdfs:subClassOf>

<owl:Restriction>

<owl:onProperty>

<owl:ObjectProperty rdf:ID=»MainPropertyOfEditor»/>

</owl:onProperty>

<owl:hasValue>

<RangeOfMainPropertyOfEditor rdf:ID=»Ontology»/>

</owl:hasValue>

</owl:Restriction>

</rdfs:subClassOf>

<rdfs:comment rdf:datatype=»http://www.w3.org/2001/XMLSchema#string»>класс редакторов онтологий</rdfs:comment>

<rdfs:subClassOf rdf:resource=»#Editor»/>

</owl:Class>

<owl:ObjectProperty rdf:about=»#MainPropertyOfEditor»>

<rdfs:domain rdf:resource=»#Editor»/>

<rdfs:range rdf:resource=»#RangeOfMainPropertyOfEditor»/>

<rdfs:comment rdf:datatype=»http://www.w3.org/2001/XMLSchema#string»>характерное свойство редактора (редактирует)</rdfs:comment>

</owl:ObjectProperty>

§ «Предмет с определением» или «adjective + subject», например словосочетание «abstract syntax». Для записи соответствующего OWL кода необходимо провести рассуждения, аналогичные приведенным в предыдущем примере:

<owl:Class rdf:ID=»Syntax»/>

<owl:Class rdf:ID=»AbstractSyntax»>

<rdfs:subClassOf rdf:resource=»#Syntax»/>

<rdfs:subClassOf>

<owl:Restriction>

<owl:hasValue>

<RangeOfMainPropertyOfAbstract rdf:ID=»Abstract»>

<rdfs:comment rdf:datatype=»http://www.w3.org/2001/XMLSchema#string»>абстрактный – экземпляр класса уровень детализации</rdfs:comment>

</RangeOfMainPropertyOfAbstract>

</owl:hasValue>

<owl:onProperty>

<owl:ObjectProperty rdf:ID=»mainPropertyOfAbstract»/>

</owl:onProperty>

</owl:Restriction>

</rdfs:subClassOf>

</owl:Class>

<owl:Class rdf:ID=»RangeOfMainPropertyOfAbstract»>

<rdfs:comment rdf:datatype=»http://www.w3.org/2001/XMLSchema#string»>диапазон характерного свойства прилагательного абстрактный (уровень детализации)</rdfs:comment>

</owl:Class>

<owl:ObjectProperty rdf:about=»#mainPropertyOfAbstract»>

<rdfs:comment rdf:datatype=»http://www.w3.org/2001/XMLSchema#string»>главное свойство определения абстрактный (уровень детализации)</rdfs:comment>

<rdfs:range rdf:resource=»#RangeOfMainPropertyOfAbstract»/>

</owl:ObjectProperty>

§ Простое предложение, subject1 + verb + preposition + subject2 (подлежащее, сказуемое, предлог, дополнение), например «Ontology’s incorporate information about

<owl:Class rdf:ID=»Ontology»/>

<owl:Class rdf:ID=»Class»/>

<owl:ObjectProperty rdf:ID=»incorporateInformationAbout»>

<rdfs:range rdf:resource=»#Class»/>

<rdfs:domain rdf:resource=»#Ontology»/>

</owl:ObjectProperty>

§ subject1 + are + subject2 + that + verb + preposition + subject3 (подлежащее, are/is, дополнение, that, сказуемое, предлог,дополнение), например предложение «Decision Engineering is an emerging

discipline that focuses on developing tools». Что можно представить следующим OWL кодом:

<owl:Class rdf:ID=»EmergingDiscipline»/>

<owl:Class rdf:ID=»DecisionEngineering»>

<rdfs:subClassOf>

<owl:Restriction>

<owl:onProperty>

<owl:ObjectProperty rdf:ID=»focusesOn»/>

</owl:onProperty>

<owl:hasValue>

<RangeOfFocusesOnProperty rdf:ID=»DevelopingTools»/>

</owl:hasValue>

</owl:Restriction>

</rdfs:subClassOf>

<rdfs:subClassOf rdf:resource=»#EmergingDiscipline»/>

</owl:Class>

<owl:Class rdf:ID=»RangeOfFocusesOnProperty»/>

<owl:ObjectProperty rdf:about=»#focusesOn»>

<rdfs:domain rdf:resource=»#EmergingDiscipline»/>

<rdfs:range rdf:resource=»#RangeOfFocusesOnProperty»/>

</owl:ObjectProperty>

Отдельно выделяются правила, которые сами не строят семантическую конструкцию, но определяют, каким образом (к каким словам) применять правила, непосредственно выявляющие семантические конструкции. Например, правило «Если сложный предмет состоит из трех и более простых, то нужно применять правило «noun1 + noun2» начиная с конца».

Рассмотрим более подробно правило «adjective + subject», в котором введены свойство mainPropertyOfAbstract и класс RangeOfMainPropertyOfAbstract. Данные конструкции введены чисто формально,используя некие законы языка, однако данное свойство и класс имеют определенную семантику. Так определение Abstract характеризует некую особенность предмета Syntax. В данном случае эту особенность можно назвать, например как «степень детализации».

Если же подходить к анализу данного словосочетания с учетом семантики, указанные свойство и класс назывались бы «имеетСтепеньДетализации» и «СтепеньДетализации» соответственно.

Задача преобразования формальных семантических конструкций в конструкции, привязанные к семантике конкретной предметной области, на данный момент автором не решена. Автор считает, что для решения данной задачи требуется источник знаний со структурой подобной таблице,

приведенной ниже:

Слово Характерное свойство
Abstract Степень детализации
Editor Редактирует

Предполагается представить данный источник знаний в виде RDF представления WordNet подобного ресурса [24] компьютерной лингвистики.

Для решения подобной задачи предполагается получить правила, которые позволили бы выявить данную информацию, на основе статистики совместного использования слов содержащих название понятия и его семантику.

Для того чтобы привязать полученную семантическую модель к интересуемой предметной области, используется словарь соответствующей тематики. В итоговой онтологии фиксируются только те семантические конструкции, в которых участвуют термины из словаря предметной области. Словарь может создаваться экспертом или автоматически на основе статистических методов классификации.

7.2 Анализ массива ресурсов

При программном построении онтологии по контенту массива Веб ресурсов используется словарь предметной области. Это позволяет отфильтровать из общего набора полученных семантических конструкций лишь те, которые играют существенную роль в онтологической картине предметной области.

Для фильтрации не устоявшихся терминов или отношений, употребленных в неверном контексте, используются статистические методы, то есть при принятии решения о включении того или иного термина или отношения в онтологию, система должна анализировать степень употребления новой концепции в:

§ Веб пространстве в целом;

§ на узлах заданной степени доверия;

§ вместе с терминами заданной степени важности.

Степень доверия узла определяется количеством ссылок в базе знаний на данный узел. Степень важности термина определяется количеством отношений, в которых участвует термин в базе знаний. Предварительный статистический анализ позволит управлять границами исследуемой предметной области.

Семантическая карта ресурса представляет собой онтологию, представленную в виде RDF графа. Однако после построения граф еще ни как не связан с предметной областью и нет гарантий, что информация ресурса, а значит и его семантическая карта с понятиями и отношениями, соответствуют реальной картине исследуемой предметной области.

Поэтому, автоматически полученная онтология требует экспертной оценки (модерация). Интерфейс модерации должен предоставлять эксперту графическое средство, обеспечивающее быстрый переход к содержанию Веб ресурсов от их семантической модели и наоборот. Также необходим механизм трансляции семантической модели модерируемого ресурса в онтологию базы знаний и редактирования онтологии.

8. Онтология Semantic Web

Для оценки работы программного компонента автоматического построения онтологии авторы создают онтологию предметной области «Semantic Web» без средств автоматизации. Онтология создается на основе того же корпуса англоязычных  тестов, из которого выявляются правила построения семантической карты ресурса. Тексты корпуса исследовались следующим образом:

§ выявлялись понятия предметной области, и обозначающие их термины на русском и английском языках;

§ каждое понятие дополнялось экспертным определением;

§ выявлялись триплеты, содержащие найденные понятия;

§ для каждого понятия и триплета фиксировался ресурс-источник.

На данный момент, выявлено 70 понятий и 260 их содержащих триплетов. В дальнейшем, после реализации компонента построения семантической карты ресурса, планируется оценить его работу, обработав исследуемый корпус с помощью компонента и сравнив результаты с полученным в ручном режиме массивом триплетов. Создан RDF словарь для хранения полученных результатов.

Авторы благодарят профессора, заведующего кафедры КСиТ Пермского Государственного Университета, М.А. Марценюка за обсуждение работы.

Литература

[1] Tim Berners-Lee, World Wide Web: Proposal for HyperText Project. 1990. // http://www.w3.org/Proposal.html

[2] Сообщество Semantic Web // http://www.w3.org/2001/sw

[3] Платформа RDF http://www.w3.org/RDF/

[4] Aaron Swartz, Спецификация RSS 3.0 // http://www.aaronsw.com/weblog/000574

[5] Gruber, T.R. (1993) A translation approach to portable ontology specifications. Knowledge Acquisition. Vol. 5.

[6] Swoogle – Semantic Web Search Engine. // http://swoogle.umbc.edu/

[7] Е.М.Бениаминов  «Алгебраические методы в теории баз данных и представлении знаний». М.:Научный мир, 2003.

[8] Реестр товаров и услуг ООН. // http://www.unspsc.org/.

[9] Рабчевский Е.А., Архипов Е.С., Проектирование экспертных систем технической поддержки на основе онтологий // Интеллектуальные системы и компьютерные науки. Материалы IX международной
конференции (23-27 октября 2006г., г. Москва). – Москва: МГУ 2006.

[10] RDF Schema 1.0, Язык описания RDF словарей. Рекомендация W3C 10 Февраля 2004. // http://www.w3.org/TR/rdf-schema/

[11] Язык OWL. // http://www.w3.org/2004/OWL/

[12] Joseki – A SPARQL Server for Jena. //http://www.joseki.org/

[13] Рабочая группа лучшей практики и развертывания Семантического Веба. // http://www.w3.org/2001/sw/BestPractices/

[14] Встраивание RDF в XHTML RDFa. Рабочий документ W3C 12 марта 2007. // http://www.w3.org/TR/xhtml-rdfa-primer

[15] Сообщество пользователей микроформатов. // http://microformats.org

[16] Метаданные Dublin Core для нахождения ресурсов, RFC2413

[17] Рабочая группа GRDDL http://www.w3.org/2001/sw/grddl-wg/

[18] Семейство Расширяемых Языков Таблиц Стилей (XSL). // http://www.w3.org/Style/XSL/

[19] Гадиатулин Р., Оболочка экспертных систем XG# 1.0: Подход  к автоматизированному извлечению онтологий и их применению в компоненте объяснения // Интеллектуальные системы и компьютерные науки. Материалы IX международной конференции (23-27 октября 2006г., г. Москва). – Москва: МГУ 2006.

[20] А.Н. Бездушный, Э.А. Гаврилова, В.А. Серебряков,А.В. Шкотин МЕСТО ОНТОЛОГИЙ В ЕДИНОЙ ИНТЕГРИРОВАННОЙ СИСТЕМЕ РАН // СОВРЕМЕННЫЕ ТЕХНОЛОГИИ В ИНФОРМАЦИОННОМ ОБЕСПЕЧЕНИИ НАУКИ. Сборник научных трудов (Москва 2003)

[21] Добров Б.В., Лукашевич Н.В., Синицын М.Н., Шапкин В.Н., Разработка лингвистической онтологии для автоматического индексирования текстов по естественным наукам //Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды седьмой Всероссийской научной конференции (3-7 октября 2005г.,г.Ярославль). – Ярославль: ЯрГУ, 2005.

[22] Guarino N., Some Ontological Principles for Designing Upper Level Lexical Resources. // Proceedings of First International Conference on Language Resources and Evaluation, 1998.

[23]  C. Fellbaum. WordNet: An Electronic Lexical Database. MIT Press, 1998.

[24] RDF/OWL представление WordNet, Рабочий документ W3C 19 Июня 2006 http://www.w3.org/TR/wordnet-rdf/


Automatic ontologies construction for custom search engines

Evgeny Rabchevsky, Gulnara Bulatova

This paper describe knowledge base model for search engine that are customized for some

domain. It defines algorithm for automatic ontology construction by English-speaking web resources text analysis. There are quoted RDF/A technology (some of Semantic Web specification).

Автоматическое построение онтологий

Рабчевский Евгений

Пермский Государственный Университет

Введение

Для удовлетворения своих информационных потребностей, каждый Интернет пользователь периодически посещает сайты профессиональных сообществ, подписывается и просматривает тематические рассылки и RSS подачи, ищет в поисковых системах неизвестные термины. Таким образом, у каждого профессионала выстроена своя, использующая различные Интернет технологии, система интеграции знаний в интересующей его предметной области.

Однако задачи пользователей требуют более систематизированного и настраиваемого механизма интеграции распределенных и разнородных знаний в целостную картину предметной области.

Необходимо заметить, что оригинальная спецификация WWW [1] разрабатывалась именно для решения задачи интеграции научных материалов.

Очевидно, что для эффективной интеграции данных некой предметной области из различных Интернет источников, соответствующее приложение должно работать с семантикой веб ресурсов. В этой связи, в таких приложениях актуально использование различных технологий Semantic Web [2].

Стандарты Semantic Web

В Интернет используется множество языков представления данных, основанных на XML. В рамках проекта Semantic Web, для представления данных, имеющих графовую структуру, консорциум W3 разработал язык RDF (Resource Definition Framework – Среда Описания Ресурса). RDF предоставляет средства для записи триплетов, троек данных – субъект – предикат – объект. Объект и субъект соответствуют узлам графа, а предикат или свойство – направленной дуге графа. Дуга направлена от субъекта к объекту. Каждый из элементов триплета называют RDF ресурсом и идентифицируют с помощью URI идентификаторов.

Платформа RDF активно используется для представления различных данных, в частности RSS 3.0 агрегаторы новостей собирают информацию в формате RDF.

Для машинного представления различных предметных областей в Интернет, используются онтологии и словари. Онтология – спецификация концептуализации [3], или явное, формальное описание предметной области. Как и в объектно-ориентированном описании, онтология состоит из классов и их экземпляров. У классов и экземпляров выделяются свойства, на свойства могут накладываться логические ограничения.

Поисковой системой SWOOGLE [4] на сегодня проиндексировано свыше 10 тысяч онтологий и словарей, доступных в Веб. Онтологии используются научными сообществами – для описания терминологии [5], в электронной коммерции – для описания товаров и услуг [6], и в других приложениях Интернет. Из-за своей популярности онтологии стали использоваться и в качестве баз знаний локальных интеллектуальных систем.

Для описания онтологий, доступных через Веб, созданы языки RDFS [7] (RDF Schema – RDF Схема) и OWL [8] (Ontology Web Language – Язык Сетевых Онтологий). В качестве своих базовых элементов данные языки используют RDF ресурсы. RDFS используется для записи словарей, а OWL – онтологий. Сетевые онтологии предоставляют более выразительные возможности по сравнению с RDF словарями, например логические операции над классами и логические ограничения свойств.

Постановка задачи

Интеллектуальные системы на основе онтологий показали на практике свою эффективность, однако построение онтологии требует экспертных знаний в исследуемой предметной области и занимает существенный объем времени, поэтому актуальной задачей является автоматизация процесса построения онтологии. Для этого предлагается использовать текстовое содержание массива  Веб ресурсов описательного характера определенной тематики.

Базовой является задача разработки алгоритма автоматического построения семантической карты веб ресурса с помощью анализа его текста. Семантической картой ресурса назовем отображение контента Веб ресурса в концептуализацию его содержания, представленную в виде OWL онтологии.

Для решения данной задачи был сформирован корпус англоязычных текстов, относящихся к теме Semantic Web.
Ресурсы корпуса представляют собой спецификации технологий Semantic Web с сайта
W3 консорциума.

Алгоритм исследовался для определенной предметной области, что объясняется профессиональными интересами автора, а также возможностью последующей оценки полученного метода сравнением результатов с онтологией, полученной с помощью экспертных знаний (параллельно с данными исследованиями автор анализировал выбранный корпус и создавал онтологию данной предметной области без средств автоматизации).

Построение семантической карты ресурса

Семантическая карта ресурса строится на основе особенностей языка, которые позволяют вытягивать семантические конструкции из текста. Исследования проводились следующим образом:

1. формировался набор пар «текст – конструкция языка OWL»;

2. по набору выявленных пар «текст – OWL конструкция» выявлялись правила, позволяющие автоматизировать процесс отображения текста в соответствующую OWL конструкцию;

Семантическая карта строится в два этапа, на первом строится формальная семантическая OWL конструкция, на втором происходит привязка полученной конструкции к конкретной предметной области.

Сформулируем правила, использующие синтаксис языка. Правила синтаксического уровня, выявляют семантику на основе принципов построения словосочетаний и предложений. Правила формулируются, как конструкции из различных частей речи, частей предложения, предлогов и союзов, а также конкретных слов. Дополнительно вводится понятие предмета – сущности, о которой говорится в предложении, предмет может состоять из нескольких слов. Понятие предмета также используется для формулировки правил.

Рассмотрим несколько правил:

1. «Сложный предмет» или «noun1 + noun2» (два подряд идущих существительных),
например словосочетание «ontology editor».

Проанализируем данный пример. Можно предположить существует целый класс абстрактных редакторов – Editor. Этот класс характеризуется тем, что все его экземпляры обладают неким характерным для этого класса свойством. В данном случае, это то, что они все что-либо редактируют. Назовем это характерное свойство mainPropertyOfEditor. Доменом этого свойства является класс Editor. Определим диапазон этого свойства, как класс RangeOfMainPropertyOfEditor. Выделим класс OntologyEditor, который будет подклассом класса Editor. При этом значение свойства mainPropertyOfEditor для подкласса OntologyEditor имеет строго определенное значение – экземпляр класса RangeOfMainPropertyOfEditor, индивид Ontology. Данные утверждения можно представить следующим OWL кодом:

<owl:Class rdf:ID=»Editor»> <rdfs:comment rdf:datatype=»http://www.w3.org/2001/XMLSchema#string»>класс абстрактных редакторов</rdfs:comment>

</owl:Class>

<owl:Class rdf:ID=»RangeOfMainPropertyOfEditor»><rdfs:comment rdf:datatype=»http://www.w3.org/2001/XMLSchema#string»>диапазон характерного свойства реадактора (редактируемый объект)</rdfs:comment>

</owl:Class>

<owl:Class rdf:ID=»OntologyEditor»>

<rdfs:subClassOf>

<owl:Restriction>

<owl:onProperty>

<owl:ObjectProperty rdf:ID=»MainPropertyOfEditor»/>

</owl:onProperty>

<owl:hasValue>

<RangeOfMainPropertyOfEditor rdf:ID=»Ontology»/>

</owl:hasValue>

</owl:Restriction>

</rdfs:subClassOf>

<rdfs:comment rdf:datatype=»http://www.w3.org/2001/XMLSchema#string»

>класс редакторов онтологий</rdfs:comment>

<rdfs:subClassOf rdf:resource=»#Editor»/>

</owl:Class>

<owl:ObjectProperty rdf:about=»#MainPropertyOfEditor»>

<rdfs:domain rdf:resource=»#Editor»/>

<rdfs:range rdf:resource=»#RangeOfMainPropertyOfEditor»/>

<rdfs:comment rdf:datatype=»http://www.w3.org/2001/XMLSchema#string»

>характерное свойство редактора (редактирует)</rdfs:comment>

</owl:ObjectProperty>

2. «Предмет с определением» или «adjective + subject», например словосочетание «abstract syntax». Для записи соответствующего OWL кода необходимо провести рассуждения, аналогичные приведенным в предыдущем примере.

3. Простое предложение, subject1 + verb + preposition + subject2 (подлежащее, сказуемое, предлог, дополнение), например «Ontology’s incorporate information about

4. subject1 + are + subject2 + that + verb + preposition + subject3 (подлежащее, are/is, дополнение, that, сказуемое, предлог, дополнение), например предложение «Decision Engineering is an emerging discipline that focuses on developing tools».

Отдельно выделяются правила, которые сами не строят семантическую конструкцию, но определяют, каким образом (к каким словам) применять правила, непосредственно выявляющие семантические конструкции. Например, правило «Если сложный предмет состоит из трех и более простых, то нужно применять правило «noun1 + noun2» начиная с конца».

Рассмотрим правило из примера 2, в котором по аналогии с примером 1 были бы введены свойство mainPropertyOfAbstract и класс RangeOfMainPropertyOfAbstract. Данные конструкции введены чисто формально, используя некие законы языка, однако данное свойство и класс имеют определенную семантику. Так определение Abstract характеризует некую особенность предмета Syntax. В данном случае эту особенность можно назвать, например как «степень детализации».

Если же подходить к анализу данного словосочетания с учетом семантики, указанные свойство и класс назывались бы «имеетСтепеньДетализации» и «СтепеньДетализации» соответственно.

Задача преобразования формальных семантических конструкций в конструкции, привязанные к семантике конкретной предметной области, на данный момент автором не решена. Автор считает, что для решения данной задачи требуется источник знаний со структурой подобной таблице, приведенной ниже:

Слово Характерное свойство
Abstract Степень детализации
Editor Редактирует

Предполагается представить данный источник знаний в виде RDF представления WordNet подобного ресурса [9] компьютерной лингвистики.

Для решения подобной задачи предполагается получить правила, которые позволили бы выявить данную информацию, на основе статистики совместного использования слов содержащих название понятия и его семантику.

Для того чтобы привязать полученную семантическую модель к интересуемой предметной области, используется словарь соответствующей тематики. В итоговой онтологии фиксируются только те семантические конструкции, в которых участвуют термины из словаря предметной области. Словарь может создаваться экспертом или автоматически на основе статистических методов классификации.

Онтология «Semantic Web»

Для оценки метода автоматического построения онтологии авторы создают онтологию предметной области «Semantic Web» без средств автоматизации. Онтология создается на основе того же корпуса англоязычных  тестов, из которого выявляются правила построения семантической карты ресурса. Тексты корпуса исследовались следующим образом:

- выявлялись понятия предметной области, и обозначающие их термины на русском и английском языках;

- каждое понятие дополнялось экспертным определением;

- выявлялись триплеты, содержащие найденные понятия;

- для каждого понятия и триплета фиксировался ресурс-источник.

Для оценки программной реализации метода автоматического построения онтологии предполагается обработать исследуемый корпус полученным программным средством и сравнить результаты с онтологией, полученной ручным способом. Создан RDF словарь для хранения результатов ручной разработки онтологии. Словарь представляет собой модель для хранения понятий с их определениями, триплетов и оригинальных источников понятий и триплетов.

Семантическая разметка,  RDF/A, GRDDL

RDF графы и онтологии на их основе могут размещаться в отдельных Веб ресурсах, например файлах или RDF хранилищах, доступ к которым осуществляется через RDF сервера. Также  RDF графы могут встраиваться в другие XML документы, например в XHTML. Встраивание RDF данных в XHTML используется для спецификации семантики (семантической разметки) контента.

Семантическая разметка или аннотирование представляет собой явное описание семантики контента ресурса при помощи понятий семантической модели (онтологии или словаря). Такое явное описание семантики выполняется указанием четкого соответствия между определенной частью контента ресурса и его семантикой, описанной в семантической модели.

Рабочая группа развертывания Семантического Веба W3 консорциума разработала технологию RDF/A [10], которая позволяет встраивать RDF данные в XHTML. RDF/A является одним из множества микроформатов [11] или диалектов языков, расширений языка HTML, в котором определяется, каким образом использовать конструкции языка HTML, чтобы интерпретировать записанный таким образом HTML код, как RDF данные.

Существуют микроформаты для записи таких словарей, как vCard, DC, RDF Calendar, RSS, GeoInfo. Все указанные словари записываются в виде RDF графов, RDF/A является микроформатом для записи непосредственно RDF синтаксиса, и может быть использован для записи терминов любых RDF словарей, например тех же vCard, DC, RDF Calendar, RSS, GeoInfo.

Ниже следует пример использования терминов словаря набора данных DC (словарь DC описывает мета свойства электронных документов) в XHTML.

<head profile=»http://www.w3.org/2003/g/data-view»>

<link rel=»schema.DC» href=»http://purl.org/dc»/>

<meta name=»DC.Title» xml:lang=»en» lang=»en» content=»Использование терминов словаря DC в XHTML коде» />

</head>

Данный XHTML соответствует триплету субъектом которого является URI самого ресурса, предикатом – свойство Title, описанное в словаре DC по адресу http://purl.org/dc, объектом – строка «Использование терминов словаря DC в XHTML коде». Вставка такого RDF триплета в заголовок HTML страницы позволит соответствующим приложениям понять, что название документа – «Использование терминов словаря DC в XHTML коде». При этом это название может отличаться от того, которое представлено пользователю с помощью тега <title>. Таким образом, в XHTML можно вставлять любые RDF графы. Использование профиля profile= необходимо для возможности указания значения «transformation» у тега rel, что необходимо для указания ссылки на механизм GRDDL извлечения (см. следующий абзац).

Для извлечения RDF данных из различных микроформатов W3 консорциум разработал технологию GRDDL [12] (Gleaning Resource Descriptions from Dialects of Languages – Извлечение Описания Ресурса из Диалектов Языков). Для работы GRDDL-скреперов (программ, извлекающих RDF данные из XHTML) в XHTML коде необходимо указать ссылку на механизм извлечения:

<link rel=»transformation» href=/>

Механизм извлечения основан на технологии преобразования XML документов XSLT[18], в данном случае XHTML преобразуется в RDF.

Литература

1. Tim Berners-Lee, World Wide Web: Proposal for HyperText Project. 1990. //http://www.w3.org/Proposal.html

2. Сообщество Semantic Web // http://www.w3.org/2001/sw

3.Gruber, T.R. (1993) A translation approach to portable ontology specifications. Knowledge Acquisition. Vol. 5.

4. Swoogle – Semantic Web Search Engine. // http://swoogle.umbc.edu/

5.Е.М. Бениаминов  «Алгебраические методы в теории баз данных и представлении знаний». М.: Научный мир, 2003.

6.Реестр товаров и услуг ООН. // http://www.unspsc.org/.

7.RDF Schema 1.0, Язык описания RDF словарей. Рекомендация W3C 10 Февраля 2004. // http://www.w3.org/TR/rdf-schema/

8. Язык OWL. // http://www.w3.org/2004/OWL/

9. RDF/OWL представление WordNet, Рабочий документ W3C 19 Июня 2006 http://www.w3.org/TR/wordnet-rdf/

10. Встраивание RDF в XHTML RDFa. Рабочий документ W3C 12 марта 2007. //http://www.w3.org/TR/xhtml-rdfa-primer

11. Сообщество пользователей микроформатов. http://microformats.org/

12. Рабочая группа GRDDL http://www.w3.org/2001/sw/grddl-wg/

Инициатива “Локализация редактора онтологий Protege [ua, ru]”

В рамках этой инициативы планируется перевести интерфейс редактора онтологий Protege на украинский и русский языки.

Первым шагом стал перевод базового интерфейса Protege и подготовка неофициального файла локализации на русском языке.

Подробнее

Ув. читатели SHCHERBAK.NET, вашему вниманию предлагаются материалы статьи «Semantic Web как новая модель информационного пространства Интернет» авторов  Ф.И. Андон, И.Ю. Гришановой и В.А. Резниченко.

В этой статье описаны базовые концепции и архитектура Semantic Web, а также положение дел по разработке данного проекта по состоянию на конец 2007 года. Выделены проблемы, которые стоят перед мировым сообществом для дальнейшего развития Semantic Web.

Полную версию статьи читаем здесь !

Щербак Сергей: Статья мне очень понравилась и я ее особенно рекомендую тем, кто хочет максимально быстро погрузится в  мир семантического веба (обязательна для прочтения).

От имени читателей SHCHERBAK.NET хочу выразить благодарность  Ирине Гришановой за предоставление материалов интересной статьи!

Зарождение сообщества веба данных…

Вчера, запущен сайт русскоязычного сообщества веба данных. В связи с чем, поздравляю всех заинтересованных в развитии технологий Семантического Веба с появлением еще одного информационного центра, где можно будет ознакомиться с современными тенденциями веба данных.

Как создать приложение Semantic Web?

Ответ на это прост, если не учитывать проблемы, которые я освещал в одном из предыдущим постов.

Cначала давайте определимся, что будем понимать под приложением Semantic Web.

Итак, если приложение построено с использованием таких средств Semantic Web, как XML,  RDF, OWL, SPARQL, то такое приложение будем называть приложением Semantic Web первого типа.

В случае, если приложение реализует идеи Semantic Web, как концепции,  тогда такое приложение назовем приложением Semantic Web второго типа.
Read the rest of this entry »

Работа посвящена вопросам анализа нечетких онтологий и их применению.

Shcherbak says: Это интересно и познавательно! Читаем ))

Н.Г. Кеберле
Запорізький державний університет

З єдиних позицій проаналізовано сучасний стан систем інтеграції неоднорідних баз даних і знань

Ключові слова: неоднорідні бази знань, бази знань, семантична інтероперабельність,
онтологія предметних областей, онтологій задач, онтологія методів розв’язування
класів задач, формальна онтологія.

1. ВСТУП

Задача спільного використання неоднорідних баз даних, відома сьогодні також як окремий
випадок задачі досягнення інтероперабельності інформаційних ресурсів, виникла на
початку 80-х р.р. XX сторіччя.

На той час у розвинутих інформаційних системах (ІС) уже була потреба спільного використання
декількох (можливо, розподілених) баз даних, керованих різними СКБД, що супроводжувалося
значними зусиллями з боку розроблювачів цих інформаційних систем. Прикладами рішення
задачі про спільне використання мережних, ієрархічних і реляційних баз даних, що
відносяться до початку 80-х р.р., можуть бути проекти СИЗИФ [24, 25, 26], POLYPHEME[2],
проект Каліфорнійського університету [6] та інші.

На сьогоднішній день ця задача набула ще більш важливого значення, у зв’язку зі
зростанням кількості різноманітних за змістом, структурою, обсягом інформаційних
ресурсів (баз даних, баз знань, програмних компонентів і т.д.), створених на різних
програмно-апаратних платформах. Інформація, представлена цими ресурсами, багаторазово
дублюється, її спільне використання утруднене в силу різних специфікацій інформаційних
ресурсів, прийнятих різними розроблювачами. Така ситуація послужила причиною розвитку
досліджень в області спільного і повторного використання компонентів інформаційних
ресурсів. Важливість даної проблематики була підкреслена в [27] і виділена як один
із трьох базових напрямків у дослідженнях на поточне десятиріччя.

Наведемо основні використовувані надалі визначення.

Інтероперабельність означає можливість створення систем з довільних неоднорідних,
розподілених компонентів, на основі уніфікованих інтерфейсів [23].

Інтероперабельна інформаційна система складається з компонентів, що представляють
довільні інформаційні ресурси (програмні компоненти, бази даних, бази знань, файли
даних і т.д.), які розглядаються незалежно від апаратно-програмної платформи і розміщення
в просторі. Компоненти взаємодіють, обмінюючись заявками.

Задачу досягнення інтероперабельності різнорідних інформаційних ресурсів можна розбити
на дві підзадачі:

1.     Досягнення технічної інтероперабельності, тобто забезпечення
спільної роботи різнорідних апаратно-програмних платформ. У даному огляді питання
технічної інтероперабельності розглядатися не будуть, оскільки саме цю проблему
вирішував консорціум Object Management Group, OMG (потрібну інформацію можна почерпнути
в [17,18,19]).

2.     Досягнення семантичної інтероперабельності, тобто забезпечення
спільного використання різнорідних інформаційних ресурсів на семантичному рівні.

Розглянемо системи інтеграції неоднорідних баз даних і баз знань з погляду семантичної
інтероперабельності і використані в цих системах підходи.

2. СЕМАНТИЧНА ІНТЕРОПЕРАБЕЛЬНІСТЬ

У випадку створення ІС на неоднорідних інформаційних ресурсах, для досягнення семантичної
інтероперабельності необхідно вирішувати проблеми порівняння вмісту цих ресурсів,
відшукання відповідностей і вирозв’язування конфліктів між ними, а також проблему
сполучення різнорідних ресурсів. Отже, задача побудови семантично інтероперабельної
ІС складається з трьох частин:

1.      Вироблення специфікацій, достатньо уніфікованих
і повних з погляду конкретної задачі, для всіх інформаційних ресурсів.

2.      Вироблення засобів порівняння можливостей доступних
інформаційних ресурсів з потребами прикладних задач, розв’язуваних даною ІС.

3.      Створення несуперечливої й адекватної моделі предметної
області задачі шляхом композиції моделей предметних областей, які представлені конкретними
інформаційними ресурсами.

При цьому повна специфікація інформаційного ресурсу буде охоплювати:

·       специфікацію його структури і функцій (статичні
характеристики);

·       специфікацію обмежень цілісності;

·       специфікацію поведінки інформаційного ресурсу
(динамічні характеристики);

·       специфікацію контексту, тобто області, у якій
передбачається використання ресурсу.

Сучасні системи інтеграції неоднорідних інформаційних ресурсів використовують концепцію
медіатора (див. наприклад в [20]), тобто посередника між розподіленими інформаційними
ресурсами у межах інтероперабельної системи та користувачами цих ресурсів.

Структура і поведінка конкретного інформаційного ресурсу завжди визначена семантикою
предметної області, що її відображає цей ресурс. Специфікація цієї змістовної оболонки
даних може бути виконана у вигляді інформаційної схеми (як, наприклад, у структурованих
моделях даних типу реляційної). Однак на більш загальному рівні, будь-яку специфікацію
семантики даних можна записати деякою формалізованою мовою, наприклад, численням
предикатів першого порядку, або багатосортною логікою.

Як інструмент створення таких узагальнених специфікацій була запропонована ідея
використання онтологічних специфікацій.

У [23] наведено визначення онтологічної специфікації інформаційного компонента
як набору визначень і понять, а також правил (аксіом), пов’язаних з визначеннями
і поняттями з предметної області (прикладного контексту).

Термін “онтологія” сьогодні використовують у двох контекстах:

·         у філософському: онтологія
– система категорій, використовувана для розгляду з урахуванням конкретного бачення
світу [11];

·         у контексті інформаційних систем:
онтологія – формалізований опис загальноприйнятого розуміння деякої предметної
області, за допомогою якого можуть спілкуватися люди, комп’ютерні системи [22].
Програмні компоненти, для взаємодії між собою в рамках інтегрованої системи неоднорідних
ресурсів, використовують онтології. Передбачають, що онтологія не залежить
від мови представлення предметної області.

Онтологія, на відміну від бази знань, не містить ані знань про методи розв’язування
задач, що стосуються предметної області, ані знань, що дають змогу видавати відповіді
на прямі запити про предметну область [9].

На відміну від метаданих, таких як тип, розмір атрибута, онтології повинні мати
набагато багатші засоби вираження семантики даних. Онтологія може бути традиційною
ієрархією понять і типів об’єктів, разом з точним описом кожного типу, однак може
містити й аксіоми, що задають обмеження на можливі інтерпретації цих понять[9].

За сучасними уявленнями, розрізняють чотири типи онтологій: онтології предметних
областей
, онтології задач, онтології методів розв’язування
класів задач, і формальна онтологія [11].

Онтологія, специфічна для домену, або онтологія предметної області (domain-specific
ontology) – опис предметної області, що не залежить від її використання.

Онтологія задач (task ontology) – опис термінів предметної області, прийнятої в
конкретному класі задач.

Онтологія методів рішення класу задач (problem-solving methods ontology)– опис термінів
і правил, у яких задані методи рішення класу задач. При цьому методи рішення задач
– незалежні від предметної області специфікації алгоритму рішенні проблеми (задачі),
які можна використовувати для різних предметних областей і (можливо) різних класів
задач.

Формальна онтологія (formal ontology або top-level ontology) – опис абстрактних
понять, таких як “простір”, “час”, об’єкт”, “подія” тощо.

3. ДОСЛІДЖЕННЯ В ОБЛАСТІ ОНТОЛОГІЙ

Перші праці з дослідження онтологій з’явилися на стику таких галузей науки як штучний
інтелект, філософія, логіка і теорія баз даних.

Одним з найперших проектів, у якому використано поняття онтології, є проект CYC
[13]. Його мета – створення величезної (близько 100 000 000 аксіом) бази знань про
навколишній світ, яку можна було б використовувати в системах штучного інтелекту
для того, щоб перебороти обмеженість сприйняття такими системами навколишнього світу
в силу відсутності в їхніх базах знань набору загальноприйнятих понять, так званого
загальноприйнятого змісту (common sense).

У рамках проекту CYC була розроблена мова представлення знань CycL. База знань була
розділена на два рівні: епістемологічний (для визначення понять, їх зв’язків, аксіом,
що задають обмеження) і евристичний (представлений набором засобів логічного висновку,
таких як “генератор аргументу”, “порівняння аргументів”, “знаходження протиріч”,
“відновлення логічних висновків”, і функціонального інтерфейсу для спілкування з
евристичним рівнем бази знань CYC). База знань використовує онтологію, організовану
за принципом колекцій категорій (точніше, натуральних сортів Куайна), упорядкованих
за допомогою абстракцій узагальнення / спеціалізації.

Колектив розроблювачів зі Стенфордського університету з кінця 1980 р. займається
розробкою і стандартизацією мов представлення знань [8], інструментальними засобами
створення і модифікації онтологій [9]. У середовищі Ontolingua [9] можна створювати
онтології доменів, класів задач, методів розв’язування класів задач.

Особливе місце в дослідженні онтологій посідає розробка формальної онтології, яку
розглядають як “…теорію апріорних форм і суті об’єктів…”[12]. Метою цих досліджень
є розробка системи логічних примітивів (предикатів), представлених на деякій формалізованій
мові, структурованих на підставі множини розглянутих раніше онтологічних угод про
довільну предметну область. Особливу цінність здобуває формалізація визначень тієї
чи іншої категорії, для того, щоб при побудові онтології використовувати строгі
принципи поділу типів, а не інтуїтивні, евристичні правила [12].

Подальшою задачею є об’єднання цих систем примітивів, і приведення їх до загальної
формальної онтології.

4. СИСТЕМИ ІНТЕГРАЦІЇ НЕОДНОРІДНИХ БАЗ ДАНИХ

Відповідно до класифікації, запропонованої в [20], існуючі у світі інформаційні
системи можна розділити на три покоління, за рівнем інтероперабельності.

Перше покоління: інформаційні системи, засновані на структурованих базах даних.
Домінуючий підхід при розподілі даних – використання федеративних систем баз даних.
Основа для технічної інтероперабельності – локальні мережі.

Друге покоління: інформаційні системи ґрунтуються на структурованих базах даних,
частково структурованих даних (текст, гіпертекст у форматі SGML), на форматах даних,
специфічних для конкретної предметної області (наприклад, графіка, відео тощо).
Дані можуть зберігатися на десятках локальних мереж, об’єднаних між собою. Вважають
досягнутою технічну інтероперабельность, основну увагу приділяють узгодженню мов
звертання до даних і узгодження структур інформаційних компонентів.

Третє покоління: інформаційні системи, засновані на усіх відомих способах комп’ютерізованого
збереження даних, особливу увагу приділяють підтримці відео / просторових / часових
/ наукових даних. Дані можуть зберігатися як у глобальних корпоративних мережах,
так і в Інтернет. Вважають досягнутою технічну, синтаксичну, структурну інтероперабельність,
і особливу увагу приділяють узгодженню семантики використовуваних компонентів.

Вочевидь, сьогодні найрозвиненішими є інформаційні системи першого покоління інтероперабельності,
але для нас більш цікавими будуть системи другого і третьго поколінь.

Є декілька проектів систем другого покоління, що використовують погляд на світ з
боку семантики, закладеної в метаданих, і застосовують онтології. До таких проектів
відносяться SIMS [3], HERMES [1],
InfoSleuth [4], TSIMMIS [7], Information Manifold [14],
OBSERVER[16].

Ці проекти надають доступ до гетерогенних і розподілених інформаційних ресурсів.

Розглянемо ті з них, що надають можливість спільного використання неоднорідних баз
даних.

SIMS (sims)

Модель предметної області (application domain) створюється із використанням системи
представлення знань для того, щоб забезпечити фіксований словник описів об’єктів
предметної області, атрибутів і відносин між об’єктами. Кожному інформаційному ресурсу
ставиться у відповідність модель, у якій описана використовувана в цьому ресурсі
модель даних, мова запитів, розташування в мережі, приблизні розміри, і т.д., а
також зміст атрибутів цього ресурсу в термінах моделі предметної області. Запити
в SIMS формулюються загальною мовою високого рівня також в термінах моделі предметної
області. SIMS визначає потрібні інформаційні ресурси за допомогою знань, закладених
у модель предметної області й у моделях інформаційних ресурсів системи. Потрібні
інформаційні ресурси визначаються під час виконання запиту.

HERMES (hermes)

Зовнішні інформаційні ресурси представлені у вигляді доменів, що виконують визначені
функції з визначеними вхідними і вихідними типами даних. Опис зовнішніх ресурсів
виконується за допомогою гібридних баз знань [15]. Звертання
до цих доменів виконується за допомогою декларативної мови, заснованої на формальній
логіці. На технічному рівні інтероперабельності використовується архітектура медіаторів.

INFOSLEUTH (infosleuth)

Інформаційні ресурси доступні на рівні семантичних концепцій, що є досягненням автономії
даних. Інформаційні запити формулюються природно, незалежно від структури, розміщення
і навіть існування потрібних інформаційних ресурсів. INFOSLEUTH фільтрує ці запити,
сформульовані на семантичному рівні, і знаходить потрібні значення в доступних на
час запиту інформаційних ресурсах.

У проекті використовується загальна онтологія домену, і локальні відображення схем
баз даних у цю загальну онтологію. Система виконує попередню обробку і перетворює
дані з окремої бази даних у записи, атрибути яких є концепціями загальної онтології
домену.

TSIMMIS (tsimmis)

Підтримується модель даних і загальна мова запитів для об’єднання інформації зі
структурованих і частково структурованих джерел даних. Особлива увага приділяється
автоматичному створенню трансляторів і медіаторів для доступу до різнорідних ресурсів.
Результуюча інформація представляється в моделі обміну об’єктами (Object Exchange
Model).

Information Manifold (imhome.html)

Призначена для підтримки інформаційних ресурсів (структурованих і неструктурованих).
Архітектура система заснована на базі знань, що містить багату модель предметної
області, у термінах якої і відбувається опис ресурсів. Користувач має можливість
переглядати інформаційну базу як у виді бази знань, так і у вигляді окремих інформаційних
ресурсів, і задавати запит на пошук на декларативній мові запитів. Головною задачею
й особливістю цієї системи є можливість оптимізації запиту користувача.

Щодо систем 3-го покоління інтероперабельності зазначимо, що на сьогодня існує декілька,
наразі тільки рамкових, програм зі створення таких систем. Це:

Knowledge Sharing Effort (knowledge-sharing)

Intelligent Integration of Information (i3)

Digital Library Initiative (dli_home.html)

Як можна побачити, у сучасних системах використовуються дві концепції архітектури
медіатора:

1.          Централізований підхід,
за яким необхідно існує центральний медіатор. Цей медіатор визначає, до якого ресурсу
треба звернутися при відповіді на запит користувача, за допомогою центрального словника
даних, або загальної онтології ІС. (TSIMMIS, Information Manifold).

2.          Децентралізований підхід,
в якому кожен ресурс має програмного агента, що відображає онтологічну специфікацію
ресурсу в загальну онтологію даної ІС. Відповідь на запит формується після комунікації
агентів окремих ресурсів із агентом брокера ресурсів, який, на відміну від центрального
медіатора, визначає релевантні ресурси в процесі відповіді на запит, виходячи із
доступних/релевантних ресурсів (InfoSleuth, SIMS, HERMES).

5. СИСТЕМИ СПІЛЬНОГО ВИКОРИСТАННЯ ЗНАНЬ

В разі спільного використання різних баз даних цінність становить обсяг і семантика
даних, що зберігається в тій чи іншій базі. Водночас, розробка комплексних систем
знань пов’язана зі значними зусиллями по формалізації і представленню знань, тому
що цінність матимуть якість і повнота наявних концепцій. Тому поряд із системами
інтеграції неоднорідних баз даних, не менше значення мають дослідження в
області спільного використання компонентів баз знань.

Проект IBROW3 [5] призначений для розробки інтелектуального сервісу, що дозволить
використання компонентів знань від різних розроблювачів, з використанням технологій
WWW. У рамках проекту використовуються і онтології предметних областей, і онтології
класів задач, і онтології методів рішення класів задач. Як базову мову для опису
бібліотеки методів рішення задач в цьому проекті використовують мову UPML.

Паралельно IBROW3 розвивається проект DARPA за назвою High-Performance Knowledge
Bases (HPKB) (http://www.teknowledge.com:80/HPKB). Метою проекту було створення
масштабованих, повторно використовуваних компонентів знань і доступ до них за допомогою
Internet. Зараз на зміну проекту HPKB прийшов проект RKF (Rapid Knowledge Formation),
метою якого є розробка механізмів для швидкого проектування баз знань із компонент.

6. Доступ до різнорідних даних в Інтернет

Особливе місце в системах інтеграції неоднорідних компонентів відіграває Інтернет
і World – Wide Web. Величезна кількість інформації розсіяна по Мережі, і тут важливість
має пошук релевантної інформації і відсікання непотрібної інформації. Сучасні машини
пошуку (search engines), що застосуються на пошукових серверах, мають потребу в
додаткових засобах пошуку тільки релевантної інформації. Онтології предметних областей,
як засоби специфікації онтологічних угод між постачальниками інформації і користувачами,
можуть змінити ситуацію на краще. Використання онтологій дає змогу користувачу сформулювати
свій запит на вищому рівні абстракції, ніж це можливо при пошуку по ключових словах.

Розглянемо приклади систем, що використовують онтології для роботи з Інтернет.

OBSERVER (http://siul02.si.ehu.es/~jirgbdat/OBSERVER)

Ця система пропонує підхід використання безлічі вже існуючих онтологій для доступу
до гетерогенних, розподілених і незалежно розроблювальних репозиторіях даних [16]. Реалізація такого підходу – ідеологія брокера
онтологій предметних областей. Передбачається, що існує безліч заздалегідь створених
онтологій предметних областей, і користувачу необов’язково “підбудовуватися” під
конкретну онтологію. Користувач формулює свій запит на деякій мові, у термінах однієї
чи декількох онтологій, і брокер «шукає» релевантні інформаційні ресурси, виконуючи
транслювання запиту в придатні онтології, а в разі потреби, і сполучення декількох
онтологій для більш точної відповіді на запит.

OntoSeek [10]

Ця система розроблена для контекстного отримання інформації з он-лайнових “жовтих
сторінок” та каталогів продуктів. Система може працювати як з однорідними, так і
з неоднорідними каталогами продуктів. Для точної фіксації контексту може бути застосований
інтерактивний підхід, коли користувач поступово уточнює зміст ключових слів, за
допомогою лінгвістичної бази даних WordNet.
WordNet – це лінгвістична база даних, що складається із сінсетів(synsets) – груп
слів, еквівалентних за змістом. WordNet є водночас і лексичним словником (створеним
для декількох європейських мов), і онтологією, що представляє зв’язки між словами
у словнику. Опис ресурсу реалізується у вигляді лексичного концептуального графа[21],
де вершини відповідають словам, а іменовані дуги – семантичним відносинам між словами
(наприклад, відносини типа “частина”, або “підклас”, або ін.), назви вершин і дуг
також беруть із WordNet, під час створення концептуального графа конкретного ресурсу.
Знаходження ресурсів, відповідних до запиту користувача, базується на порівнянні
онтологій (лексичних концептуальних графів) цих ресурсів. А саме, при відборі ресурсів,
відповідних до запиту користувача, OntoSeek виконує порівняння концептуального графа
запиту із існуючими концептуальними графами ресурсів або з частинами цих графів.

OntoSeek має централізований сервер, на якому знаходиться база даних лексичних концептуальних
графів відомих системі ресурсів, але створення таких графів виконується з боку клієнта.

Підхід, використаний в OntoSeek, відрізняється від підходу, який застосовується
у моделі W3C Resourse Description Framework (W3C RDF,
http://www.w3c.org)
. У RDF опис структури даних (тобто, схема даних у вигляді
<subject, predicate, object>), додається прямо у HTML/XML документ, а не зберігається
окремо. Ніяких додаткових умов щодо семантичної узгодженості даних RDF не вимагає.

7. Підсумки

Отже, зроблено спробу конкретизації стану сучасних систем інтеграції неоднорідних
баз даних і баз знань, і підходів, використаних у цих системах.

Сьогодні задача інтеграції неоднорідних ресурсів має багато розв’язків. Однак, серед
узагальнювальних факторів її розв’язування виділимо такі:

1. використання онтологій як специфікацій предметних областей, задач, методів рішення
задач;

2. розвиток інтернет-технологій, що дають змогу зробити різнорідні інформаційні
ресурси «ближче до користувача»;

3. застосування систем інтелектуальних агентів для реалізації архітектури медіатора
неоднорідних розподілених інформаційних ресурсів.

ЛІТЕРАТУРА

1.
Adali S., Subrahmanian V.S. Amalgamating knowledge bases, II. Distributed mediators.
International Journal of Intelligent and Cooperative Information Systems 3(4): 349-383,
1994.

2.        Adiba M.et al.
POLYPHEME:An Experience in Distributed Data Base System Design and Implementation.-In:
Proc. of the International Symposium on Distributed Data Bases. Paris. Amsterdam:
North-Holland, 1980.

3.
Arens Y., Knoblock C.A., Shen W. Query Reformulation for Dynamic Information Integration.
Journal of Intelligent Information Systems. 1996.

4.
Bayardo et al. InfoSleuth: Semantic Integration of Information in Open and Dynamic
Environment. In Proceedings of the 1997 ACM International Conference on the Management
of Data (SIGMOD), Tucson, Arisona, May 1997.

5.        Benjamins V.R.
et al. IBROW3: An Intelligent Brokering Service for Knowledge-Component Reuse on
the World – Wide Web. Proceedings of the 11th Workshop on Knowledge Acquisition,
Modeling and Management, KAW’98
.

6.        Cardenas A.F, Pirahesh
M.H. Data Base Communication in a heterogeneous data base management system network.
-Information Systems, 1980, 5, p.55-79
.

7.        Garcia-Molino H.
et. Al. The TSIMMIS Approach to Mediation: Data Models and Languages. In Proceedings
of the NGITS (Next Generation Information Technologies and Systems), June 1995.

8.        Genesereth M.R.,
Fikes R.E., et.al. Knowledge Interchange Format Version 3.0 Reference Manual. Logic-92-1,
Stanford University Logic Group, 1992.

9.        Gruber T. A Translation
Approach to Portable Ontology Specifications. Knowledge Acquisition, 5:199-220,
1993.

10.     Guarino N., Masolo C., Vetere G.
Content-Based Access to the Web. IEEE Intelligent Systems,
May/June 1999,
p.70-80.

11.
Guarino N. The Role of Ontologies in Information Systems Design. Proceedings of
the First International Conference on Formal Ontologies, FOIS’98.

12.     Guarino N., The Ontological Level.
In: Casati R., Smith N. and White G.(eds.), Philosophy and the Cognitive Sciences,
Vienna: Ho:lder-Pichler-Tempsky, 1994.

13.     Lenat D. et al. CYC: Toward programs
with Common Sense, Communications of the ACM, Vol.33, No.8, august 1990, p. 30-49
.

14.     Levy A., Srivastara D., Kirk T.
Data Model and Query Evaluation in Global Information Systems, Journal of Intelligent
Information Systems, 5(2), September 1995.

15.
Lu J., Nerode A., Subrahmanian V.S. Hybrid Knowledge Bases, IEEE Transactions on
Knowledge and Data Engineering, 1994.

16.
Mena E., Kashyap V., Sheth A., Illaramendi A. OBSERVER: An Approach for Query Processing
in Global Information Systems based on Interoperation across Pre-Existing Ontologies.
In Proceedings of the First IFCIS International Conference on Cooperative Information
Systems (CoopIS’96), Brussels (Belgium), June. IEEE Computer Society Press, 1996.

17.
Object Managament Group, “Object Managament Architecture Guide”, OMG Document Number
91.11.1, September 1, 1992.

18.     Object Managament Group, “Object
Services Architecture”, Revision 8.0
.

19.     Object Managament Group, “The Common
Object Request Broker: Architecture and Specifications”, OMG Document Number 91.12.1,
December 1991
.

20.     Sheth
A.P. Changing Focus on Interoperability in Information Systems: from System, Syntax,
Structure to Semantics
.
In: Interoperating Geographic Information Systems. Goodchild M.F., Egenhofer M.J.,
Fegeas R. and Kottman C.A. (eds.). Kluver. 1998.

21.     Sowa J. Conseptual Structures: Information
processing in Mind and Machine. Addison-Wesley,
Reading, Mass.,1984.

22.     Uschold M., Gruninger M.
Ontologies: Principles, Methods and Applications. Knowledge Engineering Review,
11(2), 1996.


23.     Брюхов Д.О., Задорожный В.И., Калиниченко Л.А.,
Курошев М.Ю., Шумилов С.С. Интероперабельные информационные системы: архитектуры
и технологии. // СУБД. Москва, 1995, №4. – С.86-113.

24.     Калиниченко Л.А., Рывкин В.М., Чабан
И.А. Принципы организации и архитектура СИЗИФ – системы организации интегрированных
баз данных
// Программирование. – Москва, 1975,
№ 4.

25.     Калиниченко Л.А., Рывкин В.М., Чабан
И.А. Основные особенности языка манипулирования данными в системе интегрированного
запоминания информации СИЗИФ // Программирование.
– Москва, 1975, № 6.

26.     Калиниченко Л.А. 1983. Методы и
средства интеграции неоднородных баз данных.
– Москва: Финансы и Статистика,
1983. – 300 с.

27.     Программа
исследований в области баз данных на следующее десятилетие (Асиломарский отчет о
направлениях исследований в области баз данных)
// Открытые системы. – Москва,
1999, №1.

HETEROGENEOUS database and knowledge-based INTEGRATING SYSTEMS: THE REVIEW

N.G. Keberle

Zaporozhye State University In Zaporizhzhya

The short review of modern systems integrating information stored in heterogeneous
databases and knowledge-based systems is presented. Discussed are such systems which
use domain ontologies, problem-solving methods ontologies as the means of semantic
integration of heterogeneous information resources. Ontologies help in achieving
sharing and reuse of information resources, allowing formal representation of semantics
of correspondent domains.

Key words: heterogeneous information system; database system; knowledge-based system;
semantic interoperability; domain ontology; task ontology; problem-solving methods
ontology


Owlgres – масштабируемый OWL2 DL-Lite Reasoner

Для обработки онтологий в стандарте OWL 2 можно использовать reasoner Owlgres.  Кстати, reasoner – это подсистема логического вывода; OWL 2 – следующая версия Web Ontology Language.

Чем Owlgres хорош? Во-первых, это опенсорсный продукт (а учитывая то, что он распространяется и по коммерческой лицензии,  есть вероятность, что проект быстро не погибнет). Во-вторых, в Owlgres поддерживается высокоскоростной логический вывод на основе дескриптивной логики. Высокая скорость поддерживается за счет реализации Owlgres поверх реляционной СУБД PostgreSQL.

Кстати, идея реализации онтологий на OWL (или других языках) поверх реляционных баз данных не нова. Вы уже слышали, на страницах моего сайта о Oracle Spatial… Кроме того, это оказывается и не так уже и сложно, когда есть математическая модель онтологий и навыки проектирования реляционных баз данных. Сложность скорее в той рутинной работе, которую нужно сделать, чтобы учесть все ньюансы OWL и LBASE.

В качестве языка запросов к онтологии OWL в Owlgres используется SPARQL-DL.

И, напоследок, уже доступна альфа-версия Owlgres, которую можно использовать как Sparql-точку доступа для создания, например, «умных» сайтов или web-сервисов.

PS. Помниться был еще один подобный проект по хранению онтологий в  Postgress (правда академический), но о нем уже года полтора ничего не слышно, а жаль – можно было бы сравнить, например, производительность.  И лицензия для использования была там получше ))

Если у вас есть информация о подобных проектах, пишите в коментариях ))

Модель интенсивного развития онтологий

Работа в области разработки онтологий является в крайней степени наукоемкой и сопряжена с большими затратами времени и материальных ресурсов. Создание подходов, снижающих сложность такого рода разработок должно привести к массовому использованию онтологического представления знаний, что в свою очередь приведет к резкому скачку интеллектуализации информационных систем.

Некоторые из существующих подходов работы с развивающейся онтологией [1] ориентированы на внесение дополнительной метаинформации в ходе разработки онтологии и последующем семантическом анализе этих данных. Такой подход эффективен при строгой формальной разработке онтологий и не достаточно применим к стихийно развивающимся онтологическим структурам. Исследования [2-3], ориентированные на анализ процесса развития, изучают широкий набор базовых изменений в онтологии, но не уделяют внимания неявным последствиям изменений. В работе [4] предлагается метод поддержки адекватного развития онтологии, основанный на проверке целостности текущей версии.

Подходы [1-4], не смотря на то, что имеют ряд важных результатов, не достаточно полно формализуют процесс развития онтологии. Также в этих работах отсутствует возможность количественной оценки версий с точки зрения целостности, что не позволяет решать задачи максимизации и минимизации адекватности.

Работа, посвященная модульности онтологии в распределенных системах [5], ярко отразила тенденции в прикладных задачах использования онтологий, но оставила без внимания процессы изменения структуры в ходе доработки.

Разработка PROMPT [6] в рамках проекта Protégé [7] предлагает особый подход сравнения версий, но в ней не отражаются подходы использования внешних ссылок онтологии, а также не предусмотрено использование нечетких онтологий [8].

Очевидно, что исследования в области развития распределенных онтологий активно ведутся в разнообразных направлениях. Но в виду ряда недоработанных вопросов дальнейший поиск в этой области востребован и актуален. Целью работы, является разработка обобщенного подхода к представлению интенсивного онтологического развития, что должно в дальнейшем позволить создавать эффективные методы оценки и обработки таких процессов, что в свою очередь даст возможность разработать системы поддержки принятия решений при онтологическом инжиниринге.

Читать полностью!

Не коротко о главном – онтологии!

Онтология – явная спецификация знаний о предметной области (Грубер). Знания в онтологии могут быть выражены с помощью логик 1-го (или n-го) порядка или в терминах свойство-центричной модели представления знаний.

Логики в онтологиях реализованы с помощью языка LBASE.

LBASE определяет формальные семантики для языков Semantic Web.

Наиболее популярным языком представления онтологий, основанном на LBASE, является OWL (Язык веб-онтологий).

Логики дают возможность выражать в онтологиях практически все, что связано с материальным миром. Ценой таких широких выразительных возможностей является низкая скорость автоматической обработки инструкций онтологий, а иногда и невозможность проведения логического вывода за конечное время. Т.е. Возможна ситуация, когда послав запрос к web-сервису, использующего онтологию, Вы не получите на него ответ за приемлемое для Вас время.

Ускорение работы и логический вывод за конечное время можно получить используя свойство-центричность онтологий.

Свойство-центричность онтологии выражается в том, что объекты предметной области и свойства описываются отдельно, при этом свойства описываются в терминах объектов, к которым они применимы, путем указания области применения свойства (domain) и области значений свойства (range).

В рамках свойство-центричной модели представления знаний объединяются выразительные возможности объектно-ориентированного подхода с возможностями хранения распределенных по Web знаний, что позволяет разрабатывать высокоэффективные web-сервисы, скорость обработки которых сравнима с объектными CУБД.

Редактор онтологий Protege позволяет выбирать на основе какого подхода Вы будете создавать онтологии, т.е. Вы выбираете «Logic View», если используете логики, и «Property Centric View» при использовании свойство-центричной модели представления знаний.

Read the rest of this entry »

1 2   Следующая »