В рамках этой инициативы планируется перевести интерфейс редактора онтологий на украинский и русский языки.

Первым шагом стал перевод базового интерфейса и подготовка неофициального файла локализации на русском языке.

Подробнее

УДК 519.7:007.52

Н.В. Рябова, С.С. Щербак

Статья посвящена актуальной проблеме повышения эффективности компьютерного анализа информации применительно к технологиям . Рассмотрены вопросы разработки технологии автоматической обработки -графов для получения интуитивно понятных представлений содержимого произвольных -графов.

1. Введение

Стремительное развитие компьютерных информационных технологий привело к тому, что сегодня компьютер, помимо выполнения ставших уже традиционными задач обработки числовой и символьной информации, программирования игр, создания компьютерных презентаций и т.п., приобрел совершенно новую, революционную по своей сути функцию - предоставление постоянного входа, своеобразного «окна» в мировое информационное киберпространство. Технологии World Wide Web (WWW) позволяют объединять в Интернет - пространстве гигантское количество пользователей всех уровней, предоставлять им различного вида сервисы и снабжать информацией (правда, не всегда релевантной запросу или даже вовсе нежелательной, так называемый spam в электронной почте).

На наших глазах WWW пережила уже два этапа развития: вначале предоставляя информацию в виде вручную сгенерированных HTML-страниц, затем появилась возможность генерировать страницы из баз данных, хранящихся на Web-серверах. Однако оба эти этапа были ориентированы на обработку информации человеком-специалистом и читателей – пользователей компьютеров. Чтобы противостоять неуклонному и неуправляемому расширению «всемирной паутины», которая стала угрожающе запутываться, ведущими учеными и разработчиками в области Computer Science был выдвинут лозунг «превратить информационное Интернет-пространство в пространство знаний». Web следующего, третьего поколения, должна обеспечивать машинную обработку информации с учетом ее семантики (machine accessible semantics).

Новую парадигму Web ее создатели и идеологи назвали [1], делая тем самым акцент на требовании эксплицитного представления семантики в Web, понятного для программных агентов. Росту популярности и широкому распространению технологий способствует разработка и внедрение WWW-консорциумом (W3C) ряда инициатив, связанных со стандартизацией синтаксической и семантической разметки электронных документов, особенно технологий XML и , поддерживающих семантическую совместимость. В связи с этим, в данной работе предлагается технология обработки -графов необходимая для получения интуитивно понятных представлений содержимого графов.

The Resource Description Framework () является языком общего назначения для представления информации в Web [2]. применяется для того, чтобы предоставить информацию о ресурсах в терминах простых свойств и значений этих свойств. Ресурсом может выступать все что угодно, чему можно приписать некоторый URI(Uniform Resource Identifiers), даже то, что потенциально может быть не доступно через Интернет. Идея описания ресурсов в терминах простых свойств, их значений и применения URI для идентификации ресурсов дает возможность представить информацию о ресурсах в как граф узлов и дуг, представляющих ресурсы, их свойства и значения этих свойств [3].

2. XML/ синтаксис

XML/ синтаксис позволяет выразить данные c помощью языка расширяемой разметки XML, что отчасти решает проблему интеграции с Интернет - технологиями и дает возможность применять для обмена метаданными в среде Интернет. Кроме того, XML/-синтаксис позволяет применять для обработки -конструкций технологии, которые разрабатываются для XML, такие как XPath [4], XSLT [5] и др.
Согласно [2], -граф, записанный в синтаксисе XML/, представляется в последовательной форме пригодной для машинной обработки. Кроме того, этот синтаксис позволяет различные формы записи одного и того же - графа, различные сокращенные формы записи и т.п.
3. /RDFS и
Основу [6] составляет модель данных – “объект – атрибут- значение”, что позволяет описывать ресурсы в виде наборов утверждений о свойствах этих ресурсов. Особенность модели данных в том, что все компоненты этой модели идентифицируются с помощью универсальных идентификаторов(URI). Благодаря этой особенности позволяет объединять информацию с различных источников, что может быть весьма полезно для обеспечения совместного использования информации в рамках Web.
Терминологическая база, применяемая для описания ресурсов, определяется соответствующей -схемой – иерархией терминов (понятий) предметной области.
схемы разрабатываются с помощью языка описания словарей терминов - RDFS [7].
4. и 2000

Несколько слов о протоколе Open Knowledge Base Connectivity (OKBC)[8]. Этот протокол разработан в Стэнфордском университете для обеспечения единства запросов и создания унифицированного интерфейса для знание-ориентированных систем, основанных на фреймах.

Проект -2000[9] является программной средой для создания и редактирования баз знаний и онтологий. Модель знаний -2000 является OKBC - совместимой, что позволяет ей быть метамоделью над другими моделями знаний. Таким образом, в -2000 применяется один настраиваемый интерфейс для обработки языков семантической разметки. Одним из таких языков является . Что делает -2000 привлекательной средой разработки описаний документов, тем более что при необходимости -2000 позволяет перевести все существующие наработки в -2000 на другие языки семантической разметки, например, OWL. С различиями в моделях знаний, применяемых в -2000 и модели , можно познакомиться здесь[10]. Следует отметить, что реализация стандарта в -2000 не поддерживает некоторых конструкций [11]. Кроме того, форма записи - конструкций, генерируемых средой -2000, является более предсказуемой, в отличие от разнообразных форм записи одних и тех же -конструкций, сокращенных форм, которые можно построить с помощью обычного текстового редактора, что делает среду -2000 привлекательной для разработчиков решений, связанных с обработкой онтологий. Предлагаемая технология обработки графов ориентирована в большей степени на обработку графовых конструкций -реализации стандарта .
5. Технология XSLT

Для обработки XML - документов можно применить различные языки программирования, например, Java с использованием низкоуровневых API, таких как SAX или DOM, но наиболее удобным представляется язык XSLT (eXtensible Stylesheet Language – Transformation, который получил статус рекомендации W3C 16 ноября 1999г.) – Расширяемый язык таблиц стилей для трансформации [5]. Одним из преимуществ этого языка является его схожесть с продукционными правилами и относительная схожесть с инструкциями на естественном языке, а главное этот язык позволяет трансформировать структуру XML документов в другое представление и/или формат. Общая схема трансформации документа представлена на рисунках 1 и 2. Для того чтобы трансформировать документ необходимо правила трансформации XSLT применить к документу. Трансформация выполняется с помощью XSLT-процессора. В результате трансформации XSLT- процессор генерирует необходимое представление исходного документа (сериализация документа).

Общая  схема преобразования документа с использованием XSLT

Рисунок 1. Общая схема преобразования документа с использованием XSLT

Сериализация RDF-графа

Рисунок 2. Сериализация документа в нужном формате.

6. Технология обработки - графов с помощью XSLT

Документы , выраженные в синтаксисе XML/ являются неудобными для чтения человеком, поэтому для трансформации содержимого документа в удобное, интуитивно понятное для человека представление с системой гипертекстовых ссылок, отображающих связи между конкретными сущностями , необходимо обработать конструкции с помощью технологии XSLT.
Важное замечание, изначально технология XSLT была предназначена для обработки деревьев, представляющую структуру XML документов, но благодаря продуманному механизму навигации по деревьям ее можно с успехом применять для навигации и обработки -графов.
Документ представляет собой выраженные в последовательной форме иерархии классов, экземпляров классов, атрибутов. Каждый объект (экземпляр класса) иерархии содержит уникальный идентификатор(URI), который служит для идентификации объекта в иерархии объектов. В терминах свойство объекта :about содержит уникальный идентификатор этого объекта. Кроме того, объединение объектов в иерархию происходит тоже с использованием URI.
В терминах атрибут :resource с URI объекта указывает, с каким объектом имеет связь объект, содержащий данный атрибут :resource. Объединение множества объектов иерархии классов с помощью URI образует – граф. Последовательная форма записи - графа подразумевает последовательное описание экземпляров классов в синтаксисе с указанием URI этого экземпляра и, в случае наличия, списка URI взаимосвязанных объектов. На рис. 3 изображен – граф в последовательной форме с комментариями.

Последовательная форма представления RDF-графа

Рисунок 3 – Последовательная форма представления -графа
Учитывая то, что для обработки -графов выбрана технология XSLT, а базовым строительным блоком этой технологии являются таблицы стилей с шаблонами преобразования, описывающие конкретное преобразования древовидной структуры в виде правил обработки узлов, наборов узлов этой структуры, адаптируем стандартное для обработки XML-документов описание таблицы стилей для обработки доументов . Для этого XSLT-шаблон необходимо привести к виду, как представлено ниже в разделе “Базовый XSLT файл для преобразований – графа”. Комментарии к XSLT – инструкциям добавлены только в описательных целях, их не нужно переносить в реальные файлы обработки – графов. Далее необходимо определить точку входа в граф, т.е. имя класса, экземпляры которого будут обрабатываться, и представление которого необходимо получить. Имя класса можно задать, определив соответствующую сущность, например, таким образом <!ENTITY rdf_node "Имя класса">. Потом необходимо описать преобразование в соответствующем rdf_node шаблоне, например, так:

<xsl:apply-templates select="ns:&rdf_node;">
<!—тело преобразования -->
<xsl:template>

Тело преобразования подразумевает выполнение одной или нескольких из ниже перечисленных операций, которые сформируют соответствующее требованиям конкретной задачи представление – графа.
Основные операции, которые необходимы для получения различных представлений – графа:

1. Вывод значения атрибута узла
2. Вывод значений атрибутов дочернего узла
3. Вывод значений атрибута подузла узла, который является дочерним узлом текущего узла
4. Сортировка по значению атрибута
5. Идентификация узлов -графа

Вывод URI конкретного узла
Вывод URI подузлов текущего узла

6. Вывод rdfs-label узла графа
7. Выделение и обработка узла с конкретным значением атрибута

Описание операций с пояснениями к XSLT-шаблонам представлены ниже. Для выполнения XSLT шаблонов представленных в описаниях операций необходимо модифицировать базовый XSLT файл или воспользоваться XSLT-файлами[15].

Процесс преобразования в формат HTML представлен на рис. 4.

 Общая схема преобразования  RDF -документа с использованием таблиц стилей XSLT

Рисунок 4 – Общая схема преобразования -документа с использованием таблиц стилей XSLT.

Базовый XSLT файл для преобразований – графа

Базовый XSLT файл для преобразований RDF – графа

Рисунок 5. Базовый XSLT файл для преобразований – графа.

Вывод значения атрибута узла

Для вывода значения атрибута rdf_attr rdf_node, необходимо воспользоваться следующим шаблонным правилом:

Вывод значения атрибута узла

Замечание. Учитывая то, что данная инструкция применяется внутри цикла по выводу узлов -графа, то более правильно будет говорить, что данная инструкция выводит значения атрибута узлов -графа. Данное замечание применимо ко всем рассматриваем шаблонам.

Вывод значений атрибутов дочернего узла

Для вывода значений атрибутов всех подузлов node2 узла node1, необходимо применить следующее шаблонное правило:

Вывод значений атрибутов всех подузлов node2  узла node1

Описание шаблона:

Для всех подузлов node2 узла node1, :resource которых содержит ссылку(URI) на конкретный узел node2

<xsl:for-each select ="@:resource">

создать переменную temp и сохранить в нее значение текущего узла, т.е. значение :resource, содержащее конкретное URI узла node2.

<xsl:variable name="temp" select="."/>

Для всех узлов rdf_instance :about, которых соответствует :resource rdf_node

<xsl:for-each select ="//ns: node2 [@:about=$temp]">

Вывести значение атрибута(ов)

<xsl:value-of select="@ns:&rdf_attr"/><br/>

Вывод значений атрибута подузла узла, который является дочерним текущего узла

Для вывода значений атрибута rdf_attr всех подузлов node3 узлов node2, которые является подузлами текущих узлов(node1), необходимо применить следующее шаблонное правило:

Вывод значений атрибута rdf_attr всех подузлов node3 узлов node2

Шаблон для обработки узла node3

Шаблон для обработки узла node3

Сортировка по значению атрибута

Для того чтобы отсортировать узлы node1 по атрибуту rdf_attr, необходимо добавить <xsl:sort select="@ns:&rdf_attr;"/> в шаблонное правило обработки узлов node1:

Сортировка по значению атрибута

Идентификация узлов -графа

Идентификация узлов -графа происходит по URI узлов. Каждому объекту, который описывается в - графе, поставлено в соответствие уникальный идентификатор, однозначно идентифицирующий объект в -графе. Таким образом, зная URI объекта можно получить доступ к его описанию.
Вывод URI конкретного узла

Чтобы вывести значение URI узла, необходимо в шаблонном правиле определить переменную и инициализировать ее значением атрибута :about, как показано в примере:

Вывод URI конкретного узла

Вывод URI подузлов текущего узла

Чтобы вывести значение URI подузлов, необходимо в шаблонном правиле определить переменную и инициализировать ее значением атрибута :resource, как показано в примере:

Вывод URI подузлов текущего узла

Вывод rdfs-label узла графа

Чтобы вывести значение rdfs-label узла, необходимо добавить следующую инструкцию в шаблонное правило:

<xsl:value-of select="@rdfs:label"/><br/>

Выделение и обработка узла с конкретным значением атрибута

Чтобы выделить узел из других по значению некоторого атрибута необходимо применить инструкцию <xsl:if test> во время перебора узлов, т.е. последовательно обрабатывая каждый узел, ищем узел с необходимым значением атрибута:

Выделение и обработка узла с конкретным значением атрибута

7. Алгоритм преобразований - графа с помощью процессора XSLT – Saxon [8]
1. Разработать -документ с помощью редактора онтологий .
2. Составить файл с описанием требуемого преобразования на XSLT, модифицировав соответствующим образом базовый XSLT файл для преобразований – графа [предлагаемый в работе], или прилагаемые к работе образцы.
3. Изменить кодировку файла, генерируемого -2000 c UTF-8 на windows-1251 для платформы Windows, или с UTF-8 на KOI8-R для Linux, иначе XSLT процессор сгенерирует множество ошибок. Для этого открываем файл с расширением . и изменяем <?xml version='1.0' encoding='UTF-8'?> на <?xml version='1.0' encoding='windows-1251'?> (пример для Windows).
4. Команда для запуска преобразования c помощью процессора XSLT Saxon версии 7.8: java -jar saxon7.jar -o [имя результирующего файла].htm [имя файла]. [имя файла с XSLT преобразованием].xsl
5. Пример: java -jar saxon7.jar -o developer.htm PersonalPage. rdf_developer.xsl
6. Примечание: предполагается, что файлы, генерируемые -2000 находятся в рабочей директории процессора XSLT, иначе необходимо указывать полные пути к файлам , xslt.
8.Системные требования
1. Любая операционная система, на которой может работать виртуальная машина Java, например, Windows, Linux, FreeBSD.
2. Виртуальная машина Java не ниже версии 1.4.2
3. Java реализация бесплатно-распространяемого XSLT-процессора Saxon версии не ниже 7.8, “умеющего” работать с шаблонами преобразований XSLT версии 2.

9. Достоинства технологии

1. Описание особенностей обработки -графов, которые позволяют применить мощные механизмы XSLT технологии для трансформации –графов.
2. Практическое применение технологии для управления содержимым WEB – сайтов, порталов и др. на основе среды .
3. Время, затрачиваемое на написание -преобразования с помощью описанной технологии, приблизительно равно времени, затрачиваемом на написание XML преобразования.
10. Недостатки технологии

Основные недостатки обусловлены, прежде всего, тем, что основное предназначение XSLT обработка древовидных структур, поэтому иногда бывает сложно выполнить преобразование графа к нужному виду. Кроме того, технология преобразования –графов не избавляет от таких недостатков XSLT технологии, как:

1. Отсутствие средств, позволяющих производить точные математические вычисления;
2. Повышенная сложность и иногда невозможность реализации сложных трансформаций документов;

Выводы
Предложенная технология преобразований -графов успешно работает с любыми XSLT процессорами, которые совместимы со стандартом XSLT версии 2. Но для выполнения большинства операций над - графами достаточно процессора XSLT версий 1.0, единственно, что функциональность преобразований уменьшиться, за счет отсутствия возможностей характерных для технологии XSLT версии 2.
Технология успешно тестировалась c процессором XSLT от Microsoft, поставляемым вместе c msxml, а также с процессором Xalan на платформах Linux и Windows.
Кроме того, технология успешно применяется для создания проекта Web-портала ontolib.com

Литература

1. Berners-Lee T. Weaving the Web.- Harper, San Francisco, 1999.
2. /XML Syntax Specification http://www.w3.org/TR/-syntax-grammar
3. Premier http://www.w3.org/TR/-primer/
4. Спецификация языка XPath http://www.w3.org/TR/xpath
5. Спецификация языка XSLT http://www.w3.org/TR/xslt
6. Проект http://www.w3c.org/sw
7. Спецификация языка RDFS http://www.w3c.org/rdfs
8. Open Knowledge Base Connectivity (OKBC) http://www.ai.sri.com/~okbc/
9. Проект http://.stanford.edu
10. http://smi-web.stanford.edu/projects//-/-.html
11. Schema Support in -2000 http://.stanford.edu/doc
12. Кэй М. XSLT. Справочник программиста. – Пер. с англ. – СПб.: Символ-Плюс, 2002. – 1016 с.: ил.
13. Валиков А.Н. Технология XSLT. – CПб.: БХВ-Петербург, 2002. – 544 с.: ил.
14. Shelley Powers. Practical .- O'Reilly, 2003.- 350 c.

Функциональность редактора онтологий (см. заметку) может быть расширена путем добавления плагинов.

Плагины к можно разрабатывать самому, а можно воспользоваться одним из представленных ниже:

TGVizTab – плагин Protege, который позволяет визуализировать содержимое онтологии с помощью java библитеки TouchGraph. TGViz выводит графическое представление объектов, экземпляров и связей между объектами с возможностью контроля глубины вывода.

Вид онтологии в , визуализированной с помощью TGViz:


Вид онтологии в редакторе Protege

Рекомендую для пользования!

Читать продолжение »

Щербак С.С.

Протокол OKBC - это прикладной интерфейс программирования для доступа к базам знаний. Этот протокол разработан в Стенфордском университете и является дальнейшим развитием Generic Frame Protocol(GFP).

В рамках OKBC для знание-ориентированных систем разработана унифицированная модель системы представления знаний. Эта модель основана на теории фреймов и использует такие понятия, как "концептуализация классов", "объекты", "слоты", "фасеты", и "наследование" для представления знаний о предметной области, что позволяет создавать различные знание-ориентированные приложения с высоким уровнем интероперабельности (способности к взаимодействию).

Читать продолжение »

Интеллектуализация обработки информации на основе технологий Semantic Web

С.С. Щербак

В статье рассмотрены и предложены пути решения проблемы анализа и автоматической обработки информации на основе онтологического подхода с использованием технологий .

1. Введение

С каждым днем количество пользователей сети Интернет увеличивается, существуют миллионы серверов, предоставляющих различного рода электронные документы. Эффективность компьютерного анализа электронных документов оставляет желать лучшего. Становиться все более очевидным отсутствие эффективных методов извлечения и формализации знаний с электронных документов, для дальнейшего, с учетом смысла, анализа. При чем такая ситуация наблюдается как при анализе текстовых – неструктурированных или слабоструктурированных, так и в табличных – структурированных с помощью таблиц электронных документах. Не стоит также опускать немаловажный фактор большой гетерогенности источников электронных документов. Над решением этих проблем работают множество исследовательских коллективов. Текущее состояние интеллектуальной обработки электронных документов заключается в создании семантически интероперабельной (способной к взаимодействию) среды для “интеллектуальных” программ. Эта среда получила название –

2. Web, основанный на понимании информации

На сегодняшний день информация для людей и компьютеров готовиться отдельно. Для людей в виде текста, картинок, и звуков, для машин в виде специальных кодов. предусматривает объединение этих разных видов информации в единую структуру, где каждому элементу “человеческой” информации будет соответствовать машинный код в виде специального смыслового тэга (метаданные). Все тэги должны составлять единую иерархическую структуру , на основе которой и будет работать . Метаданные будут в обязательном порядке включать сведения о том, как, где и кем была создана данная информация и как она структурирована. Таким образом, унифицированное представление информации в плюс набор механизмов “понимающих” смысловые теги, заложенных в эту информацию обеспечат компьютерную обработку информации с учетом ее семантики.

Росту популярности и широкому внедрению технологий способствует стандартизация консорциумом W3C синтаксической и семантической разметки электронных документов, особенно технологий XML, /RDFS и OWL, поддерживающих синтаксическую и семантическую совместимость.

Кроме того, среда обеспечит классификацию информации, что сделает совместную работу людей и компьютеров на порядок более эффективной.

В основе лежат следующие концепции:

1. Расширяемый язык разметки XML.
2. – формат описания ресурсов.
3. Онтологии, определяющие термины и отношения между ними.

3. Расширяемый язык разметки XML

За последние несколько лет широкое распространение получила технология XML(eXtended Markup Language). К достоинствам которой можно отнести:

1. Расширяемый язык разметки электронных документов, обеспечивающий возможность создания унифицированного представления электронных документов, их структуры на основе словаря разметочных тегов и правил составления тегов в синтаксические конструкции.

2. Развитые средства синтаксического анализа унифицированного представлений электронных документов.

3. Кроссплатформенность и совместимость с гипертекстовой средой Интернет. 4. Возможность разметки документов произвольной структуры.

Правильно составленные XML - документы содержат сбалансированное дерево вложенных открывающих и закрывающих тегов, каждый из которых может включать в себя несколько пар “атрибут-значение”. Поскольку фиксированного словаря тегов, равно как и набора их допустимых комбинаций не существует, теги могут определятся независимо от приложения. В XML это делается с помощью определяемых пользователем словарей тегов в виде схем XML или DTD(определения типа документа), накладывающих ограничения на используемые теги и указывающих, каким образом должна быть организована их вложенность внутри документа. Схемы XML или DTD задают грамматику, которая указывает допустимые комбинации и вложения имен тегов, имен атрибутов и т.д.

Как технология XML обеспечивает общую синтаксическую спецификацию для представления информации. Кроме того, наличие средств для синтаксического разбора и обработки информации, выраженной в XML синтаксисе, интегрированность в средства коммуникации Интернет, позволяет обеспечить естественную среду для развития и практического применения, рассматриваемых ниже, онтологий, выраженных в XML-синтаксисе, для обработки и обмена онтологиями в среде WWW.

Широкая поддержка и внедрение XML в Web обеспечило для приложений синтаксически интероперабельную (способную к взаимодействию) среду, позволив эффективно решать проблемы обмена информацией и межпрограммного взаимодействия. Однако унифицированное представление документов на XML ничего не говорит о том, что означает это унифицированное представление, т.е. не несет никакой семантической нагрузки.

4. Формализация и обработка знаний на основе онтологического подхода

В рамках Интернет рассматривается как распределенная база знаний. Для работы с распределенными знаниями в Интернет, нужны специальные методы представления и обработки, распределенных по всемирной паутине WWW знаний. Задача заключается, прежде всего, в том, чтобы адаптировать методы и средства, разработанные в искусственном интеллекте для знание - ориентированных систем, в новую проблемную область. В рамках такого подхода сегодня внимание различных исследователей привлекают онтологии, как средство построения распределенных и неоднородных систем баз знаний на основе Интернет. Вопросам, связанным с формализацией знаний, компьютерному анализу знаний посвящено множество работ [1-3]. Достоинствами онтологий являются их потенциальные свойства для решения таких задач, как формализация, интеграция, обмен знаниями и их повторное использование. Это заключение основывается на предположении о том, что если общая схема представления и использования знаний, - то есть онтология, - явно определена для работающих с ней “интеллектуальных” приложений как общий ресурс, то этот ресурс, возможно, разделять между “интеллектуальными” приложениями и многократно его использовать [1].

Онтология представляет собой формальное, явное описание понятий предметной области и отношений между ними, а также правила для составления новых понятий и отношений. Очень важным в данном определении является то, что онтология, кроме уже определенных понятии и отношений, содержит также правила для получения новых понятий и отношений. Учитывая, что онтология предназначена для “машинного” чтения, типы понятий и ограничений, определенных в онтологии явно определены.

Формально записанные знания в онтологии составляют семантическую основу – базу знаний, для компьютерного анализа информации, кроме того, онтологии предоставляют возможность семантического взаимодействия между “интеллектуальными” приложениями независимо от их индивидуальных особенностей, структуры информации и областей применения.

В рамках получили широкое распространение языки описания знаний в онтологиях, основанные на XML – , RDFS, OWL.

Формат описания ресурсов представляет собой возможность выражения метаданных о ресурсах в терминах “объект-атрибут-значение”. Последовательно выраженные - графы цепочек описаний метаданных позволяют выразить в “Машино - понимаемом” формате семантические описания ресурсов. Словарь терминов [понятий], используемых в семантических описаниях задается с помощью схемы – RDFS. Усилиями сообщества Web разработчиков и консорциума W3C была разработана более продвинутая версия RDFS – язык Web онтологий(OWL), в которую добавлена возможность более выразительного описания классов и отношений между ними.

Основанный на языке LBASE, в качестве ядра которого используется хорошо понимаемая логика первого порядка, OWL представляет собой одно из наиболее развитых средств семантического описания ресурсов. Существует три разновидности OWL - OWL Lite, OWL DL, OWL Full.

OWL Lite предназначен для тех пользователей, которых в основном интересует классификационная иерархия и простые ограничения.

OWL DL предназначен для тех пользователей, которые хотят максимум выразительности, сохраняя при этом полноту вычислений, т.е. все выражения будут гарантированно вычисляемыми и все вычисления будут завершены за конечное время.

OWL Full предназначен для пользователей, которые нуждаются в максимальной выразительности и синтаксической свободе без вычислительных гарантий.

Для организации программной обработки семантических описаний используется декларативный язык запросов Query, наиболее полной реализацией которого является программный обработчик Jena от Hewlett-Packard. Jena содержит реализации наиболее общих методов для работы с моделями онтологий, таких как навигация и обработка моделей онтологий в виде - троек, наборов ресурсов со свойствами и т.д. Следует отметить также то, что Jena обеспечивает возможности построения модели данных онтологии, нахождения различий между моделями, интеграции онтологий и т.п.

Таким образом, на основе рассмотренных технологий , может быть организована автоматизированная, а для некоторых областей и автоматическая обработка информации с учетом ее смысла.

5. Модель интеллектуальной системы обработки информации, построенной на основе технологий .

Четко определенный семантический базис предметной области, позволяет организовать более “осмысленный” анализ информации в электронных документах. В чем это выражается, во-первых, любые естественно-языковые конструкции, с помощью которых может выражаться та или иная информация, содержит в явном или неявном виде предмет обсуждения, семантическую идентификацию которого можно осуществить благодаря наличию онтологии предметной области, кроме того, могут быть определены потенциальные взаимосвязи между объектами и идентифицированы в тексте. Во-вторых, информация в электронных документах, особенно та, которая публикуются в Интернете, часто либо структурирована, либо содержит структурированные островки информации, в виде списков, таблиц. Идентификация описания информации, в виде названий атрибутов, составляющих заголовки структурированной информации, также может быть осуществлена с помощью онтологии. Не имея онтологии, островки структурированной информации, могут быть неправильно разделены программным обработчиком на значения и описания этих значений, т.е. будут неправильно построены цепочки “атрибут-значение”, описывающие список или таблицу. Поэтому представляется целесообразным использование онтологии предметной области для организации идентификации семантических объектов и их взаимосвязей в представлении информации в электронных документах.

Идентификация семантических объектов информации определяется как процесс отображения составляющих естественно-языковых конструкций на семантические описания объектов в онтологии предметной области. Здесь одну из главных ролей, выполняет полнота описания предметной области, т.е. онтологии. Кроме того, в онтологии должны быть учтены синонимы, соответствующие тому или иному семантическому объекту. Проблема омонимии языков может быть решена путем идентификации семантических объектов и проверки на допустимость возможных взаимосвязей этих идентифицированных объектов.

Таким образом, анализ электронного документа сводиться к следующим, последовательно выполняемым шагам, как изображено на Рис.1.

Результатом анализа является семантически размеченный документ, т.е. документ в котором выделены семантические объекты, идентифицированы основные взаимосвязи. В качестве языка семантической разметки может выступать может выступать один из языков, применяемых в для описания метаинформации об объектах, например, формат описания ресурсов /RDFS или OWL. Наиболее целесообразным представляется генерация семантической разметки в формате, совместимом с языком описания знаний онтологии предметной области, что создаст естественную среду для интеграции полученных семантических описаний в онтологию предметной области.

Моделирование процесса анализа документов на основе технологий позволил построить модель программной системы обработки информации электронных документов, изображенную на рис.2.

Основу этой программной системы составляет иерархически организованный проект онтологии, состоящий из главной онтологии и онтологий более низких уровней, ответственных за решение каких-либо специфических для конкретной предметной области задач. Программный обработчик документов идентифицирует семантические объекты, выделяя синтаксические конструкции языка документа и определяя их семантические характеристик путем отображения на онтологию предметной области.

Для управления проектом онтологии представляется целесообразным применение программного комплекса -2000[4], представляющего собой исключительно мощное средство для создания и поддержки онтологий, использующее OKBC – совместимый интерфейс управления знаниями[5], что позволяет Prot?g?-2000 использовать единый интерфейс для работы с различными языками семантической разметки. Кроме того, благодаря возможности расширения функциональности программного комплекса -2000 за счет добавления соответствующих плагинов – встраиваемых функциональных модулей, можно эффективно управлять содержимым онтологии, так использование встраиваемого плагина, построенного на основе пакета Jena от Hewlett Packard позволяет -2000 манипулировать различными онтологиями с целью интеграции, например, с проектом онтологии верхнего уровня, а также выполнять различные задачи по трансформации онтологии с одного языка описания знаний в другой, генерации различных представлений и т.д.

Выводы

В результате проведенных исследований разработан подход к анализу документов и организации автоматизированной обработки электронных документов на основе онтологий предметных областей и технологий , построена модель интеллектуальной системы обработки информации электронных документов, определены основные требования для успешной программной идентификации семантических объектов и их взаимосвязей.

Литература

1. Neches R., Fikes R., Finin T., Gruber T., Patil R., Senator T., Swartout R. Enabling Technology for Knowledge Sharing // AI Magazine.- Vol. 12.- № 3, Fall 1999.
2. Berners-Lee T. Weaving the Web.- Harper, San Francisco, 1999.
3. Проект http://www.w3c.org/sw
4. Проект Prot?g? http://prot?g?.stanford.edu
5. Open Knowledge Base Connectivity (OKBC) http://www.ai.sri.com/~okbc/
6. Shelley Powers. Practical .- O'Reilly, 2003.- 350 c.
7. /XML Syntax Specification http://www.w3.org/TR/-syntax-grammar
8. Premier http://www.w3.org/TR/-primer/
9. Спецификация языка RDFS http://www.w3c.org/rdfs

Рисунки


Анализ документа на  основе онтологии предметной области

Рис 1. Анализ документа на основе онтологии предметной области


Модель  интеллектуальной системы обработки информации

Рис. 2. Модель интеллектуальной системы обработки информации