Google поддерживает семантическую разметку (RDFa)!!!

Семантика наступает на WEB...  RDFa самый простой способ внедрить семантику в веб-страницы.

Перевод стандарта RDFa можно почитать здесь.

Google станет первой машиной поиска, которая начнет учитывать семантику веб-страниц.

С этим шагом, даже те, кто относился снисходительно к технологиям Semantic Web, пересмотрят свое отношение. А те кто не захотят, потеряют прибыли. Кстати говоря, несмотря на критические замечания менеджмента Google в сторону Semantic Web, поддержка семантических технологий  у  Google появилась первой.

Думаю это может говорить о положительных тенденциях... ))

Подборка ссылок по теме от Новитского Александра:

http://googleblog.blogspot.com/2009/05/more-search-options-and-other-updates.html

http://www.jenitennison.com/blog/node/104
http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=146898
http://dltj.org/article/google-rdfa/


Как я написал в одном комментарии:

ДА СОДРОГНУТЬСЯ ВСЕ SEOШНИКИ!
Как только семантическая разметка начнет влиять на выдачу результатов google. Все продвигаемые сайты станут семантически размечены. Скорее всего "черной" семантикой, но ...прийдет "злобный" Pellet, мы к нему напишем правила фильтрации, и сделаем логический вывод и все станет "белым и пушистым"
А если это будет так, то Яндекс без поддержки семантических технологий будет выглядеть бледно. А жаль, кто-кто, а они могли бы внедрить поддержку этого формата уже давно.

На странице переводов стал доступен перевод рекомендации "Язык запросов SPARQL для RDF".

Таким образом, читатели SHCHERBAK.NET, могут получить доступ к важной подборке переводов нормативных документов , а именно к рекомендациями RDFa, SPARQL, SPARQL PROTOCOL и черновику рекомендации OWL 2.
Читать продолжение »

Ув. читатели SHCHERBAK.NET, вашему вниманию предлагаются материалы статьи "Semantic Web как новая модель информационного пространства Интернет" авторов  Ф.И. Андон, И.Ю. Гришановой и В.А. Резниченко.

В этой статье описаны базовые концепции и архитектура Semantic Web, а также положение дел по разработке данного проекта по состоянию на конец 2007 года. Выделены проблемы, которые стоят перед мировым сообществом для дальнейшего развития Semantic Web.

Полную версию статьи читаем здесь !

Щербак Сергей: Статья мне очень понравилась и я ее особенно рекомендую тем, кто хочет максимально быстро погрузится в  мир семантического веба (обязательна для прочтения).

От имени читателей SHCHERBAK.NET хочу выразить благодарность  Ирине Гришановой за предоставление материалов интересной статьи!

Обработка RDF-графов с помощью XSLT

Как обрабатывать XML/RDF-синтаксис RDF с помощью XSLT читаем здесь:http://shcherbak.net/rdf_xslt_tech/

УДК 519.7:007.52

Н.В. Рябова, С.С. Щербак

Статья посвящена актуальной проблеме повышения эффективности компьютерного анализа информации применительно к технологиям Semantic Web. Рассмотрены вопросы разработки технологии автоматической обработки RDF-графов для получения интуитивно понятных представлений содержимого произвольных RDF-графов.

1. Введение

Стремительное развитие компьютерных информационных технологий привело к тому, что сегодня компьютер, помимо выполнения ставших уже традиционными задач обработки числовой и символьной информации, программирования игр, создания компьютерных презентаций и т.п., приобрел совершенно новую, революционную по своей сути функцию - предоставление постоянного входа, своеобразного «окна» в мировое информационное киберпространство. Технологии World Wide Web (WWW) позволяют объединять в Интернет - пространстве гигантское количество пользователей всех уровней, предоставлять им различного вида сервисы и снабжать информацией (правда, не всегда релевантной запросу или даже вовсе нежелательной, так называемый spam в электронной почте).

На наших глазах WWW пережила уже два этапа развития: вначале предоставляя информацию в виде вручную сгенерированных HTML-страниц, затем появилась возможность генерировать страницы из баз данных, хранящихся на Web-серверах. Однако оба эти этапа были ориентированы на обработку информации человеком-специалистом и читателей – пользователей компьютеров. Чтобы противостоять неуклонному и неуправляемому расширению «всемирной паутины», которая стала угрожающе запутываться, ведущими учеными и разработчиками в области Computer Science был выдвинут лозунг «превратить информационное Интернет-пространство в пространство знаний». Web следующего, третьего поколения, должна обеспечивать машинную обработку информации с учетом ее семантики (machine accessible semantics).

Новую парадигму Web ее создатели и идеологи назвали Semantic Web [1], делая тем самым акцент на требовании эксплицитного представления семантики в Web, понятного для программных агентов. Росту популярности и широкому распространению технологий Semantic Web способствует разработка и внедрение WWW-консорциумом () ряда инициатив, связанных со стандартизацией синтаксической и семантической разметки электронных документов, особенно технологий XML и RDF, поддерживающих семантическую совместимость. В связи с этим, в данной работе предлагается технология обработки RDF-графов необходимая для получения интуитивно понятных представлений содержимого RDF графов.

The Resource Description Framework (RDF) является языком общего назначения для представления информации в Web [2]. RDF применяется для того, чтобы предоставить информацию о ресурсах в терминах простых свойств и значений этих свойств. Ресурсом может выступать все что угодно, чему можно приписать некоторый URI(Uniform Resource Identifiers), даже то, что потенциально может быть не доступно через Интернет. Идея описания ресурсов в терминах простых свойств, их значений и применения URI для идентификации ресурсов дает возможность представить информацию о ресурсах в RDF как граф узлов и дуг, представляющих ресурсы, их свойства и значения этих свойств [3].

2. XML/RDF синтаксис RDF

XML/RDF синтаксис позволяет выразить RDF данные c помощью языка расширяемой разметки XML, что отчасти решает проблему интеграции RDF с Интернет - технологиями и дает возможность применять RDF для обмена метаданными в среде Интернет. Кроме того, XML/RDF-синтаксис RDF позволяет применять для обработки RDF-конструкций технологии, которые разрабатываются для XML, такие как XPath [4], XSLT [5] и др.
Согласно [2], RDF-граф, записанный в синтаксисе XML/RDF, представляется в последовательной форме пригодной для машинной обработки. Кроме того, этот синтаксис позволяет различные формы записи одного и того же RDF- графа, различные сокращенные формы записи и т.п.
3. RDF/ и Semantic Web
Основу Semantic Web[6] составляет модель данных RDF – “объект – атрибут- значение”, что позволяет описывать ресурсы в виде наборов утверждений о свойствах этих ресурсов. Особенность модели данных RDF в том, что все компоненты этой модели идентифицируются с помощью универсальных идентификаторов(URI). Благодаря этой особенности RDF позволяет объединять информацию с различных источников, что может быть весьма полезно для обеспечения совместного использования информации в рамках Web.
Терминологическая база, применяемая для описания ресурсов, определяется соответствующей RDF-схемой – иерархией терминов (понятий) предметной области.
RDF схемы разрабатываются с помощью языка описания словарей RDF терминов - [7].
4. RDF и Protege 2000

Несколько слов о протоколе Open Knowledge Base Connectivity (OKBC)[8]. Этот протокол разработан в Стэнфордском университете для обеспечения единства запросов и создания унифицированного интерфейса для знание-ориентированных систем, основанных на фреймах.

Проект Protege-2000[9] является программной средой для создания и редактирования баз знаний и онтологий. Модель знаний Protege-2000 является OKBC - совместимой, что позволяет ей быть метамоделью над другими моделями знаний. Таким образом, в Protege-2000 применяется один настраиваемый интерфейс для обработки языков семантической разметки. Одним из таких языков является RDF. Что делает Protege-2000 привлекательной средой разработки RDF описаний документов, тем более что при необходимости Protege-2000 позволяет перевести все существующие наработки в Protege-2000 на другие языки семантической разметки, например, OWL. С различиями в моделях знаний, применяемых в Protege-2000 и модели RDF, можно познакомиться здесь[10]. Следует отметить, что реализация стандарта RDF в Protege-2000 не поддерживает некоторых конструкций RDF[11]. Кроме того, форма записи RDF- конструкций, генерируемых средой Protege-2000, является более предсказуемой, в отличие от разнообразных форм записи одних и тех же RDF-конструкций, сокращенных форм, которые можно построить с помощью обычного текстового редактора, что делает среду Protege-2000 привлекательной для разработчиков решений, связанных с обработкой онтологий. Предлагаемая технология обработки RDF графов ориентирована в большей степени на обработку графовых конструкций Protege-реализации стандарта RDF.
5. Технология XSLT

Для обработки XML - документов можно применить различные языки программирования, например, Java с использованием низкоуровневых API, таких как SAX или DOM, но наиболее удобным представляется язык XSLT (eXtensible Stylesheet Language – Transformation, который получил статус рекомендации 16 ноября 1999г.) – Расширяемый язык таблиц стилей для трансформации [5]. Одним из преимуществ этого языка является его схожесть с продукционными правилами и относительная схожесть с инструкциями на естественном языке, а главное этот язык позволяет трансформировать структуру XML документов в другое представление и/или формат. Общая схема трансформации документа представлена на рисунках 1 и 2. Для того чтобы трансформировать документ необходимо правила трансформации XSLT применить к документу. Трансформация выполняется с помощью XSLT-процессора. В результате трансформации XSLT- процессор генерирует необходимое представление исходного документа (сериализация документа).

Общая  схема преобразования документа с использованием XSLT

Рисунок 1. Общая схема преобразования документа с использованием XSLT

Сериализация RDF-графа

Рисунок 2. Сериализация документа в нужном формате.

6. Технология обработки RDF- графов с помощью XSLT

Документы RDF, выраженные в синтаксисе XML/RDF являются неудобными для чтения человеком, поэтому для трансформации содержимого документа RDF в удобное, интуитивно понятное для человека представление с системой гипертекстовых ссылок, отображающих связи между конкретными сущностями RDF, необходимо обработать конструкции RDF с помощью технологии XSLT.
Важное замечание, изначально технология XSLT была предназначена для обработки деревьев, представляющую структуру XML документов, но благодаря продуманному механизму навигации по деревьям ее можно с успехом применять для навигации и обработки RDF-графов.
Документ RDF представляет собой выраженные в последовательной форме иерархии классов, экземпляров классов, атрибутов. Каждый объект (экземпляр класса) иерархии содержит уникальный идентификатор(URI), который служит для идентификации объекта в иерархии объектов. В терминах RDF свойство объекта rdf:about содержит уникальный идентификатор этого объекта. Кроме того, объединение объектов в иерархию происходит тоже с использованием URI.
В терминах RDF атрибут rdf:resource с URI объекта указывает, с каким объектом имеет связь объект, содержащий данный атрибут rdf:resource. Объединение множества объектов иерархии классов с помощью URI образует RDF – граф. Последовательная форма записи RDF - графа подразумевает последовательное описание экземпляров классов в синтаксисе RDF с указанием URI этого экземпляра и, в случае наличия, списка URI взаимосвязанных объектов. На рис. 3 изображен RDF – граф в последовательной форме с комментариями.

Последовательная форма представления RDF-графа

Рисунок 3 – Последовательная форма представления RDF-графа
Учитывая то, что для обработки RDF-графов выбрана технология XSLT, а базовым строительным блоком этой технологии являются таблицы стилей с шаблонами преобразования, описывающие конкретное преобразования древовидной структуры в виде правил обработки узлов, наборов узлов этой структуры, адаптируем стандартное для обработки XML-документов описание таблицы стилей для обработки доументов RDF. Для этого XSLT-шаблон необходимо привести к виду, как представлено ниже в разделе “Базовый XSLT файл для преобразований RDF – графа”. Комментарии к XSLT – инструкциям добавлены только в описательных целях, их не нужно переносить в реальные файлы обработки RDF – графов. Далее необходимо определить точку входа в RDF граф, т.е. имя класса, экземпляры которого будут обрабатываться, и представление которого необходимо получить. Имя класса можно задать, определив соответствующую сущность, например, таким образом <!ENTITY rdf_node "Имя класса">. Потом необходимо описать преобразование в соответствующем rdf_node шаблоне, например, так:

<:apply-templates select="ns:&rdf_node;">
<!—тело преобразования -->
<:template>

Тело преобразования подразумевает выполнение одной или нескольких из ниже перечисленных операций, которые сформируют соответствующее требованиям конкретной задачи представление RDF – графа.
Основные операции, которые необходимы для получения различных представлений RDF – графа:

1. Вывод значения атрибута узла
2. Вывод значений атрибутов дочернего узла
3. Вывод значений атрибута подузла узла, который является дочерним узлом текущего узла
4. Сортировка по значению атрибута
5. Идентификация узлов RDF-графа

Вывод URI конкретного узла
Вывод URI подузлов текущего узла

6. Вывод -label узла RDF графа
7. Выделение и обработка узла с конкретным значением атрибута

Описание операций с пояснениями к XSLT-шаблонам представлены ниже. Для выполнения XSLT шаблонов представленных в описаниях операций необходимо модифицировать базовый XSLT файл или воспользоваться XSLT-файлами[15].

Процесс преобразования RDF в формат HTML представлен на рис. 4.

 Общая схема преобразования  RDF -документа с использованием таблиц стилей XSLT

Рисунок 4 – Общая схема преобразования RDF -документа с использованием таблиц стилей XSLT.

Базовый XSLT файл для преобразований RDF – графа

Базовый XSLT файл для преобразований RDF – графа

Рисунок 5. Базовый XSLT файл для преобразований RDF – графа.

Вывод значения атрибута узла

Для вывода значения атрибута rdf_attr rdf_node, необходимо воспользоваться следующим шаблонным правилом:

Вывод значения атрибута узла

Замечание. Учитывая то, что данная инструкция применяется внутри цикла по выводу узлов RDF-графа, то более правильно будет говорить, что данная инструкция выводит значения атрибута узлов RDF-графа. Данное замечание применимо ко всем рассматриваем шаблонам.

Вывод значений атрибутов дочернего узла

Для вывода значений атрибутов всех подузлов node2 узла node1, необходимо применить следующее шаблонное правило:

Вывод значений атрибутов всех подузлов node2  узла node1

Описание шаблона:

Для всех подузлов node2 узла node1, rdf:resource которых содержит ссылку(URI) на конкретный узел node2

<:for-each select ="@rdf:resource">

создать переменную temp и сохранить в нее значение текущего узла, т.е. значение rdf:resource, содержащее конкретное URI узла node2.

<:variable name="temp" select="."/>

Для всех узлов rdf_instance rdf:about, которых соответствует rdf:resource rdf_node

<:for-each select ="//ns: node2 [@rdf:about=$temp]">

Вывести значение атрибута(ов)

<:value-of select="@ns:&rdf_attr"/><br/>

Вывод значений атрибута подузла узла, который является дочерним текущего узла

Для вывода значений атрибута rdf_attr всех подузлов node3 узлов node2, которые является подузлами текущих узлов(node1), необходимо применить следующее шаблонное правило:

Вывод значений атрибута rdf_attr всех подузлов node3 узлов node2

Шаблон для обработки узла node3

Шаблон для обработки узла node3

Сортировка по значению атрибута

Для того чтобы отсортировать узлы node1 по атрибуту rdf_attr, необходимо добавить <:sort select="@ns:&rdf_attr;"/> в шаблонное правило обработки узлов node1:

Сортировка по значению атрибута

Идентификация узлов RDF-графа

Идентификация узлов RDF-графа происходит по URI узлов. Каждому объекту, который описывается в RDF- графе, поставлено в соответствие уникальный идентификатор, однозначно идентифицирующий объект в RDF-графе. Таким образом, зная URI объекта можно получить доступ к его описанию.
Вывод URI конкретного узла

Чтобы вывести значение URI узла, необходимо в шаблонном правиле определить переменную и инициализировать ее значением атрибута rdf:about, как показано в примере:

Вывод URI конкретного узла

Вывод URI подузлов текущего узла

Чтобы вывести значение URI подузлов, необходимо в шаблонном правиле определить переменную и инициализировать ее значением атрибута rdf:resource, как показано в примере:

Вывод URI подузлов текущего узла

Вывод -label узла RDF графа

Чтобы вывести значение -label узла, необходимо добавить следующую инструкцию в шаблонное правило:

<:value-of select="@:label"/><br/>

Выделение и обработка узла с конкретным значением атрибута

Чтобы выделить узел из других по значению некоторого атрибута необходимо применить инструкцию <:if test> во время перебора узлов, т.е. последовательно обрабатывая каждый узел, ищем узел с необходимым значением атрибута:

Выделение и обработка узла с конкретным значением атрибута

7. Алгоритм преобразований RDF - графа с помощью процессора XSLT – Saxon [8]
1. Разработать RDF-документ с помощью редактора онтологий Protege .
2. Составить файл с описанием требуемого преобразования на XSLT, модифицировав соответствующим образом базовый XSLT файл для преобразований RDF – графа [предлагаемый в работе], или прилагаемые к работе образцы.
3. Изменить кодировку RDF файла, генерируемого Protege-2000 c UTF-8 на windows-1251 для платформы Windows, или с UTF-8 на KOI8-R для Linux, иначе XSLT процессор сгенерирует множество ошибок. Для этого открываем файл с расширением .rdf и изменяем <?xml version='1.0' encoding='UTF-8'?> на <?xml version='1.0' encoding='windows-1251'?> (пример для Windows).
4. Команда для запуска преобразования c помощью процессора XSLT Saxon версии 7.8: java -jar saxon7.jar -o [имя результирующего файла].htm [имя rdf файла].rdf [имя файла с XSLT преобразованием].
5. Пример: java -jar saxon7.jar -o developer.htm PersonalPage.rdf rdf_developer.
6. Примечание: предполагается, что rdf файлы, генерируемые Protege-2000 находятся в рабочей директории процессора XSLT, иначе необходимо указывать полные пути к файлам rdf, xslt.
8.Системные требования
1. Любая операционная система, на которой может работать виртуальная машина Java, например, Windows, Linux, FreeBSD.
2. Виртуальная машина Java не ниже версии 1.4.2
3. Java реализация бесплатно-распространяемого XSLT-процессора Saxon версии не ниже 7.8, “умеющего” работать с шаблонами преобразований XSLT версии 2.

9. Достоинства технологии

1. Описание особенностей обработки RDF-графов, которые позволяют применить мощные механизмы XSLT технологии для трансформации RDF –графов.
2. Практическое применение технологии RDF для управления содержимым WEB – сайтов, порталов и др. на основе среды Protege.
3. Время, затрачиваемое на написание RDF-преобразования с помощью описанной технологии, приблизительно равно времени, затрачиваемом на написание XML преобразования.
10. Недостатки технологии

Основные недостатки обусловлены, прежде всего, тем, что основное предназначение XSLT обработка древовидных структур, поэтому иногда бывает сложно выполнить преобразование графа к нужному виду. Кроме того, технология преобразования RDF –графов не избавляет от таких недостатков XSLT технологии, как:

1. Отсутствие средств, позволяющих производить точные математические вычисления;
2. Повышенная сложность и иногда невозможность реализации сложных трансформаций документов;

Выводы
Предложенная технология преобразований RDF-графов успешно работает с любыми XSLT процессорами, которые совместимы со стандартом XSLT версии 2. Но для выполнения большинства операций над RDF- графами достаточно процессора XSLT версий 1.0, единственно, что функциональность преобразований уменьшиться, за счет отсутствия возможностей характерных для технологии XSLT версии 2.
Технология успешно тестировалась c процессором XSLT от Microsoft, поставляемым вместе c msxml, а также с процессором Xalan на платформах Linux и Windows.
Кроме того, технология успешно применяется для создания проекта Web-портала ontolib.com

Литература

1. Berners-Lee T. Weaving the Web.- Harper, San Francisco, 1999.
2. RDF/XML Syntax Specification http://www.w3.org/TR/rdf-syntax-grammar
3. RDF Premier http://www.w3.org/TR/rdf-primer/
4. Спецификация языка XPath http://www.w3.org/TR/xpath
5. Спецификация языка XSLT http://www.w3.org/TR/xslt
6. Проект Semantic Web http://www..org/sw
7. Спецификация языка http://www..org/
8. Open Knowledge Base Connectivity (OKBC) http://www.ai.sri.com/~okbc/
9. Проект Protege http://protege.stanford.edu
10. http://smi-web.stanford.edu/projects/protege/protege-rdf/protege-rdf.html
11. RDF Schema Support in Protege-2000 http://protege.stanford.edu/doc
12. Кэй М. XSLT. Справочник программиста. – Пер. с англ. – СПб.: Символ-Плюс, 2002. – 1016 с.: ил.
13. Валиков А.Н. Технология XSLT. – CПб.: БХВ-Петербург, 2002. – 544 с.: ил.
14. Shelley Powers. Practical RDF.- O'Reilly, 2003.- 350 c.

Вопросы? {FAQ}

Здесь вы можете задавать  вопросы по  Semantic Web и связанным технологиям и средствам.

Мы по мере возможности будем на них отвечать ))

Наиболее интересные вопросы будут рассмотрены и ответы на них будут опубликованы в виде заметок на сайте ))

Вопрос 1:

Где взять онтологии для использования в своих проектах?

Ответ:

Вы можете использовать открытую онтологию OpenCyc (весьма легко интегрируется с Jade).

Кроме того, доступны для скачивания онтологии на DBpedia и protege.stanford.edu.


Вопрос 2:

каким образом можно использовать настраиваемый интерфейс Protege для графовой модели памяти? т.е. как бы подменить используемую в Protege фреймовую модель на графовую.
где можно об этом почитать?

Ответ:

Подменять не нужно, просто надо выбрать какую использовать версию редактора Protege - Protege-Frames или Protege-OWL.

Графовый (Protege-OWL) описан здесь

Protege-Frames описан здесь. Этот Protege использует протокол Open Knowledge Base Connectivity. что это почитать можно на ontolib.com в глоссарии и ссылки получить можно там же.


Вопрос 3:

В каких больших коммерческих проектах технологии SW применены? Хотелось бы увидеть архитектуру этих приложений и по-возможности экономический эффект от применения semantic web по сравнению скажем с WEB 2.0.

Ответ:

Один из наиболее интересных коммерческих проектов Semantic Web это проект DBin.

Проект весьма неоднозначный, с одной стороны в нем есть черты , с другой - социальной сети. О нем немного можно почитать здесь.

В качестве основы для приложения Dbin используется среда Eclipse и новая парадигма Semantic Web Communities.

Анализом экономического эффекта от внедрения SW я не занимался, но при прочих равных разработку программного обеспечения в парадигме Semantic Web выполнить проще, а значит и дешевле. А возможности при этом будут выше. Как минимум синтаксическая и семантическая интероперабельность приложения SW будет гораздо выше, чем у любого другого приложения, построенного на классических технологиях.

К слову, интероперабельность - это способность к взаимодействию!

Вопрос 4:

Что полезного дает использование RDF для описания структуры сайта и для “сайтоделания” вообще?
Разве недостаточно “голого” XML? Насколько существенно использование в проекте именно RDF-графов?

Ответ:

RDF - это средство Semantic Web, которое сделает когда-то возможной автоматическую обработку информации агентами!

RDF - это семантическая разметка данных. Анализ такой разметки позволяет агенту делать логический вывод.

XML ориентировался на отделение структуры данных от их визуального представления, а RDF позволил внести в структуру данных XML понятие семантики. Т.е. позволил данные на веб-страницах представлять в виде наборов связанных отношениями объектов.

Анализ отношений между объектами и есть основа логического вывода.

В своих проектах более целесообразно использовать OWL (как более развитую альтернатива RDF).

Если Вы все-таки останавливаете свой выбор на RDF, то более эффективным будет использование RDF в синтаксисе n3.

RDF в XML/RDF синтаксисе весьма "тяжёлое" решение.

Конкретно, на сайте ontolib.com были доступны два вида информации, первый - html, второй - rdf со схемой данных . Внешняя программа анализируя содержимое сайта могла выделить ссылку на RDF+, а уже по ним эта программа должна (в идеале) осуществлять более точный и "осмысленный" анализ содержимого сайта.


Вопрос 5:

Где можно скачать руководство пользователя для Protégé? русскоязычный вариант предпочтительнее, но и на английском дока не помешала бы…

Ответ:

Руководства пользователя, программиста и другая документация по Protege на английском здесь.

Переводы руководств (и многое другое) можно скачать здесь!


Вопрос 6:

Можно ли визуализировать RDF с помощью CSS?

Ответ:

Нет, но можно с помощью .


Вопрос 7:

Допустим документы со связанными с ними RDF-файлами. Если ставить задачу написания поисковика по метаданным, то существует ил язык запросов к такому поисковику? Что уже сделано в этом плане вообще? Спасибо.

Ответ:

Задачу поисковика по метаданным решать не целесообразно. Уже теоретически и практически эту задачу решили, причем давно! Вот решать задачу поиска документов с учетом метаданных - это другое дело! Задача из серии неподъемных, но решив ее, Вы будете на высоте. Суть проблемы в том, что есть документ и соответсвующая ему онтология (или метаданные), надо провести поиск по содержимому документа на основе метаданных описывающих структуру и семантику этого содержимого. В случае, если вы все таки хотите только по метаданным искать, тогда SPARQL+OWL (или SWRL) может решить вашу задачу!

Вопрос 7.1:

Говоря о задаче поиска документов с учетом метаданных, что конкретно вы имеете в виду? Как перейти от ЕЯ запроса к SPARQL, или что? Непонятно.

Ответ: Нет, я имел в виду, что каждый текст нужно представить в виде связанных между собой метаданных, по которым и надо проводить поиск!  такие метаданные в принципе можно назвать семантическими аннотациями текста (но это ущербное понятие мне не нравиться, особенно если учитывать, что я имею ввиду полное семантическое описание текства - причем в некоторой форме это описание можно приравнять  экземпляру объекта онтологии)

В комментариях можно обсудить вопросы и ответы!


Задать вопрос: