Семантизация 2: Yandex на пути в Semantic Web!

"API Поиска по блогам" Яндекса поддерживает семантическую разметку FOAF (Friend of a Friend)!

"API Поиска по блогам" - это инструмент, позволяющий использовать Поиск Яндекса по блогахна любом сайте, будь-то личный блог, форум или что-нибудь подобное. С помощью "API Поиска по блогам" можно проиндексировать личный блог или все блоги на какой-либо платформе и осуществлять детальный поиск с учетом семантической разметки.

Поддерживаемые Yandex'ом теги FOAF описаны здесь.

На расширение FOAF от Yandex можно посмотреть здесь! Обратите внимание расширение написано на  OWL!

Почему   "Семантизация 2"?  Потому что совсем недавно  Google объявил о поддержке семантических разметок (). Прочитать заметку об этом можно здесь! В тоже время, решение от Yandex, мы уже сейчас можем использовать для решения задачи поиска на наших сайтах.

PS. Спасибо Алику Кирилловичу за информацию.

А. X. Перез Чернов

Белорусский государственный университет, Минск, Беларусь
alex.pereztchernov @ gmail.com

В настоящий момент все большее практическое распространение принимает концепция Linked Data Web [1], в рамках которой веб рассматривается как ориентированный помеченный псевдограф (разрешены петли и кратные ребра). Преимущественно, вершинами такого графа являются Интернет страницы и их именованные фрагменты
(identified fragment), причем в качестве схемы именования вершин используется механизм URI (Unified Resource Identifier). В качестве ребер графа преимущественно используются соответствующие Интернет ссылки между страницами. В качестве пометки ребра используется специальное отношение, записываемое дополнительно (например, с помощью HTML атрибута rel) в описание Интернет ссылки. По такому графу легко составить набор троек «Субъект - предикат – объект», где субъект и объект – вершины графа, а предикат – именованная ссылка между ними. Такие тройки называют (Resource Description Framework) триплами, а соответствующий граф (если в качестве имен предикатов и некоторых вершин используются категории выбранной предметной об-
ласти) – формализацией некоторой области знаний над объектами, представленными в
вебе. Подобная формализация знаний веба позволяет более точно находить и опериро-
вать соответствующей информацией.

После того, как информация предоставлена в открытый доступ – становится актуальным вопрос контролируемого доступа к ней. Пусть пользователь Ромео хочет посмотреть защищенную страницу Джульетты. И пусть оба из них имеют персональные Интернет страницы (WebID), являющиеся вершинами Linked Data графа. Пусть также
на WebID странице Джульетты представлена информация о том, что Ромео является ее другом («Я» «дружу» с «Ромео», где предикат-ссылка «дружу» описывается с помощью FOAF словаря). Наиболее простым способом контролируемого доступа пользователей к ресурсам Linked Data веба в настоящее время является механизм FOAF+SSL [2]. Следуя этому механизму, Ромео должен создать пару открытого и закрытого крип-
тографических ключей, поместить открытый ключ на свою WebID страницу, и инсталлировать в свой браузер соответствующий X509 сертификат (подписанный закрытым ключом). В этом сертификате, кроме стандартных полей, должна присутствовать ссылка на WebID страницу его владельца. Сервер Джульетты, осуществляющий контроль доступа к ее страницам, сможет легко распознать WebID пользователя-владельца сер-
тификата и далее проверить, входит ли последний в число «друзей», представленных в
соответствующем FOAF файле.

В настоящий момент существует несколько открытых и коммерческих проектов, реализующих описанную FOAF+SSL схему контролируемого доступа к ресурсам. Описанная схема проверки довольна проста, использует уже разработанный функционал SSL-сертификатов и, в целом, алгоритмически эффективна. Гораздо больший вопрос
возникает в том, как эффективно осуществить изменение части данных Linked Data графа, представленных на фиксированном ресурсе (например, как обновить FOAF файл «друзей», собственную WebID страницу, а также эффективно получить доступ к выбранной части страницы).

Для решения этой проблемы можно использовать «тяжелый» подход, в рамках которого часть графа сохраняется в специальной (реляционной) базе данных, и, в дальнейшем, доступ и работа с этой частью осуществляется с помощью специальных SPARQL-update запросов. Второй вариант решения задачи доступа и обновления графа
– предоставить специальные «облегченные» (как со стороны API, так и используемых серверных технологий) механизмы взаимодействия с Интернет страницами. В последнем случае, пользователь сможет легко обновлять и сохранять необходимые «статические» ресурсы, как в ручном режиме (FTP доступ), так и автоматически (через специальные модули веб-сервера). Порог доступа к использованию FOAF+SSL технологии на практике в таком случае будет довольно низким.

Вопрос стандартизированного и легкого обновления Интернет ресурсов находится последнее время в постоянном внимании, а само направление получило название Writable Web. В работе сделан обзор таких стандартов, а также предложен алгоритм обновления и чтения LinkedData ресурсов, пригодный для использования в облачных
вычислениях (Cloud computing).

Список литературы
1. Т. Berners-Lee. Design issues: Linked data, 2006. [Электронный ресурс]. – Режим доступа:

http://www.w3.org/DesignIssues/LinkedData.html

2. FOAF & SSL: creating a global decentralised authentication protocol, W3C Workshop on the Future of Social
Networking, 2009 [Электронный ресурс]. – Режим доступа:

http://www.w3.org/2008/09/msnws/papers/foaf+ssl.html


Международная научно-практическая конференция "Веб-программирование и Интернет-технологии WebConf09": Сб. матер. Междунар. науч.-практ. конф. Минск, 8-10 июня 2009г.- Мн.: Институт математики НАН Беларуси, 2009.-112с.

Семантические плагины Firefox (часть 2)

В продолжение заметки о семантических плагинах FireFox...

Итак, чем радует нас Mozilla Foundation в семантической сфере:

FOAFox 0.2.1 - плагин для обнаружения профилей FOAF на веб-страницах. Напомню, FOAF - акроним понятия Friend-of-a-Friend - /XML формат для описания людей и их взаимоотношений в .

Внедренный в веб-страницу профиль FOAF можно с помощью этого плагина просмотреть через HTML-интерфейс.

Semantic Turkey 0.6.5 - семантический "закладочник"(Semantic Bookmarking tool) и средство разработки онтологий. С одной стороны, это исследовательский проект  ART Research Group, позволяющий создавать онтологии на языках /RDFS и OWL. С другой стороны, с помощью этого плагина можно сформировать онтологию на основе информации о посещенных веб-страницах. Кроме того, есть средства для экспорта полученных онтологий. Среди недостатков, отмечу следующее - несмотря на то, что плагин, ориентирован на использование в  , домашняя страница этого плагина в  FF нормально не отображается - пришлось заходить на сайт через Safari. Далее, плагин очень интересный, но текущая функциональность скромна ( даже до возможностей редактора онтологий Protege бежать еще и бежать)  и чувство недоделанности проекта не покидало меня на протяжении всего знакомства с плагином. Обратить внимание на этот плагин стоит обязательно, но мой вывод - надо подождать релиза! А так, конечно, must have!

Headr surf tool 0.0.1.21 - инструмент для семантического серфинга - дополнительная панель инструментов для (сходу минус проекту - ну нельзя иметь в одном маленьком файрфоксе десяток панелей инструментов). Тем более задача плагина анализировать просматриваемые веб-страницы с целью рекомендации для прочтения связанных по смыслу веб-страниц и сайтов.  Я считал и считаю, что такие инструменты должны вызываться по нажатию кнопки на стандартной панели инструментов( или в статус баре), как, например, Zotero - почему-то о потенциальных пользователях разрабытываемых средств никто не хочет думать - а ведь для них все делается! Как результат - эта панель инструментов надоела мне через пять минут и была отключена. Но в идее этот семантический проект интересен.

Google Semantics 2.2.  - легкий способ получить синоним для ключевых слов через Google - этот плагин позиционируется как средство для поисковой оптимизации - общем для улучшения SEO необходим.

The Data Browser Extension 0.8.7 -  средство для табличного отображения -данных (визуализация в виде таблиц). Одно из лучших средств для представления "машино-понимаемых" форматов в человеко-читаемом виде.

Ontos Semantic Web Navigation Plug-in 1.0 - плагин,  делающий совместимым с Семантическим вебом. Как бы странно, это не звучало, смысл в этих словах есть - семантическая аннотация ресурсов на серверах проекта Ontos позволяет находить новую информацию об просматриваемых страницах, есть фукнция автоматической генерации семантических отчетов о ресурсах. Интересный плагин, но из серии надоедающих, при обращении к любом сайту идет запрос на сервера Ontos, что есть не очень хорошо (тотальный контроль об ваших перемещениях по Веб - оно вам нужно?). Я не хочу сказать, что проект плох. Я хочу сказать, что Семантический Веб не предназначен для увеличения контроля за его пользователями, уровень этого контроля как  раз должен уменьшиться. Я конечно, понимаю, что   тотальная слежка за пользователями есть и никуда не девается - ведь надо же адаптировать (улучшить) результаты поиска под наши потребности? - конечно надо. Кроме того, мы же повышаем уровень своей социальности. Правда этот уровень "держит за руку" мир программ, который о нас иногда знает больше чем собственно мы сами. Вот это проблема, при чем проблема, о которой буквально через 3-4 года будут все говорить, говорить, а может будут еще и кричать, только сделать уже ничего нельзя будет. Правда и сейчас нельзя ничего сделать, так как Семантический Веб стал инструментом для заработка денег, очень больших денег...

Fuzzbot 0.8.3  - еще один из плагинов для идентификации внедренной семантической информации в веб-страницы. Fuzzbot использует парсер ibrdfa для извлечения триплетов  из веб-страниц. Этот плагин можно рассматривать как альтернативу SemanticRadar. Мое мнение - SemanticRadar более зрелый плагин, пока он лучший.

MozCC 2.4.3 - средство для просмотра метаданных о веб-страницах, включая информацию о лицензии Creative Commons. Метаданные, должны быть представлены на языке . Все стандартно, кроме информации о лицензии. Плюс плагина в том, что если информация о лицензии  на странице есть, то об этом отдельно будет пользователю сообщено!

И, напоследок, скажу - Файрфокс, как был самым семантическим браузером, так и остался!