Форум Онтологов: результаты встречи онлайн…

Форум онтологов (Ontolog на CIM3) провел вчера (05.08.2010) онлайн встречу, где обсуждались вопросы, связанные с 2, а именно возможности существующих инструментов и приложений, использующих 2.

Чесно говоря, не понятно почему организаторы не решили сделать онлайн трансляцию через  Skype, так  как их наверняка смогло бы послушать значительно большее число людей.  Смотреть через VNC их рабочий стол особо не имело смысла, так как презентации доступны и их можно посмотреть у себя в приятной атмосфере.  Скоро будет доступно аудио трансляции.

Кстати, наиболее интересными вещами на мой взгляд оказалась презентация средств  OWLdb и 4.1, в котором наконец сделают хранилище (Storage) для онтологий. Обзоры Neon, Validator, Pellet, Pronto, Oracle с семантическим движком были тоже весьма интересны.

Слайды презентаций уже доступны широкой общественности в формате PDF.

Читать продолжение »

...всего мира... Прочитал сегодня информацию - сколько получает специалист по знаниям при помощи во время проектирования баз знаний и онтологий в редакторе . Стало несколько грустно... Особенно, если учесть, сколько студентов, даже наших, умеют проектировать онтологии и при этом идут работать простыми кодерами на php или java. Вместо того, чтобы по специальности строить онтологии и сервисы, основанные на них...
А цыфра то проста 500 баксов в час...
Читать продолжение »

40 градусная жара не стимулирует желание пойти на свежий воздух. В связи с этим появляется желание добавить ряд полезных материалов на Semantic Future. Как я и обещал, на Semantic Future будут опубликованы ряд докладов с конференции "интеллектуальный анализ информации", которая проходила совсем недавно в Киеве.
Читать продолжение »

Поддержка больших онтологий в редакторе Protege…

является одним из наиболее популярных редакторов онтологий на сегодняшний день. Но вот, когда необходимо открыть онтологию размером несколько десятков мегабайт, молчу о гигабайтах вообще, отказывается это делать. Оказывается это не ограничение , как программы, это ограничение, устанавливаемое настройками виртуальной машины java. По умолчанию, установлено выделять 512 мб ОЗУ. Естественно, когда вы разрабатываете какую-то персональную онтологию, то этого значения хватит с головой, но иногда необходимо работать с большими промышленными онтологиями, такими как NCI, DOLCE, тогда необходимо изменить следующие настройки (MacOS X, Linux):

В папке, где установлен необходимо найти файл:

для версии 3.4.x

run_protege.sh

и изменить в разделе JVM Options параметр MAXIMUM_MEMORY

# ------------------- JVM Options -------------------

MAXIMUM_MEMORY=-Xmx2000M

OPTIONS=$MAXIMUM_MEMORY

для версии 4.x:

run.sh

и изменить значение параметра Xmx на необходимое

java ${CMD_OPTIONS} -Xmx2000M

Ключ -Xmx определяет максимально выделяемую память виртуальной машины Java. Это значение, например, вместо 2 гиг, как в примере, можно установить равным 4 (4000M).

И конечно же, хочу отметить, что указывать необходимо количество реальной памяти  ОЗУ, которое установлено в вашей системе и еще чуть-чуть необходимо оставить операционной системе. В любом случае, перед загрузкой онтологии в , узнайте на сайте разработчика сколько необходимо оперативной памяти, чтобы с этой онтологией работать.

Врезка: 4ГБ ОЗУ это для онтологий небольших и средних. Большие онтологии требуют от 7ГБ оперативки и выше. На 4Гб мне удалось загрузить онтологию размером более 50MB. А Вам?

Читать продолжение »

Читатели спрашивают… (часть 1)

На shcherbak.net  добавлена новая рубрика "Читатели спрашивают..." В рамках этой рубрики читатели shcherbak.net могут  задавать вопросы по тематике Semantic Web, а мы и вы, читатели -специалисты в Semantic Web, надеюсь сможем на эти вопросы ответить. ))

В качестве первой записи этой рубрики решил взять вопросы читателя Dio.

Отвечаем вместе! Присоединяйтесь к обсуждению.

Из комментария читателя dio в FAQ SHCHERBAK.NET:

Я недавно начал знакомиться с инструментарием Semantic Web и пытаюсь выяснить, насколько он применим в моей ситуации. Хотел бы прояснить накопившиеся вопросы, да и вообще уточнить, в ту ли сторону я копаю. Надеюсь, в этом разделе сайта мои вопросы будут более-менее уместны. Должен сказать, что ко всему хорошему вдобавок, мое понимание БД чисто теоретическое, никаких сведений о прикладных аспектах работы с ними я не имею, т.к. моя область — алгоритмы Text Mining. Из-за этого затруднительно бывает понять, какие в точности задачи решает тот или иной инструмент. Одним словом, “сами мы нездешние, люди добрые, допоможите хто сколько сможет”(С) и т.д.

Вопросы:
1) Предположим, объект класса A определен как нечто, имеющее необходимую связь b c объектом класса С (экзистенциальная связь с кардинальностью min 1). Индивидуал I помещен в класс A явно. В Protégé 3 при этом на закладке Frames появляется табличка для ввода значений соответствующего свойства. Табличка подкрашивается красным, пока свойство не введено. В Protégé 4 не происходит вообще ничего.
Вопрос: можно ли заставить Protégé сообщать о таких ситуациях, как о явных ошибках и выдавать их списком.
2) Как выразить на отношение следования вида A b C d V => A e V. Здесь (A, B) – классы, (b, d) – свойства классов, V – класс или тип данных, e – свойство класса или свойство данных.
Например:
Индивидуалы: Событие:Рождение, Персона:Человек, Дата:Год
(Рождение -> Год, Рождение -> Человек) => Человек (родился) Год
3) Контора имеет несколько традиционных баз данных, каждая из которых представляет какой-то аспект «предметной области». Реальна ли такая интеграция этих баз при помощи надстроечной онтологии, описывающей «предметную область» полностью, чтобы никаких фактических изменений в уже работающей части системы делать не пришлось? Годятся ли для этого такие средства, как D2RQ или ? Какое средство предпочтительней?
4) Как решаются проблемы с масштабируемостью отдельной онтологии. Видно, что Protégé целиком прогружает онтологии в память и при размере онтологий порядка нескольких сот тысяч элементов начинает работать уже с некоторым скрипом. Если онтология генерируется по содержимому большой БД «традиционного типа», как это оговорено в п.3, размеры явно будут гораздо большими и критерия для деления результирующей онтологии на фрагменты не видно.
5) Предположим, что часть синсетов WordNet конвертируется в иерархию классов , т.е., отношение isKindOf заменяется isSubclassOf. При этом синсеты WordNet имеют еще десяток связей других типов, каждая из которых имеет определенные свойства (по наличию обратных, транзитивности, запрету на образование циклов и т.п.). Надо полагать, что в нотации это должно быть выражено в виде требования, чтобы экземпляры, выведенные от синсета такого-то, имели связи со всеми экземплярами, выведенными от синсета сякого-то + описание дополнительных свойств. Есть ли практическая возможность поддерживать такого рода онтологию на , или она будет слишком громоздкой?
6) Насколько эффективна будет процедура вывода в онтологии, состоящей из нескольких десятков тысяч классов и нескольких миллионов индивидуалов. Можно ли рассчитывать на то, что при автоматическом пополнении онтологии с таким характерным размером процедура классификации сможет отрабатывать если и не после каждой вставки, то хотя бы раз в час. Ожидающийся темп пополнения – десятки/сотни вставок в час.

Первые ответы на эти вопросы здесь!

РАЗРАБОТКА ОНТОЛОГИИ ДИСТАНЦИОННОГО КУРСА

А.Л. Данченко

Восточноукраинский национальный университет имени Владимира Даля, кафедра системной инженерии, г. Луганск, Украина, danallen@mail.ru

Материалы дистанционных курсов (ДК) представляют собой знания и являются ценным источником информации. Использование международных стандартов [1] при разработке ДК обеспечивает совместимость с Веб-технологиями, упрощает модификацию и повторное использование ДК различных разработчиков. Существующие системы дистанционного обучения (СДО), такие как WebTutor, Прометей, MOODLE, REDCLASS и др. поддерживают международные стандарты SCORM, IMS, но не обеспечивают наличие смысловых связей между знаниями ДК. Это исключает возможность автоматизированного анализа знаний программными средствами и ограничивает интеллектуальные возможности обучающей системы по построению индивидуальных планов обучения и консультирования в рамках текущей дисциплины. Таким образом, актуальной является задача построения базы знаний ДК на основе семантических связей ДК.

Анализ типовых элементов дистанционного курса

Любой ДК можно представить как набор модулей М, объединяющих в себе множества лекционных (Lec), практических (Pract), лабораторных (Lab) занятий и тестов (Test). Практические и лабораторные занятия пересекаются с теорией лекций, тесты могут быть частью любого занятия.
DK = {m1→m2→…mn:m∈M},
M = {l: l∈Lec∪(Lect→Pract)∪(Lect→Lab)∪(Lect→Test)}.

Обычно рекомендуется использовать не больше трех уровней вложенности в пределах лекции – Тема, Раздел, Пункт.

Построение онтологии ДК


Онтология определяет набор основных понятий предметной области и связи между ними. Обоснованность онтологического подхода определена рекомендациями [2]. При построении онтологии ДК необходимо учитывать следующее:
1.    Онтология определяет иерархию базы знаний ДК;
2.    Онтология используется для реализации механизма построения адаптивных курсов обучения, для консультирования обучаемых, ответы выдаются с привязкой к предметной области изучаемого курса;
3.    Онтология является расширяемой в рамках каждой предметной области;
4.    Поддержкой онтологии занимаются преподаватели-разработчики курсов.

Известно, что термины разных предметных областей могут иметь различные толкования и значения. Зная Направление и Тематику курса, можно будет избавляться от семантического шума на первых этапах информационного поиска. Онтология верхнего уровня для базы знаний на основе ДК представлена на рис.1.

struct

Рис. 1. Схема онтологии «Дистанционный курс»

Синоним онтологии определяет, в каком семантически связанном контексте еще может быть определено Ключевое слово. Синоним также является Ключевым словом. Семантические связи определяются связями между Ключевыми словами, наследующими свойства родительской предметной области.

Список литературы
1. SCORM 2004 4th Edition Sequencing and Navigation Version 1.0, Advanced Distributed Learning, March 31, 2009. Available at: http://www.adlnet.gov/
2. http://.stanford.edu publications/ontology_development/ontology101.html.
3. Жыжырий Е.А. Щербак С. С. Применение Web-онтологий в задачах дистанционного обучения //Восточно-Европейский журнал передовых технологий. – № 15. – c. 50-55.


Международная научно-практическая конференция "Веб-программирование и Интернет-технологии ": Сб. матер. Междунар. науч.-практ. конф. Минск, 8-10 июня 2009г.- Мн.: Институт математики НАН Беларуси, 2009.-112с.

В.В. Иванов

Казанский государственный университет, Казань, Российская Федерация
nomemm@mail.ru

Задача интеграции структурированных текстовых описаний возникает при представлении информации в глобальной сети Интернет, где в последнее время актуальной стала идея Semantic Web (или, Web 3.0), реализация которой в большой степени зависит от возможности автомати¬ческой обработки смыслового содержимого веб-ресурсов по их онтологи¬ческому представле¬нию. В докладе описывается подход к разработке математического и программного обеспечения процессов интеграции структурированных текстовых описаний на основе прикладной онтологии. Освещаются вопросы выбора общедоступных ресурсов онтологи¬ческого характера для построения прикладной онтологии по культурному наследию, подход к формализации связей между онтологией верхнего уровня и информационно-поисковым тезаурусом (ИПТ), модель процесса интеграции структури¬рован¬ных текстовых описаний, результаты экспериментов с алгоритмом поиска соответствий между элементами структури¬рован¬ных описаний и онтологии. Предлагаемые методы применялись для интеграции разнородных структурированных текстовых описаний музейных предметов с использованием технологий Semantic Web.

В качестве типичных представителей ресурсов онтологического типа рассматриваются онтологии верхнего уровня и ИПТ. Выбор такого рода ресурсов обоснован двумя факторами: необходимостью формального описания свойств и взаимосвязей объектов предметной области и потребностью использования разнообразной тер¬ми¬но¬логии. Онтология верхнего уровня CIDOC CRM [1] и тезаурус по архи¬тектуре и искусству AAT [2] могут стать основой для построения онтологии по культурному наследию. Приоритет при выборе тезауруса отдавался доступным русскоязычным ресурсам ресурса большого объема – порядка нескольких тысяч понятий. Тезаурус ААТ является наиболее полным среди всех известных тезаурусов в данной предметной области (общее число понятий – около 33 тыс., число терминов – более 130 тыс.). Перевод большего фрагмента тезауруса на русский язык осуществлен в НИВЦ МГУ [3]. Связыва¬ние онтологии верхнего уровня и ИПТ осуществляется с помощью задания набора логических ограничений на множество допустимых значений формальных свойств в онтологии верхнего уровня. Результатом связывания онтологии CIDOC CRM и тезауруса ААТ стал крупный онтологический ресурс по культурному наследию.

Центральным понятием в процессе интеграции является структурированное текстовое описание. Определение этого понятия основано на расширении определения понятия отношения из [4]. Ключевым в процессе интеграции структурированных текстовых описаний является алгоритм поиска элементарных соответствий между структурными элементами описаний и онтологии на основе анализа их текстового содержимого. Проведено сравнение предлагаемого алгоритма поиска соответствий с известными методами классификации. Для экспериментов были выбраны метод KNN, основанный на предварительном обучении, и метод кластеризации: KMeans.

Для оценки качества результата отображения используются методы фактографии¬ческого поиска в интегрированном хранилище описаний. Проведено сравнение алгоритма поиска описаний с ИПС «Google» на 8000 описаний музейных предметов. Точность предлагае¬мого алгоритма поиска на 300 случайных запросах, содержащих понятия тезауруса, лучше в среднем на 11 – 49%. При этом полнота поиска не изменялась, либо (на некоторых из запросов) за счет использования тезауруса количество извлеченных описаний увеличи¬валось в 3 – 5 раз.

Список литературы

1. Crofts N., Doerr M., Gill T., Stead S. Definition of the CIDOC Conceptual Reference Model [Электронный ресурс]. – Режим доступа: http://cidoc.ics.forth.gr/docs/cidoc_crm_version_4.0.pdf, свободный.
2. Petersen T., Barnett P. Art & Architecture Thesaurus: Guide to Indexing and Cataloging With the Art & Architecture Thesaurus. – Oxford University Press, 1994.
3. Добров Б.В., Лукашевич Н.В., Соловьев В.Д. Тезаурус по архитектуре и искусству как средство формализации описаний музейных предметов // Электронный журнал FCCL. – 2006. – [Электронный ресурс]. – Режим доступа: http://fccl.ksu.ru/issue_spec/docs/aat_index.doc, свобод¬ный.
4. Дейт К. Дж. Введение в системы баз данных. – 8-е изд. – М.: Вильямс, 2006.


Международная научно-практическая конференция "Веб-программирование и Интернет-технологии ": Сб. матер. Междунар. науч.-практ. конф. Минск, 8-10 июня 2009г.- Мн.: Институт математики НАН Беларуси, 2009.-112с.