Что такое онтология в информатике?

С чего начинаются онтологии

Для таких же начинающих, в онтологиях, как и я, а так же для тех, кто хочет начать, для тех, кто задаётся вопросом, что это, с чем это едят и с чего начать, предлагаю начинать с того, с чего начал и я, а именно:

  1. Терминология онтологий, которая позволит вам понимать смысл терминов использующихся в статье и лекции
  2. Статья Ontology Development 101: A Guide to Creating Your First Ontology за 2001 год, являющаяся базовой статьёй для всех, кто начинает заниматься онтологиями, а так же её перевод на русский язык с сайта Международный форум «Образовательные технологи и общество. Недостатком статьи является не слишком удачный пример онтологии с вином
  3. Лекция Онтология и представление знаний от lektorium.tv упоминавшаяся . По моему мнению это как раз именно то, что надо, для преставления того, что такое онтологии и для чего это нужно. Кроме того в лекции приводится очень много полезной информации по уже имеющимся проектам, инструментарию, сферам применения и прочее.

И в качестве вводного курса копипаста изперевода на русском языкедля поднятия интереса к этой теме.
За перевод спасибо неизвестному переводчику Филяеву А.И.
В будущем, надеюсь, продолжу данную тему по мере освоения материала и получения новых знаний.

Зачем создавать онтологию?

В последние годы разработка онтологий — формальных явных описаний терминов предметной области и отношений между ними (Gruber 1993) – переходит из мира лабораторий по искусственному интеллекту на рабочие столы экспертов по предметным областям. Во всемирной паутине онтологии стали обычным явлением. Онтологии в сети варьируются от больших таксономий, категоризирующих веб-сайты (как на сайте Yahoo!), до категоризаций продаваемых товаров и их характеристик (как на сайте Amazon.com). Консорциум WWW (W3C) разрабатывает RDF (Resource Description Framework) (Brickley and Guha 1999), язык кодирования знаний на веб-страницах, для того, чтобы сделать их понятными для электронных агентов, которые осуществляют поиск информации. Управление перспективных исследований и разработок министерства обороны США (The Defense Advanced Research Projects Agency, DARPA) в сотрудничестве с W3C разрабатывает Язык Разметки для Агентов DARPA (DARPA Agent Markup Language, DAML), расширяя RDF более выразительными конструкциями, предназначенными для облегчения взаимодействия агентов в сети (Hendler and McGuinness 2000). Во многих дисциплинах сейчас разрабатываются стандартные онтологии, которые могут использоваться экспертами по предметным областям для совместного использования и аннотирования информации в своей области. Например, в области медицины созданы большие стандартные, структурированные словари, такие как snomed (Price and Spackman 2000) и семантическая сеть Системы Унифицированного Медицинского Языка (the Unified Medical Language System) (Humphreys and Lindberg 1993). Также появляются обширные общецелевые онтологии. Например, Программа ООН по развитию (the United Nations Development Program) и компания Dun & Bradstreet объединили усилия для разработки онтологии UNSPSC, которая предоставляет терминологию товаров и услуг (http://www.unspsc.org/).

Онтология определяет общий словарь для ученых, которым нужно совместно использовать информацию в предметной области. Она включает машинно-интерпретируемые формулировки основных понятий предметной области и отношения между ними.
Почему возникает потребность в разработке онтологии? Вот некоторые причины:
Для совместного использования людьми или программными агентами общего понимания структуры информации.

  • Для возможности повторного использования знаний в предметной области.
  • Для того чтобы сделать допущения в предметной области явными.
  • Для отделения знаний в предметной области от оперативных знаний.
  • Для анализа знаний в предметной области.

Совместное использование людьми или программными агентами общего понимания структуры информации является одной из наиболее общих целей разработки онтологий (Musen 1992; Gruber 1993). К примеру, пусть, несколько различных веб-сайтов содержат информацию по медицине или предоставляют информацию о платных медицинских услугах, оплачиваемых через Интернет. Если эти веб-сайты совместно используют и публикуют одну и ту же базовую онтологию терминов, которыми они все пользуются, то компьютерные агенты могут извлекать информацию из этих различных сайтов и накапливать ее. Агенты могут использовать накопленную информацию для ответов на запросы пользователей или как входные данные для других приложений.
Обеспечение возможности использования знаний предметной области стало одной из движущих сил недавнего всплеска в изучении онтологий. Например, для моделей многих различных предметных областей необходимо сформулировать понятие времени. Это представление включает понятие временных интервалов, моментов времени, относительных мер времени и т.д. Если одна группа ученых детально разработает такую онтологию, то другие могут просто повторно использовать ее в своих предметных областях. Кроме того, если нам нужно создать большую онтологию, мы можем интегрировать несколько существующих онтологий, описывающих части большой предметной области. Мы также можем повторно использовать основную онтологию, такую как UNSPSC, и расширить ее для описания интересующей нас предметной области.
Создание явных допущений в предметной области, лежащих в основе реализации, дает возможность легко изменить эти допущения при изменении наших знаний о предметной области. Жесткое кодирование предположений о мире на языке программирования приводит к тому, что эти предположения не только сложно найти и понять, но и также сложно изменить, особенно непрограммисту. Кроме того, явные спецификации знаний в предметной области полезны для новых пользователей, которые должны узнать значения терминов предметной области.
Отделение знаний предметной области от оперативных знаний – это еще один вариант общего применения онтологий. Мы можем описать задачу конфигурирования продукта из его компонентов в соответствии с требуемой спецификацией и внедрить программу, которая делает эту конфигурацию независимой от продукта и самих компонентов (McGuinness and Wright 1998). После этого мы можем разработать онтологию компонентов и характеристик ЭВМ и применить этот алгоритм для конфигурирования нестандартных ЭВМ. Мы также можем использовать тот же алгоритм для конфигурирования лифтов, если мы предоставим ему онтологию компонентов лифта (Rothenfluh et al. 1996).
Анализ знаний в предметной области возможен, когда имеется декларативная спецификация терминов. Формальный анализ терминов чрезвычайно ценен как при попытке повторного использования существующих онтологий, так и при их расширении (McGuinness et al. 2000).
Часто онтология предметной области сама по себе не является целью. Разработка онтологии сродни определению набора данных и их структуры для использования другими программами. Методы решения задач, доменно-независимые приложения и программные агенты используют в качестве данных онтологии и базы знаний, построенные на основе этих онтологий. К примеру, в этой статье мы разрабатываем онтологию вин и еды, а также подходящие комбинации вин и блюд. Затем эту онтологию можно будет использовать как основу для приложений в наборе инструментов для управления рестораном: Одно приложение могло бы составлять список вин для меню на текущий день или отвечать на запросы официантов и посетителей. Другое приложение могло бы анализировать инвентарный перечень винного погреба и предлагать категории вин для пополнения и конкретные вина для закупки к следующим меню или для поваренных книг.

Онтология управления организациями

Формирующийся сегодня новый тип общества еще не имеет общепринятого названия. Его именуют «новым индустриальным» (Дж. Гэлбрейт), «сверхиндустриальным» (О. Тоффлер), «посткапиталистическим» (Р. Даренфорф), «постцивилизационным» (К. Боулдинг), «постбуржуазным» (Г. Лихтгейм) и т.д. Во всех этих названиях прослеживается некое противопоставление текущего состояния социоэкономического и производственного пространств ранее существующему состоянию («индустриальному», «буржуазному» и т.д.). Закономерным следствием происходящих изменения является переосмысление сути многих понятий, долгое время составлявших основу науки об управлении (менеджмента). В настоящей публикации предпринята попытка создания единой терминологической базы, позволяющей построить корректную модель управления организацией.

Об общих принципах создания онтологий

Онтология представляет собой совокупность терминов и взаимосвязанных определений, относящихся к некоторой предметной области и выполняющих нормативную функцию. Именно онтология формирует самое общее представление об объекте исследования, фиксирует категориальный аппарат концепции (теории).

Развитые онтологические системы строятся на основе следующих принципов:

1) формализации, т.е. описания объективных элементов действительности в единых, строго определенных образцах (терминах, моделях и др.);

2) использования ограниченного количества базовых терминов (сущностей), на основе которых конструируются все остальные понятия;

3) внутренней полноты и логической непротиворечивости.

Соблюдение первого принципа дает возможность специалистам, изучающим вопросы управления организациями, сформировать и использовать общий понятийный аппарат. При конструировании определений не допускается применение фраз с нечетким или многозначным смыслом, метафорических выражений и др. Формализованные трактовки терминов фиксируются в тезаурусе (словаре с полной смысловой информацией) или глоссарии. Таким образом, принцип формализации позволяет избежать полисемии (многозначности) понятий, оптимизировать коммуникации между всеми заинтересованными сторонами.

Следование второму принципу позволяет реализовать идею «экономии мышления», широко известную как «бритва Оккама». При составлении онтологических систем стараются использовать минимальный набор базовых категорий, исключить близкие по смыслу, синонимичные понятия. Необходимо сохранять открытость онтологии для пополнения новыми понятиями.

В отличие от обычного словаря для онтологической системы характерно внутреннее единство, логическая взаимосвязь и непротиворечивость используемых понятий. Трактовки всех используемых терминов даются в рамках единого методологического подхода, т.е. явно описанной совокупности исходных принципов, аксиом или убеждений создателей онтологии. При этом используемые категории должны охватывать все явления и процессы заданной предметной области. Таким образом, онтология представляет собой концептуальный фундамент теории, ее понятийную основу.

Онтологические системы всегда обращены к идеальным объектам. Этим онтология теснейшим образом связана с моделированием, решающим задачу представления (репрезентации) реальных объектов через идеальные образы.

В данной статье предпринята попытка построения онтологии управления организациями, базирующейся на уточненном определении термина «организация» и четырех ключевых категориях управления организационными изменениями (процессы, ресурсы/продукты, механизмы, управление).

Организация как объект управления

Управленческие решения всегда принимаются и реализуются исходя из имеющихся представлений (моделей) об объектах управления, а не реальных свойств этих объектов. Таким образом, адекватность модели оказывает самое существенное влияние на процесс управления, фактически определяет его.

Предлагается следующее определение термина «организация».

Организация — это устойчивая система отношений между субъектами, основанная на совокупности достигнутых ими соглашений.

Термины, используемые в данном определении, нуждаются в дополнительных пояснениях.

1. «… устойчивая система отношений». В общем случае устойчивость — это способность системы сохранять требуемые характеристические свойства в условиях действия возмущающих факторов. Чтобы использовать это определение в контексте функ-ционирования организаций, необходимо более четко зафиксировать: (1) свойство организации как системы, по отношению к которому будет оцениваться устойчивость; (2) установить, какой смысл придается словам «действие возмущающих факторов».

К настоящему моменту в теории управления организациями общепринятого мнения по каждому из этих пунктов не сложилось. Как правило, исследователи говорят о неких базовых компетенциях, отличительных особенностях или врожденных способностях организаций, определяющих их конкурентные преимущества . Например, согласно теории Кея отличительные способности зависят от репутации, инноваций, стратегических активов и архитектуры организации. Причем именно архитектуре, т.е. определенной структуре внешних и внутренних отношений, придается особое значение. Р. Холл указывает на важность технологий и внутренней культуры организации . Немалое значение придается брэнду как определенному способу идентификации организации на рынке . В связи с этим часто приводиться пример компании DuPont, единственным неизменным свойством которой на протяжении последних трехсот лет остается ее название . В системотехнике считается, что инвариантом организации как производственного комплекса является ее энергоинформационный ресурс .

Последняя точка зрения является наиболее общей и самой абстрактной. Однако именно она позволяет отметить еще один нюанс, скрывающийся в определении организации как системы отношений. Взаимодействие субъектов, являющихся членами организации, должно иметь определенную интенсивность (мера обмена энергоинформационными ресурсами), продолжительность и целенаправленность.

Итак, устойчивость системы отношений может определяться в контексте некоторых энергоинформационных инвариантов или функций от них, обусловленных составом, структурой и ресурсами (продуктами) организации. Если система подверглась такому воздействию, что ее энергоинформационный ресурс претерпел радикальные (катастрофические) изменения, то следует говорить уже не о «трансформировавшейся старой», а о «новой» организации.

2. «… система отношений…». Любая организация представляет собой исключительно сложный для изучения объект, полный объем свойств и параметров функционирования которого принципиально непознаваем. Исследователь всегда имеет дело с некой абстракцией, моделью организации, отражающей отдельные аспекты «жизни» реального объекта. Представление организации как системы отношений есть одна из возможных моделей организации. Причем содержание понятия «система» будет существенно отличаться в зависимости от того, в рамках какой научной дисциплины оно трактуется.

3. «…отношений между субъектами». В контексте организации между индивидами формируется множество типов отношений — от производственных до социально-психологических. Очевидно, что создать полную модель этих отношений не представляется возможным, т.к. в силу теоремы Тьюринга подобная модель должна обладать сложностью, равной сложности самой моделируемой системы (организации). Поэтому прибегают к разработке конечного множества упрощенных или специализированных моделей, позволяющих исследовать определенные свойства организаций. Например, в рамках производственных отношений каждый субъект выполняет функции как поставщика, так и потребителя определенных услуг1. При таком подходе вся организация трактуется как сложная система, базирующаяся на прямых или косвенных обменах продуктами (ресурсами) между субъектами. Межличностные отношения игнорируются или рассматриваются как возмущающие (ограничивающие) факторы. Очевидно, что если сделать акцент на других типах отношений (например, взять за основу социально-психологические способы взаимодействия), то и «образ» организации станет иным.

4. «…основанная на совокупности достигнутых ими соглашений». Соглашения между субъектами также могут иметь разный характер — от официально утвержденных обязательств, регламентов работы и поведения до неформальных договоренностей и создания «скрытых» коалиций. Именно благодаря наличию множества явных (осознанных) и неявных (неосознанных) соглашений между субъектами возникают некие автономные «законы жизни» организации. Если бы эти законы отсутствовали, то определенную совокупность субъектов нельзя было бы рассматривать как целостную систему.

Можно выделить следующие основные типы внутриорганизационных соглашений:

  • о целях функционирования организации;
  • о процедурах совместной работы (договорные отношения «работник — работодатель», «работник — работник», «учредитель — учредитель» и др.);
  • о процедурах взаимодействия с внешними контрагентами.

Существует также целый ряд признаков, являющихся возможными, но не обязательными признаками организаций.

1. A priori заданный правовой статус. Принятие решения о государственной регистрации организации как юридического лица приводит к следующим основным результатам:

  • формируется легитимная система управления собственностью юридического лица и ее суррогатами (например, ценными бумагами);
  • договорные отношения между учредителями, а также между организацией и контрагентами (в первую очередь кредиторами) становятся юридически значимыми;
  • сама организация как юридическое лицо становится объектом правоотношений.

Таким образом, факт государственной регистрации накладывает целый ряд нормативных ограничений на деятельность организации. Стремясь уменьшить ограничения, хозяйствующие субъекты, как правило, создают конгломераты, состоящие из нескольких юридических и физических лиц. Отсюда говорить о неком едином правовом статусе организации не всегда возможно. Речь должна идти скорее об установлении юридически значимых отношений между конкретными физическими и юридическими лицами.

2. Наличие идентифицируемых границ. В заданном контексте сам термин «граница» нуждается в уточнении. Пожалуй, наиболее радикальной позиции придерживался К. Бенсон, утверждавший, что реальностью является только организационная конструкция в умах организационных деятелей . Это полностью соответствует базовым положениям теории систем, согласно которым границы системы как абстрактного объекта задает разработчик ее модели. Например, если рассматривать организацию исключительно как обособленный имущественный комплекс, то границы будут соответствовать находящемуся в собственности, хозяйственном ведении или оперативном управлении имуществу ее владельцев. Очевидно, что такой способ определения границ не всегда корректен. Он может быть использован для описания одного из типов организаций — предприятий, под которыми согласно ГК РФ признается имущественный комплекс, используемый для осуществления предпринимательской деятельности.

Переводя все вышесказанное на язык теории множеств, можно утверждать, что юридически оформленные отношения являются лишь подмножеством всей совокупности отношений внутри организации. Аналогичный вывод будет справедлив и для большинства других типов отношений (финансово-экономических, эмоциональных, коммуникативных и др.), возникающих в контексте функционирования организации. Модель организации есть бесконечное, открытое множество, имеющее счетную мощность (такое множество состоит из бесконечного числа элементов, которые можно пронумеровать натуральными числами). У подобных множеств нет границ. Они возникают только при построении модели организации, когда аналитик искусственно выделяет конечное число объектов, образующих своеобразный «каркас» будущей модели.

3. Коллектив, команда. До последнего времени наличие коллектива или даже команды работников считалось неотъемлемым свойством организации. При этом особое внимание всегда придавалось наличию и важности межличностных отношений между членами коллектива, собственно и превращающих множество индивидов в команду. Однако целый ряд новых тенденций, получивших развитие в мировой практике, позволяет усомниться в корректности данного положения. К подобным тенденциям относятся:

  • создание распределенных групп работников, взаимодействующих исключительно в «цифровом пространстве» и не знающих друг друга лично;
  • аутсорсинг (англ. outsourcing), т.е. передача функций по реализации отдельных бизнес-процессов сторонним организациям (группам исполнителей);
  • практика неполной занятости, субподряда.

Коллективные, командные формы работы позволяют создавать комплексные продукты (товары, услуги), реализовывать сложные проекты, но сами по себе они уже не определяют «лицо» организации.

4. Единое название, брэнд. Как известно, существует два подхода к формированию брэнда — «восточный» (характерный для стран Азии, особенно Японии) и «западный», получивший распространение в экономически развитых государствах Америки и Европы. «Восточная» модель основана на идее интеграции, объединения ресурсов и продуктов под общей торговой маркой (компании Mitsubishi, Sony, Toshiba, Matsushita и др.). «Западный» подход предполагает создание и продвижение брэндов отдельных продуктов или продуктовых линий (марки Tide и Ariel (компания Procter & Gamble), марка Friskies (компания Nestle) и др.). Характерной тенденцией последних лет стало взаимопроникновение «восточного» и «западного» подходов. Например, компания Toyota создала новую торговую марку Lexus, Nissan — продвигает марку Infinity. Это говорит о том, что сегодня брэнд — это продукт деятельности организации, а не ее отличительный признак.

Предложенная трактовка термина «организация» является универсальной, может быть легко формализована (например, в рамках теории множеств, теории графов и др.).

Основные категории онтологии управления организациями

Онтология процессов управления организационными изменениями должна охватывать весь перечень терминов и определений, относящихся:

  • к разработке моделей организаций (организационному проектированию);
  • к процедурам подготовки, принятия и реализации управленческих решений;
  • к уровням управления.

В соответствии с этим выделим четыре базовые категории, определяющие состав любой организации: процессы, ресурсы/продукты, механизмы, управление. Именно вокруг этих категорий выстраивается система отношений между субъектами.

Краткая характеристика каждой из выделенных категорий и их взаимодействие между собой.

1. Процессы. Представление объекта в виде «чистого» (т.е. независимого от других категорий) процесса является первым и основополагающим шагом в исследовании и проектировании любых сложных систем. Фактически именно в соответствии с границами рассматриваемых процессов задаются границы системы, определяется и фиксируется ее целостность. Модели процессов бывают структурные и параметрические.

В контексте управления организациями все процессы принято называть бизнес-процессами (БП). Не будем проводить детальный анализ2 всех предложенных трактовок данного понятия. Отметим, что важнейшим признаком БП является наличие на «выходе» какого-либо продукта (товара, работы, услуги). Как пишет А. Шеер, цель БП состоит в создании «выхода» для получения вознаграждения в виде другого «выхода». Причем процесс потребления готового продукта может также входить в описание БП организации.

2. Ресурсы, продукты. Ресурсами могут считаться любые объекты, подлежащие трансформации в ходе выполнения процесса. Под продуктом понимается результат выполнения процесса. Продукт одного процесса, как правило, является ресурсом для выполнения другого процесса. Поэтому разделение понятий «продукт» и «ресурс» в некоторой степени условно. Чтобы исключить возможную путаницу при употреблении этих терминов, важно четко формулировать контекст и интервал времени, на котором они справедливы.

  • «Процесс—ресурс». Процесс задает рамки трансформации и видоизменения структуры ресурсов, организует ресурсы в продукт. В свою очередь, характеристики ресурсов накладывают ограничения на течение процесса и свойства продукта. Сам процесс (точнее, модель процесса) может рассматриваться в альтернативной модели как ресурс.

    Другой аспект взаимодействия внутри пары «процесс—ресурс» раскрывается через понятие «событие». Событие — это факт поступления ресурса, активизирующий выполнение процесса. В зависимости от параметров события могут реализовываться в различные сценарии выполнения процесса.

  • «Процесс—продукт». Одним из важнейших принципов процессно-ориентированной методологии является независимое описание процессов и продуктов, дающее возможность частично устранить избыточность данных о динамике функционирования и развития системы. Более того, следование данному принципу позволяет подойти к проектированию инвариантных по отношению к ресурсам и продуктам процессов.

Различают материально-технические, трудовые, финансовые и информационные виды ресурсов.

3. Механизмы. Механизм является третьим базовым компонентом любой системы деятельности. Его функционирование обеспечивает изменение состояния объекта в ходе выполнения процесса. Именно за счет функционирования механизма происходит преобразование ресурсов в продукты.

  • «Процесс—механизм». Как правило, делается предположение о том, что механизм не испытывает никакого существенного влияния со стороны процесса, т.е. сам остается неизменным. В некоторых случаях это предположение может быть некорректным (например, выполнение процесса приводит к разрушению механизма). Подобная проблема решается путем пересмотра исходных посылок модели. Сам процесс начинают трактовать как механизм, производящий процесс изменений в той структуре, которая первоначально выступала в роли механизма. Другими словами, процесс и механизм как бы меняются местами.

    Действие механизма может приводить к имманентному воспроизведению (репликации) процесса; изменению характеристик процесса. Первая из перечисленных альтернатив будет соответствовать режиму функционирования, а вторая — развитию системы.

  • «Ресурс—механизм». В отдельных случаях механизм можно рассматривать как ресурс, не подлежащий трансформации в ходе выполнения процесса, но подверженный износу и старению.

Различают два типа механизмов: одушевленные (работники, исполнители) и неодушевленные (оборудование).

4. Управление. В рамках рассматриваемой модели управление трактуется как стационарный циклический процесс («…— анализ — целеполагание (моделирование) — целедостижение (регулирование) — …»), а также определенное соглашение о правилах взаимодействия элементов системы.

  • «Процесс — ресурс — управление». Взаимодействие внутри этой тройки категорий включает формирование регламентов выполнения процессов. В простейшем случае регламенты могут быть сведены к правилам обработки событий, имеющим стандартную структуру IF <…> THEN <…> (например, IF <поступил ресурс A> THEN <выполнить процесс B>). В более сложных случаях правила трансформируются в стандарты функционирования и стратегию развития системы.
  • «Продукт — управление». Здесь основное внимание уделяется спецификации продукта.

Предложенная онтологическая система обладает следующими преимуществами:

  • выбранные базовые категории (организация, процесс, ресурсы / продукты, управление, механизм) универсальны и соответствуют общепринятым международным стандартам (например, семейству IDEF3);
  • формализованное определение каждой из категорий позволяет избежать множества проблем, связанных с недопониманием или различиями в интерпретациях понятий специалистами по менеджменту, логистике, информационным технологиям и др.;
  • предложенная онтология может быть положена в основу автоматизированной системы управления организацией или корпоративной информационной системы.

Надеюсь, что материал, представленный в статье, будет способствовать формированию неких стандартов и общепризнанных соглашений об использовании терминов в контексте управления организациями.

Литература

1 Частным случаем услуги может быть «изготовление и поставка товара».

2 См., например, статью: Рубцов С.В. Уточнение понятия «бизнес-процесс» // Менеджмент в России и за рубежом. — 2001. — № 6. — с. 26-33.

3 Методология IDEF (Icam DEFinition) была разработана в рамках предложенной ВВС США программы компьютеризации промышленности ICAM. В настоящее время семейство методологий IDEF является государственным стандартом США.

Прочитать о методологии можно в следующих источниках:

Интеллектуальные информационные системы

Лекции

11. ОНТОЛОГИИ

11.1. Онтологии и семантическая паутина.

11.2. URI (IRI).

11.3. RDF, RDFS и OWL.

Вопросы для самопроверки.

11.1. Онтологии и семантическая паутина

Онтология – раздел философии, изучающий фундаментальные принципы бытия: категории, сущности, структуру, свойства и закономерности сущего1. В настоящее время онтологии широко используются в обучении, различного рода исследованиях и информационных технологиях. Как своеобразная форма представления некоторой области знаний (предметной области) онтологии применяются при создании семантической паутины2, систем искусственного интеллекта, а также прикладных информационных систем. В частности, одним из ключевых компонентов создаваемой и внедряемой в ОАО «РЖД» Интеллектуальной системы управления на железнодорожном транспорте является «онтология ИСУЖТ».

Среди языков описания онтологий следует выделить:

o OIL (англ. Ontology Inference Layer или Ontology Interchange Language) – онтологический слой (уровень) логического вывода или онтологический язык обмена;

o DAML (англ. DARPA Agent Markup Language) – язык разметки агента DARPA3;

o RDF (англ. Resource Description Framework) – среда описания ресурса (www.w3.org/TR/rdf11-concepts);

o RDFS (англ. RDF Schema) – схема RDF (www.w3.org/TR/rdf-schema);

— RIF (англ. Rule Interchange Format) – формат обмена правилами (www.w3.org/TR/rif-core);

— KIF (англ. Knowledge Interchange Format) – формат обмена знаниями (www.ksl.stanford.edu/knowledge-sharing/kif), разработанный в «Лаборатории искусственного интеллекта» Стэндфордского университета;

— CL (англ. Common Logic) – общая логика, представляющая собой основу для семейства логических языков и предназначенная для обмена и передачи знаний в компьютерных системах. Является преемницей KIF и носит статус международного стандарта (ISO/IEC 24707:2007 «Information technology – Common Logic (CL): a framework for a family of logic-based languages»).

— CycL (англ. Cyc Language, от англ. encyclopedia) – онтологический язык, использующийся в проекте искусственного интеллекта Дугласа Лената Cyc (www.cyc.com).

В рамках создания семантической паутины W3C4 активно продвигает онтологические языки и спецификации, представленные на следующем рисунке (www.w3.org/2001/sw).

Рис.11.1. Слои семантической паутины

В соответствии с концепцией Всемирной паутины каждый ресурс должен иметь унифицированный идентификатор ресурса (англ. Uniform Resource Identifier, URI) или интернационализированный идентификатор ресурса (англ. Internationalized Resource Identifier, IRI). В терминах семантической паутины под ресурсом понимается реальная (машина, дом, Вася) или абстрактная (любовь, отношение, тип) сущность, включая информационные объекты (сайт, файл, ящик электронной почты).

В общем виде онтология представляет собой набор элементов четырех типов:

— понятия (классы) – концептуальные сущности (машина, дом, любовь);

— экземпляры (индивиды) – конкретные представители понятий (Вася, www.google.com, 123);

— отношения (предикаты) – связи между понятиями или экземплярами (таксономические, родственные, производственные), а также свойства сущности (цвет, длина, вкус);

— аксиомы – очевидные утверждения, связывающие понятия, экземпляры и отношения.

В качестве синтаксических конструкций для онтологического описания и обмена знаниями в виде RDF, RDFS и OWL могут использоваться спецификации (нотации):

— адаптированные:

o XML (англ. eXtensible Markup Language) – расширяемый язык разметки (www.w3.org/TR/rdf-syntax-grammar);

— специализированные:

o N-Triples – RDF-тройки (www.w3.org/TR/n-triples);

o Turtle (англ. Terse RDF Triple Language) – краткий язык RDF-троек (www.w3.org/TR/turtle). Расширение нотации N-Triples;

o TriG – TriG (www.w3.org/TR/trig). Расширение нотации Turtle;

o N-Quads – RDF-четверки (www.w3.org/TR/n-quads). Дополнение к нотации N-Triples.

Процедурная обработка (добавление, удаление, вывод) знаний, содержащихся в онтологии, выполняется с помощью различных диалектов RIF (продукции, фреймы, логика предикатов первого порядка, немонотонная F-логика).

Декларативная обработка знаний в стиле SQL5-запросов к базам данных осуществляется посредством SPARQL6.

1Онтология (от др.-греч. ὄν, род. п. ὄντος – сущее, то, что существует; λόγος – учение, наука).

2Семантическая паутина (англ. Semantic Web) – надстройка над Всемирной паутиной, предназначенная для повышения эффективности машинной обработки информации, размещаемой в Интернет.

3DARPA (англ. Defense Advanced Research Projects Agency) – Агентство передовых оборонных исследовательских проектов Министерства обороны США.

4W3C (англ. World Wide Web Consortium) – Консорциум Всемирной паутины. Организация, разрабатывающая и внедряющая технологические стандарты для Всемирной паутины.

5SQL (англ. Structured Query Language) – язык структурированных запросов.

6SPARQL (рекурсивный акроним от англ. SPARQL Protocol and RDF Query Language) – протокол и язык запросов к знаниям, представленным в формате RDF (www.w3.org/TR/sparql11-query).

11.2. URI (IRI)

Каждая сущность (ресурс), описываемая в онтологии, должна иметь уникальный идентификатор. Для этого используются URI или IRI. Отличие последнего заключается в возможности использовании символов национальных алфавитов при указании имени ресурса за счет поддержки Unicode.

В общем случае структура URI (IRI) выглядит следующим образом:

URI = иерархическая-часть

Запрос содержит данные, организованные в неиерархической форме, которые, вместе с данными в иерархической части, служат для идентификации ресурса. В онтологиях обычно не используется.

Фрагмент позволяет осуществить косвенную идентификацию ресурса. Совместно со схемой и иерархической частью представляет полный идентификатор сущности (например, понятия или его экземпляра в конкретной онтологии). Пример полного идентификатора понятия (класса) Food в прикладной онтологии pizza.owl

В семантической паутине используются четыре стандартных пространства имен.

Таблица 11.1

Стандартные пространства имен

Использование стандартного или определенного разработчиком онтологии пространства имен позволяет сократить описание идентификаторов сущности. В частности, в онтологии вместо указания полного идентификатора концептуального понятия Class спецификации OWL «http://www.w3.org/2002/07/owl#Class» достаточно указать «own:Class».

11.3. RDF, RDFS и OWL

RDF и OWL – языки представления информации (знаний), которые могут использоваться для описания онтологий как в семантической паутине, так и в различных прикладных информационных системах. RDFS является надстройкой над RDF и определяет его базовые конструкции (ресурс, класс, подкласс, тип данных, домен и т.п.). Если проводить аналогию с базами данных, то RDFS позволяет задать структуру БД, а RDF наполнить ее содержимым. OWL полностью включает в себя RDF и расширяет его возможности. В прикладных OWL-онтологиях значительная часть описания выполнена с помощью конструкций RDF и RDFS.

Как было отмечено выше, в качестве синтаксических конструкций для описания RDF- и OWL-онтологий используются различные способы. Наиболее распространенным является XML-описание в связи с широким распространением и поддержкой XML в большинстве современных языков программирования. В то же время оно является наиболее громоздким и трудночитаемым для человека. Более компактным и читабельным является формат JSON-LD. JSON стремительно набирает популярность и уже сейчас составляет серьезную конкуренцию XML. Другие способы описаний онтологий (Turtle, N-Triples, N-Quads и TriG), несмотря компактность и читабельность, значительно проигрывают в популярности и поддержке со стороны разработчиков программного обеспечения.

Базовым элементом языка RDF является тройка (триплет, аксиома), которая состоит из субъекта, предиката и объекта.

Рис.11.2. RDF-тройка «субъект – предикат – объект»

Предикат (свойство) представляет собой бинарное отношение между субъектом и объектом. В зависимости от контекста одна и та же сущность онтологии может выступать в любом из перечисленных качеств. Т.е. в одной тройке сущность может быть субъектом, в другой – предикатом, а в третьей – объектом.

Первые два элемента RDF-тройки (субъект и предикат) обязательно идентифицируются при помощи URI. Объект может быть как сущностью, идентифицируемой при помощи URI, так и RDF-литералом (строкой, числом, датой и т.п.).

Примеры определения RDF-троек для онтологии с пространством имен learning (нотация Turtle):

— определение класса:

learning:человек rdf:type rdfs:Class .

— определение подкласса:

learning:студент rdfs:subClassOf learning:человек .

— определение свойств:

learning:имя rdf:type owl:DatatypeProperty .

learning:фамилия rdf:type owl:DatatypeProperty .

— создание экземпляра подкласса (индивида):

learning:студент1 rdf:type learning:студент .

— связывание свойств с индивидами и указание их значений:

learning:студент1 learning:имя «Вася» ;

learning:фамилия «Иванов» .

В последнем примере использовано объединение RDF-троек для случая совпадения субъектов.

Несмотря на очевидные аналогии между RDF и объектно-ориентированным программированием (ООП), между ними имеется одно принципиальное различие. В ООП свойство (атрибут) определяется внутри класса и является его неотъемлемой составляющей. В RDF свойства определяются независимо от классов и могут связываться с ними с помощью RDF-троек в произвольном, но не лишенном смысла порядке. Так, одно и то же свойство («Возраст») может быть связано с различными классами или их экземплярами («Человек», «Автомобиль», «Семья»). Более того, экземпляры одного и того же класса могут обладать разными наборами свойств. Это предоставляет более гибкие возможности при определении классов по сравнению с ООП, но при этом может привести к «размыванию» самого понятия «класс».

В RDF/RDFS определены базовые классы, которые при создании прикладной онтологии выступают в качестве фундамента для определения классов и экземпляров предметной области. При описании RDF-троек базовые классы указываются в качестве объекта, т.е. в третьей позиции. В табл.11.2 приводится список классов RDF/RDFS (www.w3.org/TR/rdf-schema).

Таблица 11.2

Классы RDF/RDFS

Класс Описание
rdfs:Resource Класс-ресурс, включает «всё»
rdfs:Literal Класс литеральных значений (например, текстовых строк или чисел)
rdf:langString Класс строковых литералов, интерпретация которых зависит от выбранного языка или системы кодирования
rdf:HTML Класс HTML-литералов
rdf:XMLLiteral Класс XML-литералов
rdfs:Class Класс классов
rdf:Property Класс RDF-свойств
rdfs:Datatype Класс типов данных RDF
rdf:Statement Класс утверждений RDF
rdf:Bag Класс контейнеров с неупорядоченными элементами
rdf:Seq Класс контейнеров с упорядоченными элементами
rdf:Alt Класс контейнеров с элементами-альтернативами
rdfs:Container Класс RDF-контейнеров
rdfs:ContainerMembership Класс свойств «членства» в контейнерах: rdf:_1, rdf:_2, …, все они являются подсвойствами свойства rdfs:member
rdf:List Класс RDF-списков

В том же документе определены базовые свойства, которые выступают в качестве предикатов RDF-троек.

Таблица 11.3

Свойства RDF/RDFS

Свойство Описание
rdf:type Субъект является экземпляром класса
rdfs:subClassOf Субъект является подклассом класса
rdfs:subPropertyOf Субъект является подсвойством свойства
rdfs:domain Домен свойства субъекта
rdfs:range Диапазон свойства субъекта
rdfs:label Человекочитаемое название субъекта
rdfs:comment Текстовое описание ресурса
rdfs:member Член ресурса субъекта
rdf:first Первый элемент списка
rdf:rest Оставшийся за первым элементом «хвост» списка
rdfs:seeAlso Дополнительная информация о субъекте
rdfs:isDefinedBy Определение ресурса субъекта
rdf:value Свойство, используемое для структурированных значений
rdf:subject Субъект RDF-утверждения
rdf:predicate Предикат RDF-утверждения
rdf:object Объект RDF-утверждения

OWL является дальнейшим развитием RDF/RDFS. Спецификация OWL определяет абсолютно новый синтаксис записи онтологий — функционально-ориентированный. При этом остается возможность записи онтологий в RDF-стиле. На рис.11.3 приведены связи и взаимозаменяемость (двунаправленной стрелкой) между классами OWL и RDF/RDFS (www.w3.org/TR/owl2-rdf-based-semantics).

Рис.11.3. Часть иерархии OWL в RDF-ориентированной семантике

Совокупность RDF-троек позволяет описать онтологию для конкретной предметной области. Ее можно визуализировать в виде ориентированного RDF-графа, если субъекты и объекты отобразить в виде узлов, а предикаты – в виде дуг. На следующем рисунке представлен фрагмент такого RDF-графа для обучающей онтологии http://www.owl-ontologies.com/travel.owl.

Рис.11.4. RDF-граф

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *