Извлечение отношений

Материал из NLPub
Перейти к: навигация, поиск

Понятие семантического отношения

Семантические отношения, называемые также парадигматическими семантическими отношениями и (иногда) лексическими отношениями[1], – это отношения между лексическими единицами (словами, словосочетаниями) в рамках заданной семантической парадигмы (семантического поля). Понятия, принадлежащие к одному полю, по-разному соотносятся друг с другом по смыслу - выступают родовыми концептами ("собака" - "животное"), составными частями ("собака" - "хвост"), синонимами ("собака" - "пес") и др. Семантические отношения описывают именно эти связи и различия.

Такие парадигматические отношения в лингвистике традиционно противопоставляются синтагматическим - первые, в отличие от вторых, не относятся к конкретной языковой ситуации и существуют вне зависимости от текста в сознании носителя языка. Так, "конь" (в значении самец лошади) всегда будет видом "животного", а "ахалтекинец" - подвидом "коня", эти зависимости не меняются от конкретных обстоятельств. Можно считать, что, выставляя семантические отношения, мы работаем с тем самым сферическим конем в вакууме.

Основные типы семантических отношений

Синонимия

Cинонимами считаются лексические единицы с полностью или частично совпадающими значениями. В первом случае речь идет о явлении точной или полной синонимии, во втором – о квазисинонимии. Примерами полных синонимов в русском языке могут считаться пары "заснуть" – "уснуть", "везде" – "всюду". Точная синонимия внутри одного языка – редкое явление, чаще всего она связана с дублированием смыслов из-за заимствований ("бегемот" – "гиппопотам", "плебисцит" – "референдум", "полиграф" – "детектор лжи"). Впрочем, и такие пары по мере освоения в языке начинают отходить друг от друга, приобретают стилистические различия и прекращают быть взаимозаменяемыми. Так, нередко в качестве примера точной синонимии приводят "лингвистику" и "языкознание", однако сегодня трудно сказать "компьютерное языкознание" или "общая лингвистика". Выделяются также межъязыковые полные синонимы [2], которых существенно больше. Таковыми являются, например, русское слово "четверг", английское "thursday" и французское "jeudi".

Квазисинонимы имеют частично пересекающиеся значения и взаимозаменяемы в некоторых контекстах. Образцами здесь могут служить пары "жадный" – "скупой" (в первом значении акцент на стремлении завладеть чужим, во втором - на нежелании расставаться со своим), "нести" – "тащить" (ср."нести салфетки ко столу" - ?"тащить салфетки ко столу") или "талантливый" – "гениальный" (ср. "он был весьма талантливый повар" – ?"он был весьма гениальный повар"). Частая разновидность квазисинонимов – экспрессивно-стилистические, когда отличаются оценочные компоненты значения и стилистическая окраска. Хрестоматийными примерами являются "глаза" – "очи" – "гляделки" - "моргалы" в русском и "policeman" – "cop" в английском.

Родовидовые отношения (гипер/гипонимия)

Родовидовые отношения (гипер/гипонимия), также известные как отношения типа is-a, связывают лексические единицы, обозначающие родовое понятие (гипероним), с отдельными видами (гипонимами). Такими отношениями связаны пары "собака" – "пудель", "автомобиль" – "внедорожник", "спорт" – "хоккей". В последнем случае "футбол" и "регби" будут называться когипонимами "хоккея".

Помимо существительных, гиперонимы выделяют и у глаголов (например, в WordNet). Однако при этом вторым элементом пары, объединяемой в отношение, становится не гипоним, а так называемый тропоним (термин, введенный создателями WordNet). Тропонимия уточняет образ действия, обозначаемого глаголом. Так, для гиперонима "готовить" (cook) одним из тропонимов является "жарить" (fry).

Сторонники большей формализации лексических онтологий предлагают обособленно выделять отношения типа класс-экземляр [3] (в англоязычных источниках - instanceOf). Такими отношениями связаны, например, слова "Москва" и "город".

Также осмысленно выделять ролевые отношения, которые не являются столь же твердыми is-a конструкциями, как обычные родовидовые пары. К примеру, "альпака" всегда остается видом "ламы", но "пациент", "клиент" или "заключенный", строго говоря, едва ли могут считаться постоянно существующим видами "человека".

Отношение «часть – целое» (холо/меронимия)

Отношение «часть – целое» соединяет имя некой сущности с названиями ее составных частей. Так, в WordNet холониму "самолет" соответствуют меронимы "двигатель", "фюзеляж", "шасси", "крыло" и др., а холониму "крыло" – меронимы "элерон", "закрылок" и "ребро".

Антонимия

Антонимами называют такие лексические единицы, значения которых противоположны друг другу. Выделяется три основных вида антонимии. 1. Комплементарная, когда один из антонимов исключает присутствие второго ("живой" - "мертвый", "спать" - "бодрствовать"), при этом вместе они полностью охватывают некий смысловой домен (т.е. пары типа "сидеть" – "стоять", "деревянный" - "железный" не подходят, хотя и отвечают первому требованию). 2. Векторная, когда антонимы относятся к разнонаправленным действиям или процессам.E.g: "приехать" - "уехать", "вспыхнуть" – "потухнуть", "взлететь" – "приземлиться" и т.п. 3. Контрарная – антонимы обозначают две крайние точки одной шкалы: "жара" - "холод", "высокий" – "низкий".

Конверсивность

Конверсивы описывают одну и ту же ситуацию глазами разных участников, например, "продать" – "купить", "выиграть" – "проиграть", "опережать" (на N баллов) - "отставать" (на N баллов). Это может показаться похожим на антонимы, но там ситуации объективно противоположные ("живой" - "мертвый"), а здесь - одна, и разница – субъективна.  

Источники извлечения отношений и основные подходы

Существует два ключевых источника для выделения семантических отношений между понятиями в языке. Во-первых, можно использовать текстовые корпусы – этот способ применяли, в частности, авторы принстонского WordNet. Отношения извлекаются как с помощью правил, так и методами машинного обучения на корпусе с уже размеченными парами.

Правила имеют вид регулярных выражений типа "such (1) as (2),(3),(4)", где в слот номер 1 попадает гипероним, а в слоты 2-4 – гипонимы. Схожими эвристиками можно выделять и отношения других типов. Классическое описание такого подхода сделала одна из создателей WordNet Marty Hearst, более современные статьи по теме можно найти у специалистов по компьютерной лингвистике из Стэнфордского университета Дэниэла Журавски (Daniel Jurafsky) и Эндрю Энджи (Andrew Ng).

Второй принципиальный источник – машиночитаемые толковые и энциклопедические словари. Словарные определения представляют собой частично структурированный текст и, как правило, построены по единым шаблонам, что облегчает их обработку и создание общих алгоритмов для выделения отношений. Лексическая информация в словаре, в отличие от обычного текста, представлена в концентрированном виде и снабжена пометами, которые могут быть использованы как указатели того или иного отношения между определяемым словом и частью определения.

Первые опыты по выделению отношений из машиночитаемых словарей начались еще до появления WordNet, в период, когда словарные издания в электронном виде уже были доступны для исследователей, а объемные корпуса еще находились на стадии разработки. В 1980 году Роберт Амслер защитил в Техасском университете в Остине диссертацию [4] о структуре толкового словаря английского языка Merriam-Webster Pocket Dictionary (к тому времени уже переведенного в машиночитаемый формат). Основная идея работы - о наличии в типовом определении родового понятия и следующих за ним видовых различий - в дальнейшем воспроизводилась в большинстве исследований по теме (1, 2, 3). На русском материале в этом направлении активно работают исследователи из СПбГУ, немало публикаций можно найти здесь.

Инструменты

этот раздел будет допилен, пока копипаста из Обработки текста

Название Метод Языки Лицензия Платформа
Serelex[5] косинусная мера близости и метод ближайших соседей английский LGPL GNU/Linux, Microsoft Windows
PatternSim лексико-синтаксические шаблоны английский LGPL GNU/Linux, Microsoft Windows, Mac OS X
ReVerb машинное обучение английский Некоммерческая Java
RCO н/д русский Коммерческая Microsoft Windows
AlchemyAPI н/д английский Коммерческая Веб-сервис
OpenCalais н/д английский Коммерческая Веб-сервис
Томита-парсер словари и контекстно-свободные грамматики русский Особая GNU/Linux, Microsoft Windows, Mac OS X

Ссылки

Примечания

  1. Murphy, Lynne . Semantic relations and the lexicon: antonymy, synonymy, and other paradigms. Cambridge university press, 2003
  2. Виноградов В.С. Введение в переводоведение (общие и лексические вопросы) - М.: Издательство института общего среднего образования РАО, 2001.
  3. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. Изд-во Московского университета, 2011
  4. Amsler, R.A. The Structure of the Merriam-Webster Pocket Dictionary. Ph.D. dissertation in Computer Science, University of Texas, Austin, 1980
  5. Имеется демонстрация Serelex в виде лексико-семантического поисковика.