YARN/Инструкция

Материал из NLPub
Перейти к навигации Перейти к поиску

Инструкция по работе с открытым электронным тезаурусом YARN (Yet Another RussNet)

Warning.svg Автор: Михаил Мухин при поддержке РГНФ[1].

Общие принципы работы с тезаурусом

Что такое тезаурус и как он устроен

Тезаурус – это словарь, но словарь необычный. Слова в нем упорядочены не по алфавиту, а по смысловой близости, при этом сам словарь отражает четкую систему смыслов, выражаемых языком. По-другому тезаурусы часто называют семантическими, тематическими или идеографическими словарями.

Тезаурус может отражать разные типы смысловых отношений между словами, но наиболее существенные из них:

  • синонимия (отношения смыслового тождества): интересный – любопытный, бортпроводница – стюардесса;
  • антонимия (отношения смыслового противопоставления): горячий – холодный, плохо – хорошо;
  • гипо-гиперонимия (родо-видовые отношения, отношения общего и частного): мебель – кровать, врач – терапевт;
  • меронимия (отношение целого и его части): лицо – нос, книга – страница.

Кроме того, в тезаурусе обнаруживаются отношения между словами, входящими в одну смысловую группу. В обычном алфавитном толковом словаре Август и Апрель находятся в начале, а Февраль и Январь – в конце. В тезаурусе все названия месяцев окажутся рядом – так же, как и предметы мебели, одежды. Будут хорошо видны отношения между словами, называющими движение, речь или цветовые признаки. Легко понять, что такая организация требует от составителей гораздо более точно соотносить близкие по смыслу слова.

Тезаурус можно издать на бумаге. В настоящее время существует уже много таких источников, позволяющих не только изучать язык, но и легко подбирать материал для перевода, преподавания языка, находить близкие по смыслу выражения при составлении своего текста. Однако наиболее удобно и практично можно систематизировать связи между словами в электронном тезаурусе – ресурсе, в котором сегодня очень нуждаются.

Электронный тезаурус необходим для решения современного комплекса прикладных задач компьютерной лингвистики, информационного поиска, машинного перевода, искусственного интеллекта. Все эти направления связаны с разработкой словарных баз данных, а интеллектуальность операций требует, чтобы значения слов были представлены как структуры, связанные друг с другом по смыслу в семантическую сеть. Эта сеть строится на смысловых отношениях, которые были перечислены выше.

WordNet (WN, «сеть слов») – так был назван первый английский электронный тезаурус, который был создан в Принстонском университете (США) в середине 1980-х гг. и совершенствуется до сих пор[2]. С момента выхода первой версии WN прошли годы, и сегодня подобные ресурсы созданы на базе десятков языков. Научное и практическое значение тезаурусов стало очевидным фактом, поэтому их разработка поддерживается национальными академиями наук, финансируется из госбюджетов и за счет частных инвестиций. Электронный тезаурус, наряду с лингвистическим корпусом, стал необходимым источником языковых данных, не менее существенным, чем традиционные словари и грамматики. Между тем на материале русского языка такой ресурс, к сожалению, до сих пор не создан. Существует несколько начатых, но незаконченных проектов, которые основаны на модели WN. Именно поэтому наш тезаурус называется YARN (Yet Another RussNet).

Особенность YARN состоит в том, что он открыт для всех и будет наполняться и редактироваться по принципу Википедии и Русского Викисловаря. Если вы читаете эту инструкцию, значит, и вы можете присоединиться к нашему коллективу. На нашем форуме[3] обсуждаются текущие вопросы, связанные с развитием тезауруса. Сегодня YARN объединяет участников из Екатеринбурга, Москвы, Челябинска, Петрозаводска и других городов России. Мы приглашаем всех, кто имеет лингвистическое чутье, навыки обращения со словарями и просто интерес к словарной работе, поучаствовать в решении столь важной задачи.

Тезаурус YARN проходит стадию первичного тестирования, отладки и функционального расширения. Пожалуйста, суммируйте критические замечания и пожелания по работе редактора тезауруса и отправьте их по адресу: yarn-thes@ya.ru.

Правила конструирования синсетов

Единицей описания в тезаурусе является не отдельное слово, а синсет (или ряд синонимов). В синсет могут входить как однословные, так и неоднословные синонимы, аббревиатуры[4]: подводная лодкаподлодкасубмарина, программное обеспечениеПОсофт. В тезаурусе должны быть представлены все основные слова и составные наименования, поэтому синсет может состоять и из одного слова (выражения), если для соответствующего значения синонимов не существует (суффикс, стиральный порошок и т.п.). Синонимы могут быть однокорневыми и разнокорневыми словами: интересныйнебезынтересныйувлекательный; неинтересныйбезынтересныйскучный. По возможности составьте ряд наиболее полно, не теряя слова. Помните про существование аббревиатур и устойчивых составных наименований. В интерфейс тезауруса YARN встроены исходные сведения о значениях и слова и вероятных синонимах. Однако обязательно уточняйте значения слов и синонимию по существующим толковым и синонимическим[5] словарям! В толковых словарях синонимы можно встретить в основной части определения или в конце определения, после точки с запятой: «ЯСНЫЙ. 4. Определённый, точный; осознанный. Я-ая цель. Я-ые перспективы. Я. расчёт» (Большой толковый словарь под ред. С.А.Кузнецова, http://gramota.ru/slovari/dic).

При работе со словом следует обязательно рассмотреть все его значения – в особенности те, в которых это слово является синонимом к другим словам. Результат работы – создание исчерпывающего набора синсетов, в которых участвует слово.

Собирая синсет, следует помнить, что полностью совпадающих по значению и стилистическим особенностям слов (абсолютных синонимов) очень мало. Даже в таком классическом примере, как орфография – правописание, можно видеть родо-видовые отношения: в сферу правописания входит не только орфография, но и пунктуация. Язык – подвижная система, но все же это система, и она борется с дублями. Например, слова маслины и оливки являются полными синонимами, однако многие люди предпочитают маслинами называть черные плоды, а оливками – зеленые. На этот выбор влияет, конечно, и значение слова оливковый.

Абсолютных синонимов мало, но это не означает, что в синсете могут оказаться любые слова, значения которых хоть как-то близки. Неправильно считать синонимами пары гриб – волнушка, автомобиль – внедорожник, двигаться – бежать, даже если они легко заменяют друг друга в контексте. Это примеры гипо-гиперонимических (или родо-видовых) отношений. В тезаурусе такие слова должны располагаться на разных уровнях иерархии. Не являются синонимами и все слова одной смысловой группы. Например, слово гриб образует под собой целый «зонтик» слов: сыроежка, подберезовик, моховик и др. Это группа похожих слов, но не синсет. С другой стороны, из этой группы в одних синсетах окажутся подосиновик и красноголовик; белый гриб, белый и боровик.

Многозначные слова, рассматриваемые в разных значениях, входят и в разные синсеты: черствый (хлеб) – несвежий и черствый (человек) – бездушный. Случается, что слова развивают значения по одной модели, поэтому пара черствый – сухой может войти в два разных синсета – в прямом и переносном значениях.

У синсета есть обязательный элемент – определение. Определений может быть приведено несколько, но нужно обязательно указать (создать, отредактировать) главное, наиболее емкое и объединяющее слова, входящие в синсет. Чаще всего для составления такого определения недостаточно толкований обычного словаря. Во-первых, они могут содержать слова, входящие в синсет. Определять слово при помощи этого же самого слова бессмысленно. Во-вторых, конкретное толкование может не охватывать значения всех слов синсета. В-третьих, оно может быть отсылочным. Сравним толкования слов синсета нашествие – вторжение – завоевание – интервенция:

  • НАШЕСТВИЕ. Вторжение неприятеля в чью-л. страну, на чью-л. территорию. Это определение содержит слово из синсета вторжение.
  • ВТОРЖЕНИЕ. Процесс, действие по знач. глаг. вторгаться (вторгнуться). Отсылочное толкование. При этом значение глагола вторгнуться (силой войти, вступить, ворваться куда-л.) невозможно трансформировать в определение для существительного: Вход, вступление, врывание куда-л. силой (?).
  • ЗАВОЕВАНИЕ. Покорение вооруженной силой, овладение чем-л. Имеет слишком общий характер для синсета.
  • ИНТЕРВЕНЦИЯ. Вмешательство, обычно вооружённое, одного или нескольких государств во внутренние дела какой-л. страны; захватничество.

На это толкование повлияло представление о невоенной (например, экономической) интервенции, что связано с другим значением слова. Сомнительно включение в синсет указанного в статье синонима захватничество (поведение захватчика, действия захватчиков.). Последнее обозначает, скорее, свойство поведения, принцип политики, но не само покорение другого государства. С осторожностью следует использовать при работе данные энциклопедий. В их формулировках могут содержаться специфические научные элементы. У энциклопедии свои узнаваемые стилистические особенности, непригодные для текста лингвистического словаря. В то же время в энциклопедиях встречается информация, которая может обогатить словарное определение, сделать его более точным. Сравним фрагменты энциклопедического текста: ВТОРЖЕНИЕ – военная операция, заключающаяся в том, что вооруженные силы одной геополитической единицы входят на территорию, контролируемую другой геополитической единицей, в общем случае с целью либо завоевать территорию, либо сменить установившееся правительство, либо комбинация обоих (Википедия, http://ru.wikipedia.org). ВТОРЖЕНИЕ – вступление ВС одного или нескольких государств по суше, воздуху или с моря на территорию другого государства без его согласия. Под В. понимается также нарушение государственной границы (воздушного пространства, территориальных вод) государства воинскими подразделениями (патрулями), отдельными самолётами или кораблями другой страны для разведки, диверсий и др. (Словарь военных терминов). ИНТЕРВЕНЦИЯ (лат. interventio – вмешательство)  – военное, политическое или экономическое вмешательство одного или нескольких государств во внутренние дела другого государства, нарушающее его суверенитет (Википедия).

Конечно,такие термины, как «геополитическая единица», «установившееся правительство», «воздушное пространство», «территориальные воды» не могут быть использованы в определении синсета. С другой стороны идея «военного вмешательства», «военных действий», «нарушения суверенитета» и дополнительные знания об объекте описания могут найти свое место в итоговом толковании. Например, для синсета нашествие – вторжение – завоевание – интервенция его можно сформулировать так: «Насильственный захват одним или несколькими государствами территории другого государства с целью его покорения, обычно предполагающий ведение военных действий». Если определение составлено качественно (логично и точно), то по нему можно определить исходные слова-синонимы. В хорошем определении не должно быть слов, входящих в синсет.

Итак, нужно исходить из принципа дополнительности и относительности словарных данных. Работая с синсетами, используйте информацию, предложенную ресурсом, данные разных словарей и собственную языковую интуицию. При работе с толкованиями следует понимать, что среди них могут быть дубли, а набор выделяемых значений одного и того же слова в разных словарях часто не совпадает. К уже сделанным синсетам нужно относиться критически. Следует обязательно править как свои, так и чужие синсеты, если в них замечены ошибки.

Синонимы могут отличаться оттенками смысла, стилистическими особенностями или и тем, и другим. Прилагательные фиолетовый, лиловый и сиреневый отличаются спецификой обозначаемых оттенков цвета и степенью их насыщенности, т. е. только по смыслу. Слова умереть, скончаться и помереть означают одно и то же, но имеют стилистические различия: умереть – нейтральное слово, а скончаться и помереть – стилистически окрашенные. Глагол скончаться чаще употребляется в письменных текстах, официальной речи, а помереть – в разговорной сфере. Глаголы работать и вкалывать отличаются и по смыслу (вкалывать – значит «работать много и напряженно»), и стилистически (работать – нейтральное литературное слово, вкалывать – нелитературное, разговорно-сниженное). Смысловые различия между словами обобощаются в YARN на сегодняшний день в наиболее полном определении синсета (см. выше). Стилистической окраске слов в тезаурусе соответствуют специальные словарные пометы.

К слову в составе синсета нужно подобрать удачный пример употребления. Для этого лучше всего использовать корпусные данные. Чтобы проверить, как употребляется слово в значении, приписанном синсету, следует обращаться к материалам русских корпусов текстов – в первую очередь Национального корпуса русского языка. В дальнейшем функция обращения к корпусу будет предусмотрена в интерфейсе редактора синсетов.

Особенности использования словарных помет

Близкие по значению слова часто отличаются дополнительными особенностями: наличием эмоциональных компонентов значения, отнесенностью к определенному стилю общения, устарелостью или, наоборот, новизной употребления. В толковых и синонимических словарях эти особенности обычно отражают специальные словарные пометы, на которые следует обращать пристальное внимание.

Разные словари отличаются набором и частными особенностями использования помет.

В тезаурусе YARN используется 6 групп словарных помет.

Эмоциональные пометы

Применяются, если слово содержит добавочные компоненты эмоционального характера, обычно связанные с отношением к тому, что называет слово:

  • ласк. — ласкательное (бабуся, маслице);
  • шутл. — шутливое (берлога – жилище, драндулет – машина; амбре – дурной запах, зловоние; перл – о чем-либо редкостно плохом, бездарном);
  • неодобр. — неодобрительное (для выражения негативной оценки, неприятия чего-либо: бюрократ, вкусовщина);
  • пренебр. — пренебрежительное (для слов, выражающих снисходительное, высокомерное отношение: слабак, лакейский – раболепский, барахло);
  • презр. — презрительное (для слов, выражающих презрение, резкое порицание: баба – о мужчине, лизоблюд, стукач);
  • груб. — грубое (для грубо-экспрессивных слов: блевать, мурло, лапать – хватать, заткнуться – замолчать);
  • бран. — бранное (для слов, выражающих оскорбление: прохвост, мымра, скотина – о человеке).

Пометы, указывающие на размерность

Обычно такие слова содержат специальные суффиксы с уменьшительным или увеличительным значением:

  • уменьш. — уменьшительное (лавочка, мешочек);
  • увелич. — увеличительное (ножища, домина).

Помета уменьш. часто комбинируется с ласк. — для обозначения слов с уменьшительно-ласкательным значением (ножка, лошадка).

Стилистические пометы

Применяются, если слово употребляется в определенном стиле (или регистре) речи:

  • высок. — высокое (для слов высокого стиля – пафосного, торжественного характера: меч – то, что разит, карает, меч правосудия);
  • книжн. — книжное (для слов, употребляющихся преимущественно в письменной речи, в сфере интеллектуального общения: назидание – поучение, наставление);
  • трад.-поэт. — традиционно-поэтическое (для слов, используемых в поэтической традиции: пламенеть – быть охваченным сильным чувством, муза, младость);
  • офиц. — официальное (для слов, которые часто употребляются в документах и официально-деловых жанрах: разнарядка – распределение, учитывающее чьи-л. нужды, бракосочетание);
  • разг. — разговорное (для слов, которые употребляются в непринужденном общении: мобильник, брякнуться, коленка);
  • разг.-сниж. — разговорно-сниженное (то же, что в др. источниках прост. – просторечное, для слов, которые находятся за пределами литературного языка: башка, обалденный, переться);
  • жарг. — жаргонное (для слов, используемых в речи отдельных социальных групп: клава – клавиатура, лажать – фальшиво играть, хаза – квартира);
  • мат. — матерное, матизм.

Хронологические пометы

Указывают на время, динамику употребления и используются, если слово обладает оттенком устарелости или новизны:

  • неол. — неологизм (новое слово);
  • устар. — устаревшее;
  • истор.  — историческое (историзм);
  • совет. — советизм.

Помета устар. сопровождает слова-архаизмы, которые устарели сами по себе и имеют современные синонимы: рамена (плечи), око (глаз), третьего дня (позавчера). Слова-историзмы (помета истор.) обозначают реалии, которые стали неактуальными, предметы, которые вышли из употребления: плаха (для казни), алтын (монета), генерал-аншеф (воинская должность) и т. п. Особая группа историзмов – слова, появившиеся в советскую эпоху и сегодня вышедшие из активного употребления: буденовка, ударник (в учебе, производстве), пионер (член детской организации) и т. п. Для таких слов предусмотрена помета совет.

Доменные (по сфере употребления) и территориальные пометы

Применяются, если слово ограничено в употреблении определенной сферой или территорией. В словарях можно встретить огромное количество помет, указывающих на сферу употребления (мат., физ., горн., зоол., информ., юрид., полит. и т.п.). В YARN на сегодняшнем этапе принято решение использовать одну обобщающую помету спец. — специальное. Если слово бытует в какой-либо местности и поэтому неизвестно всем носителям языка, оно снабжается пометой обл. — областное (диалектное): вехотка (то же, что мочалка).

Пометы для переносных значений

Семантическая помета перен. используется для указания на переносное значение слова: окно (временной промежуток), зеленый (неопытный), вертеться (суетиться, хлопотать).

Пошаговая инструкция по сборке синсетов в тезаурусе YARN

Тезаурус YARN только начинает создаваться. Его концепция, технологические особенности и интерфейс находятся в постоянном развитии. Не все запланированные функции работы с лингвистической информацией пока доступны для пользователя. Поэтому и инструкция по использованию ресурса все время получает новую редакцию. Данная версия относится к состоянию тезауруса на ноябрь 2013 г.

1. В главном окне (http://russianword.net/) нажать на ссылку Все слова. Открывается список слов, упорядоченных по убыванию частоты. Выбрать слово для работы с синсетами. Нажать на ссылку Редактор синсетов. Слово можно также набрать в строке поиска (Введите слово).

Или: Открыть окно Редактора синсетов (http://russianword.net/editor). Нажать на ссылку Выбрать слово. В раскрывшемся списке выбрать необходимое слово или набрать его в верхней части окна для поиска.

Вход в редактор пока возможен только через аккаунт Facebook.

2. Изучить значения слова (Определения слова в верхней левой части окна). Изучить возможный набор синонимов (Синонимы в нижней левой части окна). Оценить возможное количество синсетов, в которые будет входить слово.

Списки определений и синонимов могут быть неполными или неточными. Кроме того, не все толкования снабжены в редакторе примерами употребления слов. Поэтому для справки следует пользоваться толковыми и синонимическими словарями.

3. В правой верхней части окна нажать + Добавить синсет. В списке определений слова в левой части кликнуть на значение, соответствующее синсету. Определение появляется в области формирования синсета. При необходимости можно скорректировать определение или ввести принципиально новое, нажав на + Добавить определение.

Формулируя значение синсета, старайтесь не использовать слова, которые входят в сам синсет.

Выбрать синоним (синонимы) в левой нижней части экрана, нажав на +. Кликнув на одно из определений в раскрывшемся списке, можно добавить его в область формирования синсета.

4. Таким же образом при необходимости добавить другой синсет (синсеты).

Желательно не бросать слово, если не отработаны все значения, образующие ряды синонимов.

5. Перейти к другому слову или закончить работу, нажав на кнопку Готово в верхней части окна.

Примеры сборки синсетов

1. В списке слов выбираю, например, слово МАШИНА:

YarnEditor1.png

Получаю информацию о слове и синсетах, в которые оно входит:

YarnEditor2.png

Нажимаю на Редактор синсетов. Перехожу в редактор:

YarnEditor3.png

2. Изучаю значения слова и возможные синонимы. Используя эти списки и дополнительные источники (см. ссылки выше), делаю вывод о нескольких значениях слова МАШИНА, входящих в разные синсеты: Машина = механизм, Машина = Транспортное средство (любое), Машина = автомобиль.

3. Нажимаю на + Добавить синсет. Выбираю необходимое толкование слова МАШИНА, раскрываю значения слова МЕХАНИЗМ, выбираю нужное:

YarnEditor4.png

На основании одного из толкований добавляю отредактированное обобщающее определение, в котором нет слов из синсета: Устройство или или совокупность устройств, совершающие какую-л. полезную работу путем преобразования одного вида энергии в другой. Синсет готов.

4. Поочередно создаю другие синсеты. В списке возможных слов отсутствует составное наименование ТРАНСПОРТНОЕ СРЕДСТВО (обязательно проверить, нажав на ссылку Добавить синоним). Эту единицу нужно добавить в тезаурус. На главной страние перехожу по ссылке Все слова и — далее — Добавить слово. Впечатываю слово (сочетание слов) в строку ввода:

YarnEditor5.png

Нажимаю Отправить. Возвращаюсь в редактор синсетов. Нажимаю на ссылку + Добавить синоним в левой нижней части экрана:

YarnEditor6.png

Нахожу нужное слово. Нажимаю на кнопку Выбрать слово. После этого ТРАНСПОРТНОЕ СРЕДСТВО оказывается в списке возможных синонимов. Добавляю эту единицу во 2-й синсет. Добавляю обобщающее определение: устройство, обычно снабженное колесами и предназначенное для перевозки по дорогам людей или грузов. К 3-му синсету присоединяю соответствующие определения и слова АВТОМОБИЛЬ, АВТОМАШИНА, ТАЧКА, АВТО. Исходя из анализа словарей и собственной интуции добавляю в ряд слова ДРАНДУЛЕТ и КОЛЁСА.

Употребление КОЛЁСА (во мн. числе со значением Автомобиль) традиционно считается значением слова КОЛЕСО. Однако в случае, если слово употребляется грамматически нестандартно и так должно фигурировать в синсете, будем считать, что это отдельная лексическая единица. Добавляю КОЛЁСА в список слов так же, как и ТРАНСПОРТНОЕ СРЕДСТВО (см. выше), а после – в синсет.

Добавляю более точное и обобщающее определение: колесное транспортное средство с двигателем внутреннего сгорания, предназначенное для перевозки пассажиров и грузов по асфальтированным или грунтовым дорогам.

5. Нажимаю на кнопку Готово в верхней части окна. Если через главное окно перейти к списку синсетов, то в верхней части списка появится результат работы:

YarnEditor7.png

Примечания

  1. Исследование выполняется при финансовой поддержке РГНФ (проект № 13-04-12020 «Новый открытый электронный тезаурус русского языка»).
  2. http://wordnet.princeton.edu/
  3. https://groups.google.com/forum/#!forum/yarn_org
  4. Нужно различать аббревиатуры (сложносокращенные слова) и графические сокращения, которые как слова не употребляются: ПН (понедельник), ун-т (университет), с.-х., с/х (сельское хозяйство). Способ проверки простой. Можно сказать: работать в МЧС, пройти КПП, сходить в ЖЭК. Но не говорят: встретимся в ПН, учусь в ун-те. Графические сокращения, в отличие от аббревиатур, в основную часть словаря-тезауруса не входят.
  5. При работе используйте словари синонимов – например, под ред. З. Е. Александровой, Ю. Д. Апресяна, Л. Г. Бабенко, К. С. Горбачевича, А. П. Евгеньевой, А. Ю. Кожевникова и др.