Семантический словарь русского языка

Материал из NLPub
Перейти к: навигация, поиск

Семантический словарь русского языка — словарь, составленный проф. В. А. Тузовым из СПбГУ для решения проблемы семантического анализа текстов на русском языке. Суть решения заключается в том, что семантический анализатор, используя морфологический и семантический словари, снимает с исходного текста оболочку русского языка и строит эквивалентный текст на семантическом языке. В книге описываются семантический язык, семантический словарь русского языка и приводится алгоритм семантического анализа.[1]

Содержание

Доступность

Словарь Тузова можно скачать на сайте Санкт-Петербургского экономико-математический института РАН. По состоянию на 2007 год словарь содержал 164 тысячи слов, распределенных по 1638 классам. К большому сожалению, лицензионные ограничения не позволяют опубликовать работу на NLPub в открытом виде. Для получения полного словаря и классификатора с декабря 2012 года можно обратиться к представителям СПб ЭМИ РАН.

Структура

Словарь базисных понятий русского языка содержит слова, которые нельзя выразить через другие более простые понятия. Он содержит около 18000 существительных, называющих физические и абстрактные объекты, более тысячи базисных прилагательных и около тысячи базисных глаголов, которые, в конечном счёте, были заменены отглагольными существительными. Остальные слова – более 90000 слов – являются производными, то есть их смысл выражается в виде суперпозиции, построенной из базисных функций и базисных понятий. Все множество понятий разбито на иерархическую систему классов.

Словарная статья компьютерного семантического словаря содержит заголовочное слово и его толкование на семантическом языке. Многие слова – а это, как правило, часто используемые слова – содержат более одного толкования. Наиболее многозначны предлоги, описание некоторых из них содержит более сотни альтернатив.

Пример

Типовая словарная статья продемонстрирована в статье «О пользе случайностей», опубликованной в журнале «Компьютерра».[2]

Слово «адресовать» в толковом словаре С. И. Ожегова определяется как послать по какому-нибудь адресу, хотя для анализа желательно, конечно, определить его точнее, а именно выполнить действие перемещения чего-либо куда-либо используя чей-то адрес; формула этого высказывания на разработанном семантическом языке будет иметь вид:

N%~АДРЕС$12/0171(PerfCaus(Uzor (!Им,АДРЕС$12/0171(!Дат),#), Mov(!Вин, !Откуда, !Через,!Дат\!кДат\!Куда)))

В этой формуле слова «адресовать» написано:

  • слово входит в смысловой кластер «адрес» (АДРЕС$12/0171);
  • его толкование: выполнять действие (PerfCaus), используя (Uzor) адрес (АДРЕС$12/0171) для перемещения (Mov) чего-то (!Вин) куда-то (!Дат\!кДат\!Куда);
  • слово может находиться в отношениях с существительными в именительном (!Им) в роли деятеля, дательным (!Дат) в роли владельца адреса (АДРЕС$12/0171(!Дат)), иметь связь с существительным в винительном падеже, обозначающем объект перемещения (первый аргумент Mov) и указаниями места в разных видах, в том числе в сложно-производном (!Откуда).

Ссылки

Примечания

  1. Тузов В.А. Компьютерная семантика русского языка. // СПб.: Изд-во СПбГУ, 2004. — 400 с.
  2. О пользе случайностей — «Компьютерра» №25 от 02 июля 2002 года.