Lexical Relations from the Wisdom of the Crowd

Материал из NLPub
(перенаправлено с «LRWC»)
Перейти к: навигация, поиск

Lexical Relations from the Wisdom of the Crowd (сокр. LRWC) — набор данных, представляющий суждения людей о семантических связях между словами, полученные при помощи краудсорсинга.

Доступность

Набор данных LRWC доступен на условиях лицензии Creative Commons Attribution-ShareAlike: LRWC 1.0.

LRWC 1.0

LRWC-1.0-Toloka.png

LRWC 1.0 представляет единственный класс семантических отношений — родо-видовые отношения, то есть связи между более частным словом (гипонимом) и более общим словом (гиперонимом).

Для подготовки данных использованы материалы русского Викисловаря, тезауруса РуТез и других источников, в том числе полученных автоматическим путём, см. Watset и Hyperstar. На основе этих источников построены гиперонимы для трёхсот наиболее частотных имён существительных по материалам НКРЯ.[1]

Каждая родо-видовая пара была размечена на платформе «Яндекс.Толока» семью разными участниками, каждый из которых является носителем русского языка, достигшим двадцатилетнего возраста на момент первого февраля 2017 г. Участникам задавался вопрос вида «Правда ли, что котёнок — это разновидность млекопитающего?», где «котёнок» и «млекопитающее» — это гипоним и гипероним, соответственно. Склонение слов осуществлялось при помощи морфологического анализатора и генератора pymorphy2.

Всего размечено родо-видовых пар: 9 322, из них них 3 940 получили положительные оценки, 5 382 получили отрицательные оценки.

Ссылки

См. также

Примечания