Краудсорсинг

Материал из NLPub
Перейти к: навигация, поиск
NLPub-QA.svgЭто уже обсуждалось на NLPub Q&A!
Предмет данной статьи обсуждался на нашем вопрос-ответном сервисе.

Краудсорсинг — способ получения услуг, идей и информации путём соучастия большого количества людей в Интернете. Наиболее известными ресурсами, созданными при помощи краудсорсинга, являются сетевая энциклопедия «Википедия», картографический проект OpenStreetMap и сервис по распознаванию книг reCAPTCHA. Среди российских работ стоит отметить русский «Викисловарь», открытый корпус русского языка OpenCorpora (СПбГУ), а также каталог и сообщество лингвистических ресурсов NLPub.

Разметка

Процесс разметки при помощи краудсорсинга организован следующим образом. По запросу участников платформа краудсорсинга назначает им одно или несколько заранее подготовленных заданий, представленных в форме опроса с закрытым или открытым ответом. Пример задания: «оцените смысловую связь слов СМИ и радио» с вариантами ответов «не связаны», «слабо связаны», «связаны», «сильно связаны» (такие задания использовались в RUSSE). Полученные от участников ответы записываются. В целях повышения надёжности ответов каждое задание независимо выполняется несколькими разными участниками, при этом агрегация ответов осуществляется путём голосования большинства (в некоторых реализациях применяется взвешенное голосование большинства или подходы на основе статистического вывода).

Crowdsourcing.svg

Платформы

В мировой практике стандартом де факто среди платформ краудсорсинга является Amazon MTurk. Размещение заданий на MTurk требует регистрации по почтовому адресу для выставления счёта в США. Таким образом, граждане РФ не имеют возможности использовать MTurk. Аналогичные сервисы (CrowdFlower, Microworkers, Prolific Academic, и др.) не накладывают ограничений на географию пользователей, но при этом либо являются дорогостоящими, либо в их аудиторию не входят носители русского языка. Российские исследователи вынуждены разрабатывать и поддерживать собственное программное обеспечение для разметки. В частности, в конце 2014 г. компания «Яндекс» запустила сервис Яндекс.Толока для удовлетворения корпоративных потребностей в размеченных лингвистических данных при помощи краудсорсинга.

Среди открытых решений для организации краудсорсинга можно выделить OpenCorpora, систему WebAnno и движок Mechanical Tsar.

Ссылки

См. также

Примечания