Eureka Engine

Материал из NLPub
Перейти к: навигация, поиск

Eureka Engine — это высокоскоростная система лингвистического анализа текстов модульного типа, позволяющая извлекать новые знания и факты из неструктурированных данных огромных объемов.

EUREKA ENGINE включает в себя следующие модули: определение языка сообщения (24 языка), автоматическое определение тональности документа, определение тематики (автоклассификация), выделение именованных сущностей и имен собственных (NER), нормализация слов, разметка частей речи (морфоанализ).

Доступность

Eureka Engine доступна для компаний:

1. Как внешний сервис с доступом через промышленные стандарты REST API.

2. И как самостоятельная система, разворачиваемая внутри закрытой сети компании.

Компоненты

Все модули используют статистические алгоритмы, вследствие чего имеют высокую скорость работы.

Модуль автоматического определения языка (LanguageDetector)

LanguageDetector — позволяет автоматически определить язык (или несколько языков) входящего сообщения (как большого объема, так и малого - твит). Средняя точность определения языков 97-98%. Тем не менее у языков, относящихся к одной языковой группе (испанский и португальский из латинской группы языков) точность определения может быть около 90%. На данный момент в модуле реализовано определение следующих языков:

Германская группа: английский, голландский, немецкий, норвежский, датский.

Латинская группа: французский, испанский, итальянский, португальский.

Кириллическая группа: русский, украинский, белорусский, татарский, сербский, болгарский, казахский.

Славянская группа (латиница): польский, чешский.

Другие: финский, арабский.

Модуль автоматического определения тональности (SentiFinder)

SentiFinder — определяет три вида тональности сообщения (позитивную, негативную и нейтральную) относительно заданного объекта тональности как в пределах одного предложения, так и усредненную по всему документу. Объектом тональности может быть как отдельное слово, так и словосочетание. Средняя точность по трем видам тональности около 86%.

Модуль автоматической классификации текстов (TextClassifier)

TextClassifier автоматически классифицирует русскоязычные документы любого объема по заранее определенным классам. Модуль реализован на основе метода опорных векторов. На данный момент возможно классификация по следующим классам:

1. Наука и технологии

2. Игры

3. Авто

4. Политика

5. Путешествия

6. Спорт

7. Здоровье

8. Семья

9. Бизнес и экономика

10. Развлечения

11. Мода

12. Недвижимость

13. Кулинария

Модуль автоматического определения именованных сущностей (NER)

NER реализован в виде отдельного сервиса, который позволяет классифицировать именованные объекты в тексте на пять классов: физические лица, юридические лица, географические объекты, названия продуктов и брендов и именованные события. Работает как с русским, так и с английским языком.

В таблице представлена точность и полнота определения системой типа именованных сущностей для русского языка.

Тип Точность Полнота F1
Физ.лица 94.04 94.28 94.16
Гео.объекты 92.19 91.76 91.97
Юр.лица 85.27 86.52 85.89
Продукты 79.20 80.03 79.62
События 80.15 76.27 78.16
Среднее 86.18 85.78 85.97


Модуль нормализации слов русского языка

Модуль предназначен для нормализации слов – приведению слова к словарной форме, т.е. к единственному числу именительного падежа для существительных или к инфинитиву для глаголов. Модуль реализован с применением морфологического анализа, словарей русского языка и разрешения омонимии. Для снятия омонимии анализируется н-граммы и морфологические характеристики слов: с помощью лингвистических правил выбирается одно слово из множества вариантов, предлагаемых морфословарем.

Модуль морфологического анализа русского языка

Модуль предназначен для морфологического анализа слов предложения – определения частей речи слов, их морфологических характеристик. Применяется в лингвистических службах - определении тональности, распознавании сущностей, нормализации. Морфологический анализ реализован на основе морфологических словарей и комбинаторных алгоритмов. Наряду с морфологическими характеристиками слова возможен вывод всех его словоформ и основы (стемминг). Анализатор разрешает омонимию и согласует словосочетания по морфоатрибутам.

Примечания

Ссылки

См. также

Примечания