Обработка текста

Материал из NLPub
Перейти к: навигация, поиск

Содержание


Графематический анализ

Название Метод Языки Лицензия Платформа
АОТ словарный русский, английский LGPL GNU/Linux, Microsoft Windows
Lemmatizer словарный русский, английский GPL GNU/Linux
FreeLing правила русский, английский, итальянский, испанский, португальский, астурийский, валийский, галисийский, каталанский GPL + Коммерческая GNU/Linux
Stanford CoreNLP эвристика английский GPL Java
Apache OpenNLP регулярные выражения, машинное обучение английский Apache License Java
Twitter NLP and Part-of-Speech Tagger машинное обучение английский GPL Java
NLTK регулярные выражения, машинное обучение английский Apache License Python
Greeb регулярные выражения русский, английский MIT Ruby
Solarix правила русский, английский Коммерческая Microsoft Windows

Морфологический анализ

Название Метод Языки Лицензия Платформа
АОТ словарный русский, английский, немецкий LGPL GNU/Linux, Microsoft Windows
Snowball алгоритм Портера русский, английский BSD GNU/Linux, Microsoft Windows
Stemka словарный русский BSD GNU/Linux, Microsoft Windows
pymorphy словарный русский, английский, немецкий MIT Python
Myaso словарный русский MIT Ruby
phpmorphy словарный русский, английский, немецкий LGPL PHP
FreeLing словарный русский, англиский, итальянский, испанский, португальский, астурийский, валийский, галисийский, каталанский GPL + Коммерческая GNU/Linux
NLTK машинное обучение английский Apache License Python
MAnalyzer словарный русский, английский MIT GNU/Linux
SVMTool метод опорных векторов русский, английский LGPL Perl
Twitter NLP and Part-of-Speech Tagger машинное обучение английский GPL Java
Stanford Log-linear Part-Of-Speech Tagger машинное обучение английский, немецкий, арабский, китайский GPL Java
RussianMorphology словарный русский Apache License Java
mystem словарный русский Некоммерческая GNU/Linux, Microsoft Windows
TreeTagger деревья принятия решений русский, английский, немецкий, французский, итальянский, нидерландский, испанский, болгарский, греческий, португальский, китайский, суахили, латинский, эстонский Некоммерческая GNU/Linux, Microsoft Windows
TnT алгоритм Витерби русский, английский Некоммерческая GNU/Linux
RCO словарный русский Коммерческая Microsoft Windows
Solarix словарный русский, английский Коммерческая GNU/Linux, Microsoft Windows
ОРФО словарный русский, украинский, английский, французский, немецкий, испанский, итальянский, португальский Коммерческая Microsoft Windows

Синтаксический анализ

Название Метод Языки Лицензия Платформа
АОТ грамматика HPSG русский, английский, немецкий LGPL GNU/Linux, Microsoft Windows
MaltParser машинное обучение русский[1], английский Собственная Java
MSTParser максимизация остовного дерева английский, португальский Apache License Java
Link Grammar Parser грамматика связей русский[2], английский BSD GNU/Linux, Microsoft Windows
AGFL грамматика аффиксов над конечной решёткой русский[3], английский, французский, испанский, арабский GPL GNU/Linux, Microsoft Windows
NLTK машинное обучение английский Apache License Python
Solarix правила русский, английский Коммерческая GNU/Linux, Microsoft Windows
ABBYY Compreno правила русский Коммерческая Microsoft Windows
DictaScope правила русский Коммерческая FreeBSD, Microsoft Windows
ЭТАП-3 правила русский, английский н/д Microsoft Windows
Синтактико-Семантический Анализ Русского Языка функциональная модель языка русский Коммерческая Веб-сервис
The Stanford Parser машинное обучение английский, немецкий, арабский, китайский, болгарский, итальянский, португальский GPL Java

Проверка правописания

Название Метод Языки Лицензия Платформа
GNU Aspell н/д более 70 языков, в том числе русский и английский LGPL GNU/Linux, Microsoft Windows
Hunspell н/д более 100 языков, в том числе русский и английский GPL, LGPL, MPL GNU/Linux, Microsoft Windows, Mac OS X
ОРФО Speller н/д русский, украинский, английский, французский, немецкий, испанский, итальянский, португальский Коммерческая Microsoft Windows
ОРФО Grammar Checker н/д русский Коммерческая Microsoft Windows

Проверка грамматики

Название Метод Языки Лицензия Платформа
LanguageTool правила английский, русский LGPL Java

Расстановка переносов

Название Метод Языки Лицензия Платформа
Text::Hyphen шаблоны переносов TeX более 30 языков, в том числе русский и английский MIT Ruby
ОРФО н/д русский Коммерческая Microsoft Windows

Извлечение ключевых слов

Название Метод Языки Лицензия Платформа
Kea Kea английский GPL Java
Maui Kea + Wikipedia английский GPL Java
Tesuçk DegExt, TextRank русский Некоммерческая Веб-сервис
Content Analyzer TF-IDF русский Freeware Microsoft Windows
TextAnalyst нейронная сеть русский Коммерческая Microsoft Windows
AlchemyAPI н/д английский Коммерческая Веб-сервис
Семантическое зеркало н/д русский Коммерческая Веб-сервис
Extractor генетический алгоритм английский, французский, японский, немецкий, испанский, корейский Коммерческая Веб-сервис
TerMine C-value английский Коммерческая Веб-сервис

Автоматическое реферирование

Название Метод Языки Лицензия Платформа
Content Analyzer TF-IDF русский Freeware Microsoft Windows
Extractor генетический алгоритм английский, французский, японский, немецкий, испанский, корейский Коммерческая Веб-сервис

Тематическая классификация

Название Метод Языки Лицензия Платформа
Maui Kea + Wikipedia английский GPL Java
Семантическое зеркало н/д русский Коммерческая Веб-сервис
AlchemyAPI н/д английский Коммерческая Веб-сервис

Извлечение именованных сущностей

Название Метод Языки Лицензия Платформа
FreeLing конечный автомат русский, английский, итальянский, испанский, португальский, астурийский, валийский, галисийский, каталанский GPL + Коммерческая GNU/Linux
OpenCalais н/д английский Некоммерческая/Коммерческая Веб-сервис
AlchemyAPI н/д английский Коммерческая Веб-сервис
DBPedia Spotlight н/д английский Apache License Java, Scala, Веб-сервис
Yahoo! Content Analysis н/д английский Коммерческая Веб-сервис
CiceroLite н/д английский, арабский, китайский и др. Коммерческая Microsoft Windows, Apple OS X, Linux, Solaris, веб-сервис
Stanford NER машинное обучение (Conditional Random Field sequence models) английский, немецкий GPL GNU/Linux, Windows, Mac
LingPipe машинное обучение английский Коммерческая Java

Извлечение отношений

Название Метод Языки Лицензия Платформа
Serelex[4] косинусная мера близости и метод ближайших соседей английский LGPL GNU/Linux, Microsoft Windows
PatternSim лексико-синтаксические шаблоны английский LGPL GNU/Linux, Microsoft Windows, Mac OS X
RCO н/д русский Коммерческая Microsoft Windows
AlchemyAPI н/д английский Коммерческая Веб-сервис
OpenCalais н/д английский Коммерческая Веб-сервис

Анализ тональности

Название Метод Языки Лицензия Платформа
SentiStrength словарный русский (заявлен), английский, финский, немецкий, португальский, франузкий, арабский, польский, шведский, греческий, валлийский, итальянский Коммерческая Java, .NET
Аналитический курьер правила русский Коммерческая Microsoft Windows
DictaScope правила русский Коммерческая FreeBSD, Microsoft Windows
RCO правила русский Коммерческая Microsoft Windows
AlchemyAPI английский Коммерческая Веб-сервис
Sentiment140 машинное обучение английский, испанский Коммерческая Веб-сервис
ConveyAPI машинное обучение английский Коммерческая Веб-сервис

Информационный поиск

Название Метод доступа Тип системы Лицензия Платформа
Apache Lucene Core Библиотека полнотекстовый поиск, индекс Apache License Java
Apache Solr HTTP полнотекстовый поиск, индекс Apache License Java
elasticsearch HTTP полнотекстовый поиск, индекс Apache License Java
Bobo HTTP фасетный поиск, индекс Apache License Java
Picky HTTP фасетный поиск, индекс LGPL Ruby
Whoosh HTTP полнотекстовый поиск, индекс BSD Python
Sphinx Sphinx API Protocol полнотекстовый поиск, индекс GPL GNU/Linux, Microsoft Windows
Xapian Библиотека полнотекстовый поиск, индекс GPL GNU/Linux, Microsoft Windows
PostgreSQL Full Text Search SQL полнотекстовый поиск, индекс BSD PostgreSQL

Машинный перевод

Название Метод Языки Лицензия Платформа
Apertium конечные преобразователи, скрытые марковские модели английский, французский, испанский, португальский, каталонский, галисийский, окситанский GPL GNU/Linux, Microsoft Windows
Moses машинное обучение русский[5], английский, француский, немецкий, испанский, шведский, чешский LGPL GNU/Linux, Microsoft Windows

Интегрированные пакеты

Название Описание Состав Лицензия Платформа
GATE Архитектура общего назначения для обработки естественного языка средства разработки, групповое программное обеспечение, фреймворк, общая программая архитектура, диаграммы бизнес-процессов LGPL Java
Apache UIMA Архитектура управления неструктурированной информацией средства разработки, фреймворк, компоненты, инфраструктура Apache License Java или C++
NLTK Набор инструментов для обработки естественного языка средства разработки, фреймворк, компоненты, инфраструктура Apache License Python

Примечания

  1. Для MaltPaser доступен парсер русского языка (внизу страницы).
  2. Существует неофициальная адаптация для русского языка.
  3. Существует проект The AGFL for the Russian Language.
  4. Имеется демонстрация Serelex в виде лексико-семантического поисковика.
  5. Известна адаптация системы Moses для русского языка в виде демонстрационного Веб-сервиса.
Личные инструменты
Пространства имён

Варианты
Действия
NLPub
Навигация
Инструменты