Обработка текста

Материал из NLPub

Графематический анализ

Название Метод Языки Лицензия Платформа
АОТ словарный русский, английский LGPL Linux, Windows
Lemmatizer словарный русский, английский GPL Linux
FreeLing правила русский, английский, итальянский, испанский, португальский, астурийский, валийский, галисийский, каталанский GPL + Коммерческая Linux
Stanford CoreNLP эвристика английский GPL Java
Apache OpenNLP регулярные выражения, машинное обучение английский Apache License Java
Twitter NLP and Part-of-Speech Tagger машинное обучение английский GPL Java
NLTK регулярные выражения, машинное обучение английский Apache License Python
TextBlob регулярные выражения, машинное обучение английский MIT Python
MBSP машинное обучение английский GPL Python
Pattern правила, регулярные выражения английский, испанский, немецкий, французский, итальянский, нидерландский BSD Python
Greeb регулярные выражения русский, английский MIT Ruby
natural регулярные выражения английский, испанский, персидский, итальянский, русский MIT Node.js
Solarix правила русский, английский Коммерческая Linux, Windows
tokenizer правила русский, английский, немецкий GPL C
AskNet правила русский, английский Коммерческая Windows

Морфологический анализ

Название Метод Языки Лицензия Платформа
АОТ словарный русский, английский, немецкий LGPL Linux, Windows
Snowball алгоритм Портера русский, английский BSD Linux, Windows
Stemka словарный русский Собственная Linux, Windows
pymorphy словарный русский, английский, немецкий MIT Python
Myaso алгоритм Витерби русский, английский MIT Ruby
Eureka Engine машинное обучение русский Коммерческая Веб-сервис
ISPRAS API Texterra машинное обучение русский, английский Бесплатная для исследовательских целей + коммерческая Веб-сервис, Java, Python
pymystem3 разрешение омонимии русский, английский LGPLv3 + некоммерческая Python, C++
phpmorphy словарный русский, английский, немецкий LGPL PHP
Pullenti SDK словарный русский, английский, украинский Non-Commercial Freeware .NET, .NET Core, Java и Python
FreeLing словарный русский, англиский, итальянский, испанский, португальский, астурийский, валийский, галисийский, каталанский GPL + Коммерческая Linux
NLTK машинное обучение английский Apache License Python
TextBlob машинное обучение английский MIT Python
MBSP машинное обучение английский GPL Python
Pattern правила, регулярные выражения английский, испанский, немецкий, французский, итальянский, нидерландский BSD Python
natural правила английский, французский, японский MIT Node.js
MAnalyzer словарный русский, английский MIT Linux
hunpos алгоритм Витерби английский, корейский BSD Linux, Windows
SVMTool метод опорных векторов русский, английский LGPL Perl
Twitter NLP and Part-of-Speech Tagger машинное обучение английский GPL Java
Stanford Log-linear Part-Of-Speech Tagger машинное обучение английский, немецкий, арабский, китайский GPL Java
RussianMorphology словарный русский Apache License Java
RussianPOSTagger словарный русский GPL Java
mystem словарный русский Некоммерческая Linux, Windows
TreeTagger деревья принятия решений русский, английский, немецкий, французский, итальянский, нидерландский, испанский, болгарский, греческий, португальский, китайский, суахили, латинский, эстонский Некоммерческая Linux, Windows
TnT алгоритм Витерби русский, английский Некоммерческая Linux
Морфер словарный русский, украинский Коммерческая Windows, Веб-сервис
RCO словарный русский Коммерческая Windows
AskNet словарный, правила русский, английский Коммерческая Windows
Solarix словарный русский, английский Коммерческая Linux, Windows
ОРФО словарный русский, украинский, английский, французский, немецкий, испанский, итальянский, португальский Коммерческая Windows
STARLING словарный русский н/д Windows
mystem-scala словарный русский MIT + некоммерческая Java on Linux, Windows
zamgi машинное обучение, словарный русский некоммерческая .NET on Linux, Windows
zamgi машинное обучение, словарный английский некоммерческая .NET on Linux, Windows

Синтаксический анализ

Название Метод Языки Лицензия Платформа
АОТ грамматика HPSG русский, английский, немецкий LGPL Linux, Windows
ISPRAS API Texterra машинное обучение русский, английский Бесплатная для исследовательских целей + коммерческая Веб-сервис, Java, Python
MaltParser машинное обучение русский, английский Собственная Java
MSTParser максимизация остовного дерева английский, португальский Apache License Java
Link Grammar Parser грамматика связей русский, английский BSD Linux, Windows
AGFL грамматика аффиксов над конечной решёткой русский[1], английский, французский, испанский, арабский GPL Linux, Windows
NLTK машинное обучение английский Apache License Python
MBSP машинное обучение английский GPL Python
Pattern правила, регулярные выражения английский, испанский, немецкий, французский, итальянский, нидерландский BSD Python
Solarix правила русский, английский Коммерческая Linux, Windows
ABBYY Compreno правила русский Коммерческая Windows
AskNet правила русский, английский Коммерческая Windows
DictaScope правила русский Коммерческая FreeBSD, Windows
ЭТАП-3 правила русский, английский н/д Windows
Синтактико-Семантический Анализ Русского Языка функциональная модель языка русский Коммерческая Веб-сервис
The Stanford Parser машинное обучение английский, немецкий, арабский, китайский, болгарский, итальянский, португальский GPL Java
ZPar машинное обучение английский, китайский, румынский GPL v3 C++
mate-tools машинное обучение английский, немецкий, китайский, испанский GPL v2 Java
zamgi машинное обучение русский некоммерческая .NET on Linux, Windows

Проверка правописания

Название Метод Языки Лицензия Платформа
GNU Aspell н/д более 70 языков, в том числе русский и английский LGPL Linux, Windows
Hunspell н/д более 100 языков, в том числе русский и английский GPL, LGPL, MPL Linux, Windows, OS X
Pattern правила, регулярные выражения английский, испанский, немецкий, французский, итальянский, нидерландский BSD Python
Spellah n-граммы поисковой машины английский MIT Веб-сервис, Node.js
Yandex speller орфографический словарь русский, украинский, английский своя Веб-сервис
ОРФО Speller н/д русский, украинский, английский, французский, немецкий, испанский, итальянский, португальский Коммерческая Windows
ОРФО Grammar Checker н/д русский Коммерческая Windows
Орфограммка правила, словарный, машинное обучение русский, английский, латинский Коммерческая Веб-сервис
LanguageTool правила английский, русский LGPL Java

Расстановка переносов

Название Метод Языки Лицензия Платформа
Text::Hyphen шаблоны переносов TeX более 30 языков, в том числе русский и английский MIT Ruby
ОРФО н/д русский Коммерческая Windows

Построение конкордансов

Название Метод Языки Лицензия Платформа
Iramuteq иерархическая нисходящая классификация французский GPL R и Python
NooJ н/д н/д AGPL Java
Alceste иерархическая нисходящая классификация французский, английский, испанский, немецкий, итальянский, португальский Коммерческая Windows

Извлечение ключевых слов

Название Метод Языки Лицензия Платформа
Kea Kea английский GPL Java
Maui Kea + Wikipedia английский GPL Java
Tesuck DegExt, TextRank русский, английский Некоммерческая Веб-сервис
TextMF частотный анализ русский, английский н/д Java
natural TF-IDF английский MIT Node.js
Content Analyzer TF-IDF русский Freeware Windows
AskNet TF-IDF, словари, правила русский, английский Коммерческая Windows
TextAnalyst нейронная сеть русский Коммерческая Windows
AlchemyAPI н/д английский Коммерческая Веб-сервис
Семантическое зеркало н/д русский Коммерческая Веб-сервис
Extractor генетический алгоритм английский, французский, японский, немецкий, испанский, корейский Коммерческая Веб-сервис
TerMine C-value английский Коммерческая Веб-сервис

Автоматическое реферирование

Название Метод Языки Лицензия Платформа
Open Text Summarizer частоты, правила русский, английский, немецкий, испанский, иврит, эсперанто GPL Linux, Windows
SummarizeBot машинное обучение, блокчейн русский, английский, китайский, японский и 100+ других языков Proprietary Веб-сервис (чат-бот)
SweSum частоты шведский, датский, норвежский, английский н/д Веб-сервис
Content Analyzer TF-IDF русский Freeware Windows
Tesuck TextRank, DegExt русский, английский Некоммерческая Веб-сервис
Extractor генетический алгоритм английский, французский, японский, немецкий, испанский, корейский Коммерческая Веб-сервис
Рефератор частоты, правила русский, английский Некоммерческая Веб-сервис

Тематическая классификация

Название Метод Языки Лицензия Платформа
Maui Kea + Wikipedia английский GPL Java
Eureka Engine метод опорных векторов русский Коммерческая Веб-сервис
TextMF частотный анализ русский, английский н/д Java
Семантическое зеркало н/д русский Коммерческая Веб-сервис
AlchemyAPI н/д английский Коммерческая Веб-сервис
zamgi SVM русский некоммерческая .NET on Linux, Windows

Тематическое моделирование

Название Метод Языки Лицензия Платформа
MALLET латентное размещение Дирихле русский, английский CPL Java
BigARTM аддитивная регуляризация тематических моделей русский, английский BSD Windows, Linux, OS X
Gensim латентное размещение Дирихле, латентный семантический анализ русский, английский LGPL Python
Weka EM-алгоритм русский, английский GPL + некоммерческая Java
Insider realtime кластеризация поисковой выдачи русский, английский, китайский коммерческая JSON API

Извлечение именованных сущностей

Название Метод Языки Лицензия Платформа
FreeLing конечный автомат русский, английский, итальянский, испанский, португальский, астурийский, валийский, галисийский, каталанский GPL + Коммерческая Linux
OpenCalais н/д английский Некоммерческая/Коммерческая Веб-сервис
AlchemyAPI н/д английский Коммерческая Веб-сервис
Eureka Engine условные случайные поля русский, английский Коммерческая Веб-сервис
ISPRAS API Texterra машинное обучение русский, английский Бесплатная для исследовательских целей + коммерческая Веб-сервис, Java, Python
DBPedia Spotlight н/д английский Apache License Java, Scala, Веб-сервис
Yahoo! Content Analysis н/д английский Коммерческая Веб-сервис
CiceroLite н/д английский, арабский, китайский и др. Коммерческая Linux, Windows, OS X, Solaris, Веб-сервис
Stanford NER машинное обучение (Conditional Random Field sequence models) английский, немецкий GPL Linux, Windows, OS X
Apache cTAKES правила, машинное обучение английский Apache License Java
TextMF частотный анализ русский, английский н/д Java
PullEnti SDK правила русский, украинский, английский Non-Commercial Freeware .NET, .NET Core, Java и Python
LingPipe машинное обучение английский Коммерческая Java
Томита-парсер словари и контекстно-свободные грамматики русский Особая Linux, Windows, OS X
TEXToCAT машинное обучение русский Коммерческая Веб-сервис
RCO Fact Extractor SDK правила русский Коммерческая Linux, Windows
OntosMiner н/д русский, английский, французский, немецкий Коммерческая Java
X-Files н/д русский, английский Коммерческая Веб-сервис
AskNet н/д русский, английский Коммерческая Windows, C++
ABBYY Intelligent Tagger н/д русский Коммерческая .NET
NetOwl Extractor н/д русский, английский, арабский, китайский, французский, немецкий, корейский, персидский, испанский Коммерческая Linux, Windows
ИАС "АРИОН" н/д русский Коммерческая Java
МетаФраз н/д русский Коммерческая Windows
DictaScope Tokenizer н/д русский Коммерческая FreeBSD, Windows
XANALYS Indexer н/д русский Коммерческая н/д
Rosette н/д русский, английский Коммерческая н/д
Natasha правила, машинное обучение русский, английский (частично) MIT Python
zamgi машинное обучение русский некоммерческая .NET on Linux, Windows
zamgi машинное обучение английский некоммерческая .NET on Linux, Windows
RUNER правила, шаблоны, словари, нечеткий поиск русский Коммерческая и некоммерческая Windows, Linux, macOS

Извлечение отношений

Название Метод Языки Лицензия Платформа
Serelex Лексико-синтаксические шаблоны. демо английский, французский, русский LGPL Linux, Windows, OS X
ReVerb машинное обучение английский Некоммерческая Java
RCO н/д русский Коммерческая Windows
AskNet словари, правила русский, английский Коммерческая Windows, C++
AlchemyAPI н/д английский Коммерческая Веб-сервис
OpenCalais н/д английский Коммерческая Веб-сервис
Томита-парсер словари и контекстно-свободные грамматики русский Особая Linux, Windows, OS X
OntosMiner н/д русский, английский, французский, немецкий Коммерческая Java
NetOwl Extractor н/д русский, английский, арабский, китайский, французский, немецкий, корейский, персидский, испанский Коммерческая Linux, Windows

Анализ тональности

Название Метод Языки Лицензия Платформа
Sentimental словарный русский[2], английский MIT Node.js
Eureka Engine машинное обучение русский Коммерческая Веб-сервис
ISPRAS API Texterra машинное обучение русский, английский Бесплатная для исследовательских целей + коммерческая Веб-сервис, Java, Python
TextBlob машинное обучение английский MIT Python
Pattern правила, регулярные выражения английский, испанский, немецкий, французский, итальянский, нидерландский BSD Python
SentiStrength словарный русский (заявлен), английский, финский, немецкий, португальский, франузкий, арабский, польский, шведский, греческий, валлийский, итальянский Коммерческая Java, .NET
Аналитический курьер правила русский Коммерческая Windows
DictaScope правила русский Коммерческая FreeBSD, Windows
RCO правила русский Коммерческая Windows
AlchemyAPI машинное обучение английский Коммерческая Веб-сервис
Sentiment140 машинное обучение английский, испанский Коммерческая Веб-сервис
ConveyAPI машинное обучение английский Коммерческая Веб-сервис
BrandSpotter н/д русский Коммерческая Веб-сервис
RussianSentimentAnalyzer правила русский Коммерческая JSON API / Java & .NET SDK
Fuxi API правила китайский Коммерческая JSON API
NetOwl Extractor н/д русский, английский, арабский, китайский, французский, немецкий, корейский, персидский, испанский Коммерческая Linux, Windows
zamgi правила русский некоммерческая .NET on Windows
Dostoevsky машинное обучение (CNN + w2v) русский MIT Python

Информационный поиск

Название Метод доступа Тип системы Лицензия Платформа
Apache Lucene Core Библиотека полнотекстовый поиск, индекс Apache License Java
Apache Solr HTTP полнотекстовый поиск, индекс Apache License Java
AskNet Search HTTP полнотекстовый поиск, вопросно-ответный поиск, индекс Коммерческая Windows, С++, С#
elasticsearch HTTP полнотекстовый поиск, индекс Apache License Java
Bobo HTTP фасетный поиск, индекс Apache License Java
Picky HTTP фасетный поиск, индекс LGPL Ruby
Whoosh HTTP полнотекстовый поиск, индекс BSD Python
Sphinx Sphinx API Protocol полнотекстовый поиск, индекс GPL Linux, Windows
Xapian Библиотека полнотекстовый поиск, индекс GPL Linux, Windows
PostgreSQL Full Text Search SQL полнотекстовый поиск, индекс BSD PostgreSQL

Машинный перевод

Название Метод Языки Лицензия Платформа
Apertium конечные преобразователи, скрытые марковские модели английский, французский, испанский, португальский, каталонский, галисийский, окситанский GPL Linux, Windows
Moses машинное обучение русский[3], английский, француский, немецкий, испанский, шведский, чешский LGPL Linux, Windows
Sinuhe машинное обучение английский, немецкий, испанский, французский и другие европейские языки, для которых существует достаточного объёма параллельный корпус (отсутствует, исходный код) Linux

Обнаружение дубликатов

Название Метод Языки Лицензия Платформа
datasketch MinHash+LSH любой MIT Python

Cегментация текста

Название Метод Языки Лицензия Платформа
zamgi Алгоритм Витерби любой MIT .NET on Linux, Windows

Интегрированные пакеты

Название Описание Состав Лицензия Платформа
GATE Архитектура общего назначения для обработки естественного языка средства разработки, групповое программное обеспечение, фреймворк, общая программая архитектура, диаграммы бизнес-процессов LGPL Java
Apache UIMA Архитектура управления неструктурированной информацией средства разработки, фреймворк, компоненты, инфраструктура Apache License Java или C++
Apache OpenNLP Инструменты обработки текста на основе машинного обучения средства разработки, фреймворк, обученные модели Apache License Java или C++
SharpNLP Порт Apache OpenNLP на платформе .NET средства разработки, фреймворк, обученные модели LGPL .NET
NLTK Набор инструментов для обработки естественного языка средства разработки, фреймворк, компоненты, инфраструктура Apache License Python
spaCy Инструменты обработки текста промышленного уровня фреймворк MIT Python
TextBlob Библиотека для обработки текстовых данных фреймворк на основе NLTK и Pattern MIT Python
ISPRAS API Texterra Система обработки текста промышленного уровня фреймворк, обученные модели, инфраструктура Некоммерческая + коммерческая Java, Python
Treat Набор утилит для обработки естественного языка и компьютерной лингвистики на языке Ruby средства разработки, фреймворк, слой интеграции со сторонними продуктами, обученные модели GPL Ruby
Linguistics Языконезависимый фреймворк для расширения Ruby-объектов методами обработки текста общего назначения языконезависимая оболочка, отображение кодов языка в названия, утилиты MIT? Ruby
NooJ Среда разработки лингвистических инструментов словари, грамматики, анализаторы, таггеры AGPL Java, .NET
Stanford NLP Программное обеспечение для обработки естественного языка, доступное каждому фреймворк GPL + Коммерческая Java
MinorThird Набор Java-классов для обработки естественного языка решения для хранения и разметки текста, средства для машинного обучения BSD Java
Grammatical Framework Язык программирования для обработки естественного языка средства разработки, фреймворк, компоненты, инфраструктура GPL (программа) и LGPL и BSD (библиотеки) н/д
libschwa Инструменты для обработки текстов от Schwa Lab фреймворк MIT C++
natural Общие средства обработки естественного языка для Node.js анализаторы MIT Node.js
LingPipe Пакет инструментов для обработки текста средствами компьютерной лингвистики фреймворк, обученные модели, средства для многопоточной работы, тесты Коммерческая и некоммерческая Java
T-LAB Инструменты для анализа текста инструменты для анализа тематики, сравнительного анализа, анализа совместной встречаемости Коммерческая н/д
MeTA Современный набор утилит на C++ для науки о данных фреймворк MIT C++
Eureka Engine Набор инструментов для обработки естественного языка средства разработки, фреймворк, компоненты, инфраструктура Коммерческая н/д
zamgi Набор инструментов для обработки естественного языка средства разработки, фреймворк, компоненты, инфраструктура некоммерческая .NET on Linux, Windows
RUNER Система для обработки естественного языка (разбиение на предложения, высокоуровневая токенизация, NER, определение намерений) cервер и средства разработки и тестирования Коммерческая и некоммерческая Windows, Linux, macOS

Примечания

  1. Существует проект The AGFL for the Russian Language.
  2. Для Sentimental имеется поддержка русского языка, реализованная компанией Wobot.
  3. Известна адаптация системы Moses для русского языка в виде демонстрационного Веб-сервиса.