Обработка текста
Графематический анализ
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
АОТ | словарный | русский, английский | LGPL | Linux, Windows |
Lemmatizer | словарный | русский, английский | GPL | Linux |
FreeLing | правила | русский, английский, итальянский, испанский, португальский, астурийский, валийский, галисийский, каталанский | GPL + Коммерческая | Linux |
Stanford CoreNLP | эвристика | английский | GPL | Java |
Apache OpenNLP | регулярные выражения, машинное обучение | английский | Apache License | Java |
Twitter NLP and Part-of-Speech Tagger | машинное обучение | английский | GPL | Java |
NLTK | регулярные выражения, машинное обучение | английский | Apache License | Python |
TextBlob | регулярные выражения, машинное обучение | английский | MIT | Python |
MBSP | машинное обучение | английский | GPL | Python |
Pattern | правила, регулярные выражения | английский, испанский, немецкий, французский, итальянский, нидерландский | BSD | Python |
Greeb | регулярные выражения | русский, английский | MIT | Ruby |
natural | регулярные выражения | английский, испанский, персидский, итальянский, русский | MIT | Node.js |
Solarix | правила | русский, английский | Коммерческая | Linux, Windows |
tokenizer | правила | русский, английский, немецкий | GPL | C |
AskNet | правила | русский, английский | Коммерческая | Windows |
Морфологический анализ
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
АОТ | словарный | русский, английский, немецкий | LGPL | Linux, Windows |
Snowball | алгоритм Портера | русский, английский | BSD | Linux, Windows |
Stemka | словарный | русский | Собственная | Linux, Windows |
pymorphy | словарный | русский, английский, немецкий | MIT | Python |
Myaso | алгоритм Витерби | русский, английский | MIT | Ruby |
Eureka Engine | машинное обучение | русский | Коммерческая | Веб-сервис |
ISPRAS API Texterra | машинное обучение | русский, английский | Бесплатная для исследовательских целей + коммерческая | Веб-сервис, Java, Python |
pymystem3 | разрешение омонимии | русский, английский | LGPLv3 + некоммерческая | Python, C++ |
phpmorphy | словарный | русский, английский, немецкий | LGPL | PHP |
Pullenti SDK | словарный | русский, английский, украинский | Non-Commercial Freeware | .NET, .NET Core, Java и Python |
FreeLing | словарный | русский, англиский, итальянский, испанский, португальский, астурийский, валийский, галисийский, каталанский | GPL + Коммерческая | Linux |
NLTK | машинное обучение | английский | Apache License | Python |
TextBlob | машинное обучение | английский | MIT | Python |
MBSP | машинное обучение | английский | GPL | Python |
Pattern | правила, регулярные выражения | английский, испанский, немецкий, французский, итальянский, нидерландский | BSD | Python |
natural | правила | английский, французский, японский | MIT | Node.js |
MAnalyzer | словарный | русский, английский | MIT | Linux |
hunpos | алгоритм Витерби | английский, корейский | BSD | Linux, Windows |
SVMTool | метод опорных векторов | русский, английский | LGPL | Perl |
Twitter NLP and Part-of-Speech Tagger | машинное обучение | английский | GPL | Java |
Stanford Log-linear Part-Of-Speech Tagger | машинное обучение | английский, немецкий, арабский, китайский | GPL | Java |
RussianMorphology | словарный | русский | Apache License | Java |
RussianPOSTagger | словарный | русский | GPL | Java |
mystem | словарный | русский | Некоммерческая | Linux, Windows |
TreeTagger | деревья принятия решений | русский, английский, немецкий, французский, итальянский, нидерландский, испанский, болгарский, греческий, португальский, китайский, суахили, латинский, эстонский | Некоммерческая | Linux, Windows |
TnT | алгоритм Витерби | русский, английский | Некоммерческая | Linux |
Морфер | словарный | русский, украинский | Коммерческая | Windows, Веб-сервис |
RCO | словарный | русский | Коммерческая | Windows |
AskNet | словарный, правила | русский, английский | Коммерческая | Windows |
Solarix | словарный | русский, английский | Коммерческая | Linux, Windows |
ОРФО | словарный | русский, украинский, английский, французский, немецкий, испанский, итальянский, португальский | Коммерческая | Windows |
STARLING | словарный | русский | н/д | Windows |
mystem-scala | словарный | русский | MIT + некоммерческая | Java on Linux, Windows |
zamgi | машинное обучение, словарный | русский | некоммерческая | .NET on Linux, Windows |
zamgi | машинное обучение, словарный | английский | некоммерческая | .NET on Linux, Windows |
Синтаксический анализ
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
АОТ | грамматика HPSG | русский, английский, немецкий | LGPL | Linux, Windows |
ISPRAS API Texterra | машинное обучение | русский, английский | Бесплатная для исследовательских целей + коммерческая | Веб-сервис, Java, Python |
MaltParser | машинное обучение | русский, английский | Собственная | Java |
MSTParser | максимизация остовного дерева | английский, португальский | Apache License | Java |
Link Grammar Parser | грамматика связей | русский, английский | BSD | Linux, Windows |
AGFL | грамматика аффиксов над конечной решёткой | русский[1], английский, французский, испанский, арабский | GPL | Linux, Windows |
NLTK | машинное обучение | английский | Apache License | Python |
MBSP | машинное обучение | английский | GPL | Python |
Pattern | правила, регулярные выражения | английский, испанский, немецкий, французский, итальянский, нидерландский | BSD | Python |
Solarix | правила | русский, английский | Коммерческая | Linux, Windows |
ABBYY Compreno | правила | русский | Коммерческая | Windows |
AskNet | правила | русский, английский | Коммерческая | Windows |
DictaScope | правила | русский | Коммерческая | FreeBSD, Windows |
ЭТАП-3 | правила | русский, английский | н/д | Windows |
Синтактико-Семантический Анализ Русского Языка | функциональная модель языка | русский | Коммерческая | Веб-сервис |
The Stanford Parser | машинное обучение | английский, немецкий, арабский, китайский, болгарский, итальянский, португальский | GPL | Java |
ZPar | машинное обучение | английский, китайский, румынский | GPL v3 | C++ |
mate-tools | машинное обучение | английский, немецкий, китайский, испанский | GPL v2 | Java |
zamgi | машинное обучение | русский | некоммерческая | .NET on Linux, Windows |
Проверка правописания
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
GNU Aspell | н/д | более 70 языков, в том числе русский и английский | LGPL | Linux, Windows |
Hunspell | н/д | более 100 языков, в том числе русский и английский | GPL, LGPL, MPL | Linux, Windows, OS X |
Pattern | правила, регулярные выражения | английский, испанский, немецкий, французский, итальянский, нидерландский | BSD | Python |
Spellah | n-граммы поисковой машины | английский | MIT | Веб-сервис, Node.js |
Yandex speller | орфографический словарь | русский, украинский, английский | своя | Веб-сервис |
ОРФО Speller | н/д | русский, украинский, английский, французский, немецкий, испанский, итальянский, португальский | Коммерческая | Windows |
ОРФО Grammar Checker | н/д | русский | Коммерческая | Windows |
Орфограммка | правила, словарный, машинное обучение | русский, английский, латинский | Коммерческая | Веб-сервис |
LanguageTool | правила | английский, русский | LGPL | Java |
Расстановка переносов
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
Text::Hyphen | шаблоны переносов TeX | более 30 языков, в том числе русский и английский | MIT | Ruby |
ОРФО | н/д | русский | Коммерческая | Windows |
Построение конкордансов
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
Iramuteq | иерархическая нисходящая классификация | французский | GPL | R и Python |
NooJ | н/д | н/д | AGPL | Java |
Alceste | иерархическая нисходящая классификация | французский, английский, испанский, немецкий, итальянский, португальский | Коммерческая | Windows |
Извлечение ключевых слов
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
Kea | Kea | английский | GPL | Java |
Maui | Kea + Wikipedia | английский | GPL | Java |
Tesuck | DegExt, TextRank | русский, английский | Некоммерческая | Веб-сервис |
TextMF | частотный анализ | русский, английский | н/д | Java |
natural | TF-IDF | английский | MIT | Node.js |
Content Analyzer | TF-IDF | русский | Freeware | Windows |
AskNet | TF-IDF, словари, правила | русский, английский | Коммерческая | Windows |
TextAnalyst | нейронная сеть | русский | Коммерческая | Windows |
AlchemyAPI | н/д | английский | Коммерческая | Веб-сервис |
Семантическое зеркало | н/д | русский | Коммерческая | Веб-сервис |
Extractor | генетический алгоритм | английский, французский, японский, немецкий, испанский, корейский | Коммерческая | Веб-сервис |
TerMine | C-value | английский | Коммерческая | Веб-сервис |
Автоматическое реферирование
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
Open Text Summarizer | частоты, правила | русский, английский, немецкий, испанский, иврит, эсперанто | GPL | Linux, Windows |
SummarizeBot | машинное обучение, блокчейн | русский, английский, китайский, японский и 100+ других языков | Proprietary | Веб-сервис (чат-бот) |
SweSum | частоты | шведский, датский, норвежский, английский | н/д | Веб-сервис |
Content Analyzer | TF-IDF | русский | Freeware | Windows |
Tesuck | TextRank, DegExt | русский, английский | Некоммерческая | Веб-сервис |
Extractor | генетический алгоритм | английский, французский, японский, немецкий, испанский, корейский | Коммерческая | Веб-сервис |
Рефератор | частоты, правила | русский, английский | Некоммерческая | Веб-сервис |
Тематическая классификация
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
Maui | Kea + Wikipedia | английский | GPL | Java |
Eureka Engine | метод опорных векторов | русский | Коммерческая | Веб-сервис |
TextMF | частотный анализ | русский, английский | н/д | Java |
Семантическое зеркало | н/д | русский | Коммерческая | Веб-сервис |
AlchemyAPI | н/д | английский | Коммерческая | Веб-сервис |
zamgi | SVM | русский | некоммерческая | .NET on Linux, Windows |
Тематическое моделирование
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
MALLET | латентное размещение Дирихле | русский, английский | CPL | Java |
BigARTM | аддитивная регуляризация тематических моделей | русский, английский | BSD | Windows, Linux, OS X |
Gensim | латентное размещение Дирихле, латентный семантический анализ | русский, английский | LGPL | Python |
Weka | EM-алгоритм | русский, английский | GPL + некоммерческая | Java |
Insider | realtime кластеризация поисковой выдачи | русский, английский, китайский | коммерческая | JSON API |
Извлечение именованных сущностей
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
FreeLing | конечный автомат | русский, английский, итальянский, испанский, португальский, астурийский, валийский, галисийский, каталанский | GPL + Коммерческая | Linux |
OpenCalais | н/д | английский | Некоммерческая/Коммерческая | Веб-сервис |
AlchemyAPI | н/д | английский | Коммерческая | Веб-сервис |
Eureka Engine | условные случайные поля | русский, английский | Коммерческая | Веб-сервис |
ISPRAS API Texterra | машинное обучение | русский, английский | Бесплатная для исследовательских целей + коммерческая | Веб-сервис, Java, Python |
DBPedia Spotlight | н/д | английский | Apache License | Java, Scala, Веб-сервис |
Yahoo! Content Analysis | н/д | английский | Коммерческая | Веб-сервис |
CiceroLite | н/д | английский, арабский, китайский и др. | Коммерческая | Linux, Windows, OS X, Solaris, Веб-сервис |
Stanford NER | машинное обучение (Conditional Random Field sequence models) | английский, немецкий | GPL | Linux, Windows, OS X |
Apache cTAKES | правила, машинное обучение | английский | Apache License | Java |
TextMF | частотный анализ | русский, английский | н/д | Java |
PullEnti SDK | правила | русский, украинский, английский | Non-Commercial Freeware | .NET, .NET Core, Java и Python |
LingPipe | машинное обучение | английский | Коммерческая | Java |
Томита-парсер | словари и контекстно-свободные грамматики | русский | Особая | Linux, Windows, OS X |
TEXToCAT | машинное обучение | русский | Коммерческая | Веб-сервис |
RCO Fact Extractor SDK | правила | русский | Коммерческая | Linux, Windows |
OntosMiner | н/д | русский, английский, французский, немецкий | Коммерческая | Java |
X-Files | н/д | русский, английский | Коммерческая | Веб-сервис |
AskNet | н/д | русский, английский | Коммерческая | Windows, C++ |
ABBYY Intelligent Tagger | н/д | русский | Коммерческая | .NET |
NetOwl Extractor | н/д | русский, английский, арабский, китайский, французский, немецкий, корейский, персидский, испанский | Коммерческая | Linux, Windows |
ИАС "АРИОН" | н/д | русский | Коммерческая | Java |
МетаФраз | н/д | русский | Коммерческая | Windows |
DictaScope Tokenizer | н/д | русский | Коммерческая | FreeBSD, Windows |
XANALYS Indexer | н/д | русский | Коммерческая | н/д |
Rosette | н/д | русский, английский | Коммерческая | н/д |
Natasha | правила, машинное обучение | русский, английский (частично) | MIT | Python |
zamgi | машинное обучение | русский | некоммерческая | .NET on Linux, Windows |
zamgi | машинное обучение | английский | некоммерческая | .NET on Linux, Windows |
RUNER | правила, шаблоны, словари, нечеткий поиск | русский | Коммерческая и некоммерческая | Windows, Linux, macOS |
Извлечение отношений
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
Serelex | Лексико-синтаксические шаблоны. демо | английский, французский, русский | LGPL | Linux, Windows, OS X |
ReVerb | машинное обучение | английский | Некоммерческая | Java |
RCO | н/д | русский | Коммерческая | Windows |
AskNet | словари, правила | русский, английский | Коммерческая | Windows, C++ |
AlchemyAPI | н/д | английский | Коммерческая | Веб-сервис |
OpenCalais | н/д | английский | Коммерческая | Веб-сервис |
Томита-парсер | словари и контекстно-свободные грамматики | русский | Особая | Linux, Windows, OS X |
OntosMiner | н/д | русский, английский, французский, немецкий | Коммерческая | Java |
NetOwl Extractor | н/д | русский, английский, арабский, китайский, французский, немецкий, корейский, персидский, испанский | Коммерческая | Linux, Windows |
Анализ тональности
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
Sentimental | словарный | русский[2], английский | MIT | Node.js |
Eureka Engine | машинное обучение | русский | Коммерческая | Веб-сервис |
ISPRAS API Texterra | машинное обучение | русский, английский | Бесплатная для исследовательских целей + коммерческая | Веб-сервис, Java, Python |
TextBlob | машинное обучение | английский | MIT | Python |
Pattern | правила, регулярные выражения | английский, испанский, немецкий, французский, итальянский, нидерландский | BSD | Python |
SentiStrength | словарный | русский (заявлен), английский, финский, немецкий, португальский, франузкий, арабский, польский, шведский, греческий, валлийский, итальянский | Коммерческая | Java, .NET |
Аналитический курьер | правила | русский | Коммерческая | Windows |
DictaScope | правила | русский | Коммерческая | FreeBSD, Windows |
RCO | правила | русский | Коммерческая | Windows |
AlchemyAPI | машинное обучение | английский | Коммерческая | Веб-сервис |
Sentiment140 | машинное обучение | английский, испанский | Коммерческая | Веб-сервис |
ConveyAPI | машинное обучение | английский | Коммерческая | Веб-сервис |
BrandSpotter | н/д | русский | Коммерческая | Веб-сервис |
RussianSentimentAnalyzer | правила | русский | Коммерческая | JSON API / Java & .NET SDK |
Fuxi API | правила | китайский | Коммерческая | JSON API |
NetOwl Extractor | н/д | русский, английский, арабский, китайский, французский, немецкий, корейский, персидский, испанский | Коммерческая | Linux, Windows |
zamgi | правила | русский | некоммерческая | .NET on Windows |
Dostoevsky | машинное обучение (CNN + w2v) | русский | MIT | Python |
Информационный поиск
Название | Метод доступа | Тип системы | Лицензия | Платформа |
---|---|---|---|---|
Apache Lucene Core | Библиотека | полнотекстовый поиск, индекс | Apache License | Java |
Apache Solr | HTTP | полнотекстовый поиск, индекс | Apache License | Java |
AskNet Search | HTTP | полнотекстовый поиск, вопросно-ответный поиск, индекс | Коммерческая | Windows, С++, С# |
elasticsearch | HTTP | полнотекстовый поиск, индекс | Apache License | Java |
Bobo | HTTP | фасетный поиск, индекс | Apache License | Java |
Picky | HTTP | фасетный поиск, индекс | LGPL | Ruby |
Whoosh | HTTP | полнотекстовый поиск, индекс | BSD | Python |
Sphinx | Sphinx API Protocol | полнотекстовый поиск, индекс | GPL | Linux, Windows |
Xapian | Библиотека | полнотекстовый поиск, индекс | GPL | Linux, Windows |
PostgreSQL Full Text Search | SQL | полнотекстовый поиск, индекс | BSD | PostgreSQL |
Машинный перевод
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
Apertium | конечные преобразователи, скрытые марковские модели | английский, французский, испанский, португальский, каталонский, галисийский, окситанский | GPL | Linux, Windows |
Moses | машинное обучение | русский[3], английский, француский, немецкий, испанский, шведский, чешский | LGPL | Linux, Windows |
Sinuhe | машинное обучение | английский, немецкий, испанский, французский и другие европейские языки, для которых существует достаточного объёма параллельный корпус | (отсутствует, исходный код) | Linux |
Обнаружение дубликатов
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
datasketch | MinHash+LSH | любой | MIT | Python |
Cегментация текста
Название | Метод | Языки | Лицензия | Платформа |
---|---|---|---|---|
zamgi | Алгоритм Витерби | любой | MIT | .NET on Linux, Windows |
Интегрированные пакеты
Название | Описание | Состав | Лицензия | Платформа |
---|---|---|---|---|
GATE | Архитектура общего назначения для обработки естественного языка | средства разработки, групповое программное обеспечение, фреймворк, общая программая архитектура, диаграммы бизнес-процессов | LGPL | Java |
Apache UIMA | Архитектура управления неструктурированной информацией | средства разработки, фреймворк, компоненты, инфраструктура | Apache License | Java или C++ |
Apache OpenNLP | Инструменты обработки текста на основе машинного обучения | средства разработки, фреймворк, обученные модели | Apache License | Java или C++ |
SharpNLP | Порт Apache OpenNLP на платформе .NET | средства разработки, фреймворк, обученные модели | LGPL | .NET |
NLTK | Набор инструментов для обработки естественного языка | средства разработки, фреймворк, компоненты, инфраструктура | Apache License | Python |
spaCy | Инструменты обработки текста промышленного уровня | фреймворк | MIT | Python |
TextBlob | Библиотека для обработки текстовых данных | фреймворк на основе NLTK и Pattern | MIT | Python |
ISPRAS API Texterra | Система обработки текста промышленного уровня | фреймворк, обученные модели, инфраструктура | Некоммерческая + коммерческая | Java, Python |
Treat | Набор утилит для обработки естественного языка и компьютерной лингвистики на языке Ruby | средства разработки, фреймворк, слой интеграции со сторонними продуктами, обученные модели | GPL | Ruby |
Linguistics | Языконезависимый фреймворк для расширения Ruby-объектов методами обработки текста общего назначения | языконезависимая оболочка, отображение кодов языка в названия, утилиты | MIT? | Ruby |
NooJ | Среда разработки лингвистических инструментов | словари, грамматики, анализаторы, таггеры | AGPL | Java, .NET |
Stanford NLP | Программное обеспечение для обработки естественного языка, доступное каждому | фреймворк | GPL + Коммерческая | Java |
MinorThird | Набор Java-классов для обработки естественного языка | решения для хранения и разметки текста, средства для машинного обучения | BSD | Java |
Grammatical Framework | Язык программирования для обработки естественного языка | средства разработки, фреймворк, компоненты, инфраструктура | GPL (программа) и LGPL и BSD (библиотеки) | н/д |
libschwa | Инструменты для обработки текстов от Schwa Lab | фреймворк | MIT | C++ |
natural | Общие средства обработки естественного языка для Node.js | анализаторы | MIT | Node.js |
LingPipe | Пакет инструментов для обработки текста средствами компьютерной лингвистики | фреймворк, обученные модели, средства для многопоточной работы, тесты | Коммерческая и некоммерческая | Java |
T-LAB | Инструменты для анализа текста | инструменты для анализа тематики, сравнительного анализа, анализа совместной встречаемости | Коммерческая | н/д |
MeTA | Современный набор утилит на C++ для науки о данных | фреймворк | MIT | C++ |
Eureka Engine | Набор инструментов для обработки естественного языка | средства разработки, фреймворк, компоненты, инфраструктура | Коммерческая | н/д |
zamgi | Набор инструментов для обработки естественного языка | средства разработки, фреймворк, компоненты, инфраструктура | некоммерческая | .NET on Linux, Windows |
RUNER | Система для обработки естественного языка (разбиение на предложения, высокоуровневая токенизация, NER, определение намерений) | cервер и средства разработки и тестирования | Коммерческая и некоммерческая | Windows, Linux, macOS |
Примечания
- ↑ Существует проект The AGFL for the Russian Language.
- ↑ Для Sentimental имеется поддержка русского языка, реализованная компанией Wobot.
- ↑ Известна адаптация системы Moses для русского языка в виде демонстрационного Веб-сервиса.