Томита-парсер
Томита-парсер — это инструмент для извлечения структурированных данных (фактов) из текста на естественном языке. Извлечение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов. Парсер позволяет написать свою грамматику, добавить свои словари и запустить на текстах.
Доступность
Исходный код «Томита-парсера» доступен на GitHub и распространяется на условиях открытой лицензии MPL 2.0. Однако для работы парсера требуется библиотека libmystem_c_binding, доступная только в двоичном виде. Лицензия этой библиотеки явным образом не указана. В свою очередь, лицензионные соглашения[1][2] разрешают как коммерческое, так и некоммерческое применение «Томита-парсера» и Mystem, за исключением трёх случаев:
- в целях создания и распространения спама и массовых рассылок;
- в целях поисковой оптимизации в Интернете (SEO);
- в целях разработки программного обеспечения, конкурирующего с продуктами «Яндекса».
Установка
Linux
$ git clone https://github.com/yandex/tomita-parser.git
$ cd tomita-parser
$ mkdir build
$ cd build
$ cmake ../src/ -DCMAKE_BUILD_TYPE=Release
$ make -j$(nproc)
Затем в директорию, откуда производилась сборка парсера, нужно скопировать разделяемую библиотеку Mystem (mystem_c_binding
), которую можно скачать с GitHub: https://github.com/yandex/tomita-parser/releases/tag/v1.0.
При установке на 64-битной системе под управлением Fedora, CentOS и RHEL необходимо убедиться, что пакет glibc-devel.i686
не установлен. Его наличие приводит к ошибкам компоновки при сборке.
Использование
Ссылки
См. также
Примечания
- ↑ Лицензионное соглашение на использование программы «Томита-парсер».
- ↑ Лицензионное соглашение на использование программы Mystem.