Томита-парсер

Материал из NLPub
Перейти к навигации Перейти к поиску

Томита-парсер — это инструмент для извлечения структурированных данных (фактов) из текста на естественном языке. Извлечение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов. Парсер позволяет написать свою грамматику, добавить свои словари и запустить на текстах.

Доступность

Исходный код «Томита-парсера» доступен на GitHub и распространяется на условиях открытой лицензии MPL 2.0. Однако для работы парсера требуется библиотека libmystem_c_binding, доступная только в двоичном виде. Лицензия этой библиотеки явным образом не указана. В свою очередь, лицензионные соглашения[1][2] разрешают как коммерческое, так и некоммерческое применение «Томита-парсера» и Mystem, за исключением трёх случаев:

  1. в целях создания и распространения спама и массовых рассылок;
  2. в целях поисковой оптимизации в Интернете (SEO);
  3. в целях разработки программного обеспечения, конкурирующего с продуктами «Яндекса».

Установка

Linux

$ git clone https://github.com/yandex/tomita-parser.git
$ cd tomita-parser
$ mkdir build
$ cd build
$ cmake ../src/ -DCMAKE_BUILD_TYPE=Release
$ make -j$(nproc)

Затем в директорию, откуда производилась сборка парсера, нужно скопировать разделяемую библиотеку Mystem (mystem_c_binding), которую можно скачать с GitHub: https://github.com/yandex/tomita-parser/releases/tag/v1.0.

При установке на 64-битной системе под управлением Fedora, CentOS и RHEL необходимо убедиться, что пакет glibc-devel.i686 не установлен. Его наличие приводит к ошибкам компоновки при сборке.

Использование

Ссылки

См. также

Примечания

  1. Лицензионное соглашение на использование программы «Томита-парсер».
  2. Лицензионное соглашение на использование программы Mystem.