Утилиты

Материал из NLPub

Конечный преобразователь

Конечный преобразователь (англ. finate state transducer, сокр. англ. FST), взвешенный конечный преобразователь (англ. weighted finate state transducer, сокр. англ. WFST) — вариант конечного автомата, помимо распознавания входной последовательности также формирующий выходную последовательность. В рамках компьютерной лингвистики находит применение в таких областях, как анализ морфологии, распознавание речи и пр.

  • OpenFST
  • AT&T FSM Library
  • Helsinki Finite-State Transducer Technology (HFST), см. тж. The Helsinki Open Source Morphology Project
  • GRM Library — инструменты общего назначения для создания грамматик, обработки текста, статистических языковых моделей.
  • OpenGRM — библиотека для создания языковых моделей.
  • Phonetisaurus — G2P фреймворк
  • DCD Library — Speech Recognition Decoder Library (non-commercial licence, AT&T)
  • Juicer — система распознавания речи на базе WFST.
  • PC-KIMMO — морфологический анализатор, фонологические преобразования описываются с помощью FST.
  • Unitex — словари, графический интерфейс для построения каскадов FST, часто применяется в задачах извлечения информации из текстов, аналогичен во многом JAPE (GATE).
  • FOMA — библиотека для создания FST + компилятор FST

Обработка языковых моделей

Название Задачи Лицензия
SRILM Статистические языковые модели SRILM Research Community License
berkeleylm Библиотека для эффективного хранения и использования н-грамм Apache License 2.0
Sequitur G2P G2P GPL v. 2
Morpho Статистический морфологический анализ GPL
NICO Toolkit ANN BSD
HTK HMM HTK EULA
The Edinburgh Speech Tools Library Форматы данных и конвертеры (LPC, кепстры, n-gramms и пр.)
WaveSurfer Визуализация и работа с аудиофайлами
Speech Filing System Форматы данных, спектрограммы, формантный анализ и пр.
CMUCLMTK Статистические языковые модели
MIT Language Modeling Toolkit Статистические языковые модели
IRST LM Toolkit Статистические языковые модели GPL/LGPL
Praat Сегментация, разметка, спектрограммы, формантный анализ и пр.
Voicebox (Matlab/Octave Speech Processing Toolbox) Форматы, конвертеры, спектральный анализ, кодирование сигнала и пр.
EMU Speech Database System Создание и обработка речевых корпусов

Редактор тезауруса

DEBVisDic

Protégé

GATE Ontology Editor

SKOSEd

Solarix

TemaTres Vocabulary Server

ThManager

Altova SemanticWorks

TopBraid Composer

Rhodonite

Lingua::Wordnet Editor

WordNet Solution

Анализ текстовых корпусов

Сравнение утилит анализа корпусов