Утилиты
Материал из NLPub
Содержание |
Конечный преобразователь
Конечный преобразователь (англ. finate state transducer, сокр. англ. FST), взвешенный конечный преобразователь (англ. weighted finate state transducer, сокр. англ. WFST) — вариант конечного автомата, помимо распознавания входной последовательности также формирующий выходную последовательность. В рамках компьютерной лингвистики находит применение в таких областях, как анализ морфологии, распознавание речи и пр.
- OpenFST
- AT&T FSM Library
- Helsinki Finite-State Transducer Technology (HFST), см. тж. The Helsinki Open Source Morphology Project
- GRM Library — инструменты общего назначения для создания грамматик, обработки текста, статистических языковых моделей.
- OpenGRM — библиотека для создания языковых моделей.
- Phonetisaurus — G2P фреймворк
- DCD Library — Speech Recognition Decoder Library (non-commercial licence, AT&T)
- Juicer — система распознавания речи на базе WFST.
- PC-KIMMO — морфологический анализатор, фонологические преобразования описываются с помощью FST.
- Unitex — словари, графический интерфейс для построения каскадов FST, часто применяется в задачах извлечения информации из текстов, аналогичен во многом JAPE (GATE).
Обработка языковых моделей
Название | Задачи | Лицензия |
---|---|---|
SRILM | Статистические языковые модели | SRILM Research Community License |
Sequitur G2P | G2P | GPL v. 2 |
Morpho | Статистический морфологический анализ | GPL |
NICO Toolkit | ANN | BSD |
HTK | HMM | HTK EULA |
The Edinburgh Speech Tools Library | Форматы данных и конвертеры (LPC, кепстры, n-gramms и пр.) | |
WaveSurfer | Визуализация и работа с аудиофайлами | |
Speech Filing System | Форматы данных, спектрограммы, формантный анализ и пр. | |
CMUCLMTK | Статистические языковые модели | |
MIT Language Modeling Toolkit | Статистические языковые модели | |
IRST LM Toolkit | Статистические языковые модели | GPL/LGPL |
Praat | Сегментация, разметка, спектрограммы, формантный анализ и пр. | |
Voicebox (Matlab/Octave Speech Processing Toolbox) | Форматы, конвертеры, спектральный анализ, кодирование сигнала и пр. | |
EMU Speech Database System | Создание и обработка речевых корпусов |