TODO

Материал из NLPub

Шаблон:QA

TODO — раздел с важными задачами и перечнем статей, которые хотелось бы сделать при первой появившейся возможности.

Если у вас есть собственные пожелания, то смело вносите их в эти списки!

Нужные статьи

Статьи про инструментарий

Статья Комментарий Предложил
MaltParser Для MaltParser существует модель русского языка и нужно рассказать, как пользоваться всем этим добром. Участник:Ustalov
Moses http://www.statmt.org/moses/ и http://sz.ru/smt/ Участник:Ustalov
FreeLing Уже имеется зачаточная версия статьи, но было бы полезно написать что-то более крупное и полезное. Участник:Ustalov
pymorphy Все любят pymorphy, нужно про него написать более детальную статью. Участник:Ustalov
Stemka Дописать про интерфейс для C/C++. Участник:Ustalov
NLTK NLTK — одна из крупнейших библиотек для работы с текстом. Участник:Ustalov
Apache Lucene Lucene — известная библиотека для информационного поиска на Java. Участник:Ustalov
Solarix Наверняка кто-то им пользовался. Участник:Ustalov
Serelex Есть демо лексико-семантического поисковика и есть Участник:Александр Панченко, но до сих пор нет статьи. Участник:Ustalov
Petrovich Библиотека для склонения русских антропонимов. Участник:Ustalov
General Architecture for Text Engineering Не помешало бы иметь отдельную статью про основы GATE. Участник:Ustalov
Apache UIMA Не помешало бы иметь отдельную статью про основы UIMA. Участник:Ustalov
scikit-learn Библиотека scikit-learn содержит мощный инструментарий средств для машинного обучения, который также можно использовать в задачах NLP - кластеризации и классификации текстов. Рекомендую создать отдельную статью про основы [1]. Участник:Oleg Durandin

Статьи про ресурсы

Статья Комментарий Предложил
Национальный корпус русского языка Неприлично не иметь отдельной статьи про НКРЯ. Участник:Ustalov
Викисловарь Пустая статья. Участник:Ustalov
Ресурсы ИРЯ Должны быть полезные словари, которых нет у нас. Участник:Ustalov

Статьи про мероприятия

Статья Комментарий Предложил
Диалог (конференция) http://dialog-21.ru/ Участник:Ustalov

Введение в обработку естественного языка

Статья Комментарий Предложил
Графематический анализ Токенизация, сегментация, и т. д. Участник:Ustalov
Морфологический анализ Морфологический разбор слова, словари, стемминг, лемматизация, склонение, постморфология (снятие омонимии). Участник:Ustalov
Синтаксический анализ Контекстно-свободные грамматики (есть), грамматика связей, и др. Участник:Ustalov
Сходство документов Шинглы, супершинглы, векторные модели, латентно-семантическое индексирование. Участник:Ustalov
Извлечение ключевых слов tf-idf, C-value, TextRank, etc. Участник:Ustalov
Автоматическое реферирование Статистические, лингвистические, теоретико-графовые методы автореферирования, etc. Участник:Ustalov
Машинный перевод Перевод на правилах, статистический перевод, выравнивания, и т. д. Участник:Ustalov
Информационный поиск Косинусная мера сходства документов, ранжирование документов при помощи PageRank и BM25. Участник:Ustalov

Алгоритмы и методы общего назначения

Статья Комментарий Предложил
Наивный байесовский классификатор Единственная в Рунете статья, после прочтения которой станет ясно, как это работает. Участник:Ustalov

Важные разделы NLPub

Статья Комментарий Предложил
Темы дипломов Что, ни у кого нет тем для дипломников-бакалавров и магистров?! Участник:Ustalov
Персоналии Не надо стесняться. Участник:Ustalov