TODO
TODO — раздел с важными задачами и перечнем статей, которые хотелось бы сделать при первой появившейся возможности.
Если у вас есть собственные пожелания, то смело вносите их в эти списки!
Нужные статьи
Статьи про инструментарий
Статья | Комментарий | Предложил |
---|---|---|
MaltParser | Для MaltParser существует модель русского языка и нужно рассказать, как пользоваться всем этим добром. | Участник:Ustalov |
Moses | http://www.statmt.org/moses/ и http://sz.ru/smt/ | Участник:Ustalov |
FreeLing | Уже имеется зачаточная версия статьи, но было бы полезно написать что-то более крупное и полезное. | Участник:Ustalov |
pymorphy | Все любят pymorphy, нужно про него написать более детальную статью. | Участник:Ustalov |
Stemka | Дописать про интерфейс для C/C++. | Участник:Ustalov |
NLTK | NLTK — одна из крупнейших библиотек для работы с текстом. | Участник:Ustalov |
Apache Lucene | Lucene — известная библиотека для информационного поиска на Java. | Участник:Ustalov |
Solarix | Наверняка кто-то им пользовался. | Участник:Ustalov |
Serelex | Есть демо лексико-семантического поисковика и есть Участник:Александр Панченко, но до сих пор нет статьи. | Участник:Ustalov |
Petrovich | Библиотека для склонения русских антропонимов. | Участник:Ustalov |
General Architecture for Text Engineering | Не помешало бы иметь отдельную статью про основы GATE. | Участник:Ustalov |
Apache UIMA | Не помешало бы иметь отдельную статью про основы UIMA. | Участник:Ustalov |
scikit-learn | Библиотека scikit-learn содержит мощный инструментарий средств для машинного обучения, который также можно использовать в задачах NLP - кластеризации и классификации текстов. Рекомендую создать отдельную статью про основы [1]. | Участник:Oleg Durandin |
Статьи про ресурсы
Статья | Комментарий | Предложил |
---|---|---|
Национальный корпус русского языка | Неприлично не иметь отдельной статьи про НКРЯ. | Участник:Ustalov |
Викисловарь | Пустая статья. | Участник:Ustalov |
Ресурсы ИРЯ | Должны быть полезные словари, которых нет у нас. | Участник:Ustalov |
Статьи про мероприятия
Статья | Комментарий | Предложил |
---|---|---|
Диалог (конференция) | http://dialog-21.ru/ | Участник:Ustalov |
Введение в обработку естественного языка
Статья | Комментарий | Предложил |
---|---|---|
Графематический анализ | Токенизация, сегментация, и т. д. | Участник:Ustalov |
Морфологический анализ | Морфологический разбор слова, словари, стемминг, лемматизация, склонение, постморфология (снятие омонимии). | Участник:Ustalov |
Синтаксический анализ | Контекстно-свободные грамматики (есть), грамматика связей, и др. | Участник:Ustalov |
Сходство документов | Шинглы, супершинглы, векторные модели, латентно-семантическое индексирование. | Участник:Ustalov |
Извлечение ключевых слов | tf-idf, C-value, TextRank, etc. | Участник:Ustalov |
Автоматическое реферирование | Статистические, лингвистические, теоретико-графовые методы автореферирования, etc. | Участник:Ustalov |
Машинный перевод | Перевод на правилах, статистический перевод, выравнивания, и т. д. | Участник:Ustalov |
Информационный поиск | Косинусная мера сходства документов, ранжирование документов при помощи PageRank и BM25. | Участник:Ustalov |
Алгоритмы и методы общего назначения
Статья | Комментарий | Предложил |
---|---|---|
Наивный байесовский классификатор | Единственная в Рунете статья, после прочтения которой станет ясно, как это работает. | Участник:Ustalov |
Важные разделы NLPub
Статья | Комментарий | Предложил |
---|---|---|
Темы дипломов | Что, ни у кого нет тем для дипломников-бакалавров и магистров?! | Участник:Ustalov |
Персоналии | Не надо стесняться. | Участник:Ustalov |