Темы дипломов

Материал из NLPub

Темы дипломов — страница, где участники NLPub могут сформулировать какие-либо исследовательские или практические задачи для студентов.

Приведённый здесь ориентировочный список тем является своеобразной биржей заданий и содержит примеры того, что можно сделать в рамках дипломной работы специалиста, выпускной квалификационной работы бакалавра, магистерской диссертации. Задания предлагаются исследователями и специалистами в области обработки естественного языка.

Общий совет

Компьютерная лингвистикаочень практическая область, в которой существует огромное количество количество открытых проектов как по разработке программного обеспечения, так и по созданию словарей и баз данных. Наверняка используемые вами инструменты не идеальны. Просто возьмите, сделайте их лучше, и отправьте разработчикам свои результаты. Люди любят, когда им помогают, и будут очень рады принять ваши наработки.

Внесение ощутимого вклада в развитие свободных инструментов и ресурсов — лучшая работа, достойная диплома о высшем образовании.

Список тем

Тема Комментарий Предложил
Реализовать снятие морфологической неоднозначности в pymorphy2 Михаил Коробов, автор библиотеки, давно просит об этом. Дмитрий Усталов
Автоматическое определение "рекламного" стиля текста Создать программу, выполняющую автоматическое распознавание рекламы на страницах Википедии. Андрей Крижановский
Оценка алгоритмов ранжирования семантически близких слов русского языка Достаточно развитое направление для английского языка. Андрей Крижановский
Визуализация тезауруса Разработать открытый инструмент визуализации Викисловаря. Андрей Крижановский
Анализ отзывов в Интернет-магазине Определять эмоциональный оттенок отзывов в Интернет-магазинах при помощи словарных помет. Андрей Крижановский
Кластеризация графа синонимов Кластеризовать граф семантических отношений между словами, извлеченный автоматически системой Серелекс (http://serelex.cental.be/). Визуализировать результаты кластеризации. Требуемые компетенции: анализ данных, владение скриптовыми языками (желательно python). Александр Панченко
Разработка функции ранжирования слов Разработка функции ранжирования слов по запросу для системы Серелекс (http://serelex.cental.be/). Функция должна быть основана на машинном обучении: модели learning to rank или обычные классификаторы. Обучающие данные будут предоставлены. Требуемые компетенции: анализ данных, владение скриптовыми языками (желательно python). Александр Панченко
Разработка грамматик извлечения синонимов и гиперонимов из текста Разработка грамматик извлечения синонимов и гиперонимов из русскоязычных текстов для системы Серелекс (http://serelex.cental.be/). Требуемые компетенции: корпусная лингвистика, лексикография. Александр Панченко

Развитие Викисловаря

Задачи разной сложности для студентов и аспирантов по данным машиночитаемого Викисловаря перечислены на специальной странице, ведомой Андреем Крижановским. Замечания, пожелания и новые задумки можете писать на странице обсуждения.