Мера семантической близости

Материал из NLPub
Перейти к: навигация, поиск

Мера близости — это численная мера, показывающая степень схожести двух объектов. Как правило, она выражается в виде скалярной величины в диапазоне [0; 1] или [0; +\inf].

Мера семантической близости

Мера семантической близости — это особая мера близости, предназначенная для количественной оценки семантической схожести лексем, например, существительных или многословных выражений. Такая мера показывает высокие значения для пар слов, находящихся в семантических онтошениях (синонимия, гипонимия, ассоциативность, когипонимия), и нулевые значения для всех остальных пар.

Меры семантической близости успешно применяются в различных задачах обработки текста на естественном языке, таких как определение схожести текстов, расширение поисковых запросов, автоматические ответы на вопросы, снятие семантической неоднозначности слов. Практическое применение мер близости обусловлено пробелом между лексическим покрытием текста и заложенным в него смыслом: одно и то же понятие может быть выражено разными словами. Меры семантической близости могут быть также полезны в лингвистических и филологических исследованиях.

Сегодня меры семантической близости активно исследуются и развиваются как направление в компьютерной лингвистике. За последние 20 лет создано и апробировано большое количество методов. Последние результаты определения семантической близости, полученные в последние годы с применением нейросетевых моделей языка, вызывали ещё больший интерес к этому направлению (Mikolov et al., 2013). Современные методы вычисления семантического подобия для английского языка хорошо описаны в работах Lee (1999), Curran (2004), Sahlgren, M. (2006), Agirre et al. (2009), Ferret (2010), Van de Cruys (2010), Panchenko (2013) и Baroni (2014).

К сожалению, большинство походов к определению семантической близости были реализованы и опробованы только на небольшом количестве европейских языков, в основном для английского языка. Российские исследователи эпизодически осуществляют попытки адаптации методов для английского языка, но эти попытки ограничиваются какими-либо конкретными приложениями и остаются без должной проверки и апробации. Насколько нам известно, систематизированное исследование мер семантической близости для русского языка пока никем не проводилось.

Состояние дел в области метрик семантической близости для русского и английского языков

Вычислительная лексическая семантика (computational lexical semantics) – раздел компьютерной лингвистики, который изучает вычислительные модели лексических единиц, таких как слово или именная группа. Актуальность и активность исследований в данной области объясняется широкими возможностями по использованию результатов в прикладных задачах. В частности, метрики семантической близости и семантические отношения между словами, такие как синонимы, гиперонимы и со-гипонимы полезны при создании самых различных систем автоматической обработки текста (АОТ). Приметриками таких систем являются информационно-поисковые системы (Hsu et al., 2006), вопросно-ответные системы (Sun et al., 2005), системы разрешения омонимии (Patwardhan et al., 2003), системы классификации текстов (Panchenko, 2013) и системы оценки подобия текстов (Mihalcea et al., 2006; Tsatsaronis et al., 2010).

Широкое использование лексико-семантического знания о языке на практике объясняется тем, что семантически близкие понятия в языке могут выражаться совершенно разными способами. Например, “автомобиль”, “машина” и “легковушка” в одном тексте могут обозначать один и тот же предмет. Однако вычислительной системе без явного задания соответствий (т.е. семантических отношений) между словами “автомобиль”, “легковушка” и “машина” нетривиально прийти к выводу об эквивалентности их значения. Особенно активны исследования в данной области проводились в последние 20 лет. Большое количество ученых предложили различные метрики и провели сравнительные тесты существующих метрик, например Resnik (1995), Lee (1999), Curran (2004), Sahlgren (2006), Agirre et al. (2009), Ferret (2010), Van de Cruys (2010), Panchenko (2013) и Baroni (2014). Однако первые работы в этой области начали появляться еще в середине 60-х годов, например Rubenstein and Goodenogh (1965).

Важной вехой в развитии области являются несколько кампаний оценки метрик семантической близости:

  1. В рамках летней школы European Summer School in Logic, Language and Information ESLLI 2008: http://www.illc.uva.nl/ESSLLI2008
  2. Семинар при конференции EMNLP 2011, Geometrical Models of Natural Language Semantics GEMS 2011: https://sites.google.com/site/geometricalmodels
  3. Дорожки на SemEval 2012 и 2013: https://en.wikipedia.org/wiki/SemEval

Данный фронт работ привел к появлению набора тестовых выборок, которые можно использовать для количественного определения производительности метрик и объективного сравнения их характеристик. Наиболее часто используемыми являются проверочные наборы Miller and Charles (MC), Rubestein and Goodenough (RG), WordSim353 и Baroni and Lenci Evaluation of Semanic Spaces (BLESS). Однако существует и множество других проверочных наборов. Подробный обзор методологии оценки метрик семантической близости приведен в Panchenko (2013), стр. 22.

Следует отметить, что, несмотря на проработанность методов вычисления семантической близости и способов их численной оценки, подавляющее большинство экспериментов и подходов было проведено на англоязычных данных. Редким исключением является работа группы Ирины Гуревич из Дармштадского Технического Университета по оценке метрик семантической близости для немецкого языка (Zesch et al., 2007). В нашем проекте мы постараемся перенять данный опыт и привлечь в качестве стороннего эксперта профессора Гуревич (https://www.ukp.tu-darmstadt.de/people/gurevych).

Несмотря на то, что некоторые российские авторы, например, Крижановский (2007) , Крюков и др., Сокирко и Турдаков, адаптировали некоторые из методов вычисления семантической близости для русского языка, в большинстве существующих работ не была проведена систематичная оценка качества результатов. Поэтому нельзя на данный момент с уверенностью классифицировать существующие системы измерения семантической близости для русского языка с точки зрения их точности. Одна из основных причин вышеописанных проблем – отсутствие стандартных тестовых и обучающих коллекций для метрик семантической близости для русского языка. RUSSE станет первой систематической попыткой оценить качество метрик близости для русского языка.

Литература

  • Agirre, E., Alfonseca, E., Hall, K., Kravalova, J., Pa ̧sca, M., and Soroa, A. (2009). A study on similarity and relatedness using distributional and wordnet-based approaches. In Proceedings of NAACL-HLT 2009, pages 19–27.
  • Baroni, M., Dinu, G., & Kruszewski, G. (2014). Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Vol. 1).
  • Curran, J. R. (2004). From distributional to semantic similarity. PhD thesis. University of Edinburgh, UK.
  • Ferret, O. (2010). Testing semantic similarity measures for extracting synonyms from a corpus. In Proceeding of LREC.
  • Lee, L. (1999). Measures of distributional similarity. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, pages 25–32. Association for Computational Linguistics.
  • Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations. In Proceedings of NAACL HLT, 2013.
  • Panchenko. A (2013). Similarity measures for semantic relation extraction. PhD thesis. Université catholique de Louvain,194 pages, Louvain-la-Neuve, Belgium.
  • Sahlgren, M. (2006). The Word-Space Model: Using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-dimensional vector spaces. PhD thesis.
  • Van de Cruys, T. (2010). Mining for Meaning: The Extraction of Lexicosemantic Knowledge from Text. PhD thesis, University of Groningen, The Netherlands.
  • Крижановский, А. А. (2007). Оценка результатов поиска семантически близких слов в Википедии. Труды СПИИРАН, (5), 113-116.
  • Турдаков, Д. Ю. (2010). Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов.Автореф. дисс. канд. ф-м. наук. Москва.
  • Крюков К.В., Панкова Л.А., Пронина В.С., Суховеров В.С., Шипилина Л.Б. "Меры семантической близости в онтологии." Проблемы управления 5 (2010).
  • Сокирко А., Майнинг близких по смыслу языковых выражений для поисковой системы Яндекс (до 2012 года). Режим доступа: http://www.aot.ru/docs/MiningQueryExpan.pdf
  • Mihalcea, R., Corley, C., and Strapparava, C. (2006). Corpus-based and knowledge-based measures of text semantic similarity. In AAAI’06, pages 775–780.
  • Sahlgren, M. (2006). The Word-Space Model: Using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-dimensional vector spaces. PhD thesis.
  • Tsatsaronis, G., Varlamis, I., and M., V. (2010). Text relatedness based on a word thesaurus. Journal of Artificial Intelligence Research, 37:1–39.
  • Patwardhan, S., Banerjee, S., and Pedersen, T. (2003). Using measures of semantic relatedness for word sense disambiguation. In Gelbukh, A., editor, Computational Linguistics and Intelligent Text Processing, volume 2588 of LNCS, pages 241–257. Springer Berlin.
  • Hsu, M.-H., Tsai, M.-F., and Chen, H.-H. (2006). Query expansion with conceptnet and wordnet: An intrinsic comparison. Information Retrieval Technology, pages 1–13
  • Sun, R., Jiang, J., Fan, Y., Hang, T., Tat-seng, C., and yen Kan, C. M. (2005). Using syntactic and semantic relation analysis in question answering. In Proceedings of TREC.
  • Panchenko A., Beaufort R., Naets H., Fairon C. Towards Detection of Child Sexual Abuse Media: Classification of the Associated Filenames. In Proceedings of the 35th European Conference on Information Retrieval (ECIR 2013). Lecture Notes in Computer Science (Springler), vol.7814, Moscow, Russia.
  • Resnik, P. (1995). Using Information Content to Evaluate Semantic Similarity in a Taxonomy. In IJCAI, volume 1, pages 448–453
  • Rubenstein, H., & Goodenough, J. B. (1965). Contextual correlates of synonymy. Communications of the ACM, 8(10), 627-633.
  • Zesch, T., Gurevych, I., Mühlhäuser, M. (2007, April). Comparing wikipedia and german wordnet by evaluating semantic relatedness on multiple datasets. In Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Companion Volume, Short Papers (pp. 205-208). Association for Computational Linguistics.