Автоматическая визуализация текста

Материал из NLPub
(перенаправлено с «TTP»)
Перейти к: навигация, поиск

Ранние формы начертательного письма, такие как пиктограммы и идеограммы, представляли собой графические изображения предметов или идей на простых носителях информации[1]: на камнях, на кусках дерева, позднее — на папирусе, бумаге, коже. Переход от пиктографии к идеографии связан с потребностью графической передачи того, что не обладает наглядностью и не поддается рисуночному изображению. Потребность убыстрения письма и возможность передавать более сложные по содержанию и длинные по размерам тексты привели к схематизации рисунков, к превращению рисунков в условные значки — иероглифы[1]. Примером известной иероглифической и идеографической системы записи является китайское письмо.

Примером современной системы идеографического письма является блиссимволика[2], предложенная Ч. Блиссом в 1942 году. В отличие от большинства естественных языков, блиссимволика разработана исключительно в качестве семантической системы письменности и не предполагает фонетической реализации.

С появлением вычислительной техники, особенно мини- и персональных компьютеров, исследователи всерьёз заинтересовались проблемой автоматического построения графического изображения по тексту на естественном языке, лежащей на стыке областей искусственного интеллекта, прикладной лингвистики и компьютерной графики.

Классификация и предпосылки

Системы автоматической визуализации встречаются в литературе под разными названиями, обозначающими одно и то же понятие: системы синтеза изображения по тексту, text-to-scene synthesis systems, text-to-picture synthesis systems (TTP-системы).

Исторически, системы автоматической визуализации текста появились в качестве разновидности систем общения в конце XX века на волне значительных успехов в области формальных грамматик, построения систем общения и логического вывода. Сегодня можно выделить три класса таких систем: (1) системы пространственного вывода, (2) предметно-ориентированные системы, и (3) системы иллюстрирования текста. Классификация систем автоматической визуализации текста приведена на рис. 1.1. При возможности, в обзор включены ссылки на сайты соответствующих проектов и продуктов.

TTP-Classes.svg

Первые системы автоматической визуализации текста появились в 60–70-х годах XX века и решали задачу пространственного вывода, выполняя построение двухмерного или трёхмерного изображения на основе текстового описания сцены или обстановки в пространстве. Входным текстом в данном случае является относительно короткая последовательность предложений, явным образом перечисляющая объекты и их взаимное расположение. Со временем, функциональность систем этого класса стала вырастать, появились богатые возможности по созданию анимации, использованию библиотек трёхмерных моделей, применению эффектных средств трёхмерной графики и других современных мультимедиа-технологий.

Бурное развитие систем пространственного вывода привело к появлению в начале 2000-х годов предметно-ориентированных систем, сосредоточенных на воспроизведении точного визуального образа по тексту на ограниченном естественном языке в строго определённой предметной области. Такие системы используются в предметных областях, где текстовое описание какого-либо процесса или объекта не сводится лишь к перечислению его пространственных характеристик, но состоит из однозначных и однотипных фраз или оборотов. Примерами таких предметных областей являются САПР и рапорты о ДТП.

В конце 2000-х годов благодаря широкому распространению Интернета, цифровых фотокамер и сканеров изображений, началась разработка систем иллюстрирования текста, ориентированных на автоматическую генерацию отдельных рисунков или целых визуальных коллажей, покрывающих основной смысл неконтролируемого входного текста, и дополняющих его построенной иллюстрацией. Такие системы применяются в медицинской реабилитации, в рекламе, при обучении иностранному языку, и в других областях.

Все три класса систем продолжают развиваться и сегодня, занимая свою нишу и достаточно успешно решая поставленные перед ними задачи.

Как уже упоминалось в предыдущем разделе, предшественниками систем автоматической визуализации текста являются системы общения, также известные как вопрос-ответные системы.

Работы Р. Кирша и С. Коулза середины 60-х годов XX века посвящены первым попыткам построения двумерных рисунков из простых геометрических фигур в англоязычных системах общения[3][4]. В процессе обработки входного текста выполнялся его синтактико-семантический анализ; генерация графических примитивов осуществлялась на основе результатов такого анализа.

Известно и о применении теории лингвистических моделей «Смысл ⇔ Текст» для решения аналогичной задачи для русского языка А. П. Ершовым, И. А. Мельчуком и А. С. Нариньяни в 70-х годах XX века[5].

В конце 60-х годов XX века развитие компьютерной лингвистики серьёзно пострадало из-за пессимистичного отчёта комитета ALPAC в 1966 году. В отчёте заявлялось о недостаточной результативности исследований прошедших десяти лет, что привело к значительному сокращению финансирования исследований по автоматической обработке естественного языка вплоть до 70-х годов[6].

Системы пространственного вывода

Важным предком всех систем пространственного вывода является система понимания естественного языка SHRDLU[7], разработанная Т. Виноградом в начале 70-х годов XX века в Массачусетском технологическом институте, США.

Система SHRDLU взаимодействовала с пользователем в интерактивном режиме путём интерпретации введённых им предложений на английском языке, и выполняла операции по созданию и перемещению «блоков»: геометрических тел в простой сцене. В целях поддержания контекста, SHRDLU хранила состояния объектов в памяти, и благодаря этому была способна отвечать на простые вопросы о взаимном положении имеющихся тел.

Оригинальная версия SHRDLU работала в монохромном режиме, однако хорошо известна модификация этой системы исследователями из Университета Юты, США, генерирующая и цветные изображения. SHRDLU была яркой демонстрацией успехов искусственного интеллекта как научной дисциплины, однако возможости системы по восприятию более сложных сцен были жёстко ограничены встроенным примитивным миром «блоков».

В работе Д. Брауна и Б. Чандрасекарана, опубликованной в 1981 году, широко обсуждается состояние исследований в области автоматического синтеза изображения по тексту и предлагается использовать дополнительные знания о природе визуализируемых объектов и предложена таксономия уровней представления объектов на сцене[8]. Предложенная таксономия отражает взаимосвязь инструментов компьютерной графики и сведений о взаимных отношениях объектов.

Дж. Адорни, М. Ди Манцо и Ф. Гюнчиглиа из Университета Генуи, Италия, в 1984 году создали систему NALIG (от англ. natural language driven image generation, генерация изображения по тексту на естественном языке), выполняющую построение статических изображений для простых предложений на итальянском языке[9]. Большое внимание в этой работе уделялось вопросу разрешения неоднозначности семантического представления сцены и механизму логического вывода.

Спустя шесть лет, в 1992 году, А. Ямада, Т. Ямамото, Х. Икеда, Т. Нишида и С. Дошита из Университета Киото, Япония, представили систему SPRINT (от англ. spatial representation interpreter, интерпретатор представления в пространстве) для японского языка[10]. В систему SPRINT встроена система знаний о различных характеристиках изображаемых объектов, подготовленная вручную.

Ш. Клэй из Silicon Graphics и Дж. Вильгельмс из Калифорнийского университета в Санта-Крузе, США, в 1996 году разработали систему Put (от англ. класть), позволяющую оперировать с графической сценой как при помощи одноимённого языка сценариев, так и при помощи предложений на английском языке[11]. Примечательно, что для растеризации изображения применялась среда IRIS GL от Silicon Graphics, на основе которой впоследствии был создан OpenGL.

Работа А. Макерджи, К. Гупта, С. Наутиял, М. Сингх и Н. Мишра, датируемая 2000-м годом, посвящена пространственному выводу в условиях неопределённости относительного расположения объектов и демонстрирует систему Virtual Director (англ. виртуальный режиссёр), успешно визуализирующую англоязычные тексты о расположении объектов на участке земли в парке[12].

Популярная система WordsEye, разработанная в 2001 году Р. Койном и Р. Спроутом из AT&T, США, выполняет построение красочных трёхмерных сцен по тексту на английском языке с учётом различных метафор и с использованием полноценной библиотеки трёхмерных моделей[13]. Большинство последующих систем визуализации текста, не только систем пространственного вывода, были либо созданы, либо находились под заметным впечатлением от WordsEye. Стоит также отметить, что WordsEye — одна из немногих систем визуализации текста, доступных публично через Интернет.

В начале 2000-х годов возник важный подкласс систем пространственного вывода — системы анимации текста. Р. Лю и С. Жанг в 1999 году разработали систему SWAN для интерактивной визуализации пьес, и в обзорной работе спустя два года обозначили, что системы анимации текста того времени не были готовы к практическому применению и требуется дополнительное исследование вопросов машинного понимания текста и временно́го планирования взаимодействия объектов[14].

Дж. Кассель, Г. Вильхьямссон и Т. Бикмор из Массачусетского технологического института, США, представили в 2001 году систему BEAT (от англ. behavior expression animation toolkit), интерактивно моделирующую поведение виртуального телеведущего в студии во время эфира с использованием синтеза речи, мимики и жестов[15].

З. Зенг, К. Мейди и Н. Гух из университета Вулверхемптона, Великобритания, в 2003 году описали систему 3DVE (от англ. three dimensional virtual environment, трёхмерная виртуальная среда), строящую статические трёхмерные изображения по тексту на английском языке[16]. Ключевая особенность системы 3DVE состоит в оперировании визуальными параметрами объектов сцены. Упоминания заслуживает выбор авторами языка VRML для представления трёхмерной сцены.

М. Ма и П. Мак Кевитт из Университета Ольстера, Великобритания, в 2006 году представили систему CONFUCIUS, которая ориентирована на построение трёхмерных сцен по текстам из одного предложения с точным распознаванием текстового описания жестов, действий и времени их происхождения[17]. Важной особенностью этой работы является концепция «визуальной валентности» глаголов, связывающая действие с его субъектами и объектами.

Л. Северски и Л. Йин из Бингемтонского университета, США, в том же 2006 году создали систему пространственного вывода с голосовым вводом на основе трёхмерных моделей, доступных во Всемирной паутине. Это единственная известная система визуализации текста, использующая для построения трёхмерного изображения воксели вместо полигонов[18].

Д. Рамамонджисоа из Иватского университета, Япония, в 2007 году предложил использовать онтологии в форматах Семантической паутины для описания характеристик объектов и их взаимодействия на сцене[19].

Всё это время средства компьютерной графики и обработки естественного языка развивались особенно быстро, что привело к появлению в 2010-х годах двух промышленных систем анимации текста. Система «Киноязык», разработанная совместными усилиями российских компаний ABBYY и «Базелевс Инновации» в 2012 году, создаёт трёхмерные короткометражные мультифильмы по авторскому сценарию на английском языке. Формальное представление текста осуществляется на основе универсальной семантической иерархии, создаваемой специалистами-лингвистами компании ABBYY в закрытых условиях. На сайте проекта имеется приглашение к бета-тестированию продукта, однако научных публикаций по «Киноязыку» обнаружить не удалось.

Проект MUSE с центром в Лёвенском католическом университете существует с 2012 года при поддержке седьмой рамочной программы Еврокомиссии, и ставит своей задачей создание системы интерактивного повествования на английском языке с эффектом полного присутствия[20]. Особенное внимание в MUSE уделяется наглядному представлению медицинской информации и детских сказок, но, в целом, декларируется независимость от предметной области. Несмотря на наличие большого количества публикаций и выступлений представителей проекта на различных научных и практических мероприятиях, публичный доступ к демонстрации системы закрыт паролем.

Предметно-ориентированные системы

Принципиальное отличие класса предметно-ориентированных систем от систем пространственного вывода состоит в их строгой направленности на визуализацию текста явно заданной предметной области, нередко с использованием контролируемого языка. Это позволяет детализировать формальное описание такой предметной области, упростить визуализацию полученной сцены, и потенциально снизить количество языковых феноменов и отношений объектов, необходимых для обработки.

Системы визуализации текста в ограниченной предметной области получили своё начало в первой половине 2000-х годов с появления системы CarSim, впервые представленной в 2001 году для французского языка[21], затем в 2003 — для английского[22], и в 2005 — для шведского языка[23]. CarSim выполняет построение анимационных роликов по текстовым рапортам о дорожно-транспортных происшествиях.

М. Аренс, А. Оттлик и Г.-Х. Нейджел из Технологического института Карлсруэ, Германия, в 2002 году создали систему CogViSys, совмещающую сгенерированную на основе текста анимацию движения транспортного средства по проезжей части[24]. Система оперирует логикой Хорна при построении машинного представленния текста.

Отдельным абзацем хочется отметить применение предметно-ориентированных систем в компьютерных играх на примере популярной компьютерной игры Scribblenauts, разработанной компанией 5TH Cell Media LLC и изданной Warner Bros. Entertainment Inc. в 2009 году. Игровой процесс Scribblenauts происходит с боковой точки зрения и состоит в прохождении интерактивной головоломки путём создания игровых объектов по описанию на английском языке, и последующему взаимодействию с ними. Игра получила широкую популярность, что привело к появлению четырёх продолжений, в том числе с поддержкой многопользовательской игры.

Система LAT&CSI, разработанная С. Курбатовым и соавторами в 2012–2014 гг., предназначена для использования в САПР путём трансляции текста на русском языке о строении какой-либо детали в текст на специалированном языке GRASP[25]. Интерпретатор языка GRASP отвечает за этап итоговой визуализации и не зависит от содержания исходного текста.

Системы иллюстрирования текста

Utkus2012-1.png

Основная задача систем иллюстрирования текста состоит не в точной передаче отношений между объектами в тексте, но в создании иллюстрации — изображения или графического коллажа, каким-либо образом визуально представляющего основное содержание оригинального текста (см. рис.).

Дальними предшественниками систем иллюстрирования текста можно считать различные системы пиктографического и идеографического письма, в том числе блиссимволику[2] для письменного общения и программный пакет SymWriter для обучения письму. Общей чертой таких решений является потенциальная независимость от языка исходного текста, что позволяет письменно общаться людям, не знающим родные языки друг друга. Тем не менее, использование таких средств требует ручного подбора изображений и знания специальной нотации, порой сложной для быстрого запоминания. Во второй половине 2000-х годов возникли первые попытки автоматизации иллюстрирования текстов.

Д. Йосши, Дж. Вэнг и Дж. Ли из Университета штата Пенсильвания, США, в 2006 году разработали приложение Story Picturing Engine, выбирающее изображение из коллекции заранее размеченных фотоснимков, наиболее соответствующее заданному текстовому описанию[26].

Группа исследователей из Висконсинского университета в Мадисоне, США, в составе С. Зю, Э. Гольдберга, М. Элдави, Ч. Даера и Б. Строка в 2007 году представили систему автоматического построения визуального коллажа для дополнения письменной речи, ориентированную на применение при медицинской реабилитации людей с расстройствами речи[27][28][29]. Разработанная система не имеет явно заданного названия.

Система Word2Image, описанная Х. Ли, Ж. Тангом, Г. Ли и Т.-С. Чуа из Национального университета Сингапура, генерирует коллаж из нескольких фотографий, каждая из которых имеет тесное отношение к заданному слову[30]. Источником фотографий является Flickr — популярная социальная сеть для фотографов. Данная работа отдалённо напоминает визуальную энциклопедию из к/ф «Пятый элемент».

Р. Михалци и Ц. Леонг из Университета северного Техаса, США, в 2008 году представили иллюстрированный словарь PicNet и подход к замещению слов на изображения в простых предложениях[31]. Авторы показывают, что применение данного подхода позволяет упростить межъязыковую коммуникацию.

Д. Дельгадо, Дж. Магалхеас, Н. Корреиа предложили систему визуализации новостей, упрощающую их чтение[32].

Utkus2012-2.png

Ранняя версия системы Utkus (см. рис.), разработанная Д. Усталовым в 2012 году[33], представляла собой эксперимент по адаптации к русскому языку подхода, используемого в системе Висконсин-Мадисона[27] с применением онтологий Семантической паутины для описания предметной области[19] и учётом взаимного расположения объектов на двумерной плоскости[13]. Эксперименты показали высокую наглядность изображений при их низкой информативности, поскольку визуализация каждого предложения выполнялась отдельно и система не пыталась выделить наиболее интересные пользователю фрагменты текста[34]. Аналогичного подхода придерживается и C. Хомич из Томского государственного университета систем управления и радиоэлектроники, чья работа 2014 года также посвящена синтезу изображения по тексту на русском языке[35].

Ч.-Дж. Хуанг, Ч.-Т. Ли, М.-К. Шан, из Национального университета Тайваня и Национального университета Ченгчи, Тайвань, находясь под заметным влиянием работы Р. Михалци и Ц. Леонга[31], в 2013 году создали систему иллюстрирования коротких детских сказок VizStory[36]. Система VizStory разбивает исходный текст на тематические сегменты, определяет ключевые слова и выполняет поиск изображений, релевантно представляющих содержимое каждого сегмента.

Интерес к подобным системам имеется и у крупных корпораций. Коллектив японских исследователей состоящий из В. Сонга, Э. Финча, К. Танака-Ишши, К. Ясуда и Э. Симута, представляющие разные организации, в том числе Canon, Inc., в 2013 году создал прототип системы picoTrans[37]. Цель этой системы состоит в упрощении межъязыковой коммуникации путём сочетания техник машинного перевода и пиктографии.

П. Джейн, Г. Дарбари и В. Бхавсар из Центра разработки продвинутых компьютерных технологий, Индия, в 2014 году представили систему Vishit для визуализации текстов на языке хинди[38]. Система Vishit содержит словник, базу правил и хранилище заранее определённых шаблонов сцен. Название системы означает «Солнце перед закатом» на языке хинди.

Й. Джианг, Дж. Лью и Х. Лю из Института автоматики Академии наук Китая разработали в 2014 году систему иллюстрирования англоязычных чатов путём генерации для каждого сообщения картинки, представляющую каждое действие или понятие в этом сообщении[39]. Некоторые обороты и фигуры речи выделяются стрелками и отдельными блоками; обнаружение таких грамматических конструкций выполняется при помощи статистического синтаксического анализатора.

У. Ли и Х. Зюге разработали подход к автоматическому иллюстрированию текстов новостей и предложили модель целочисленного программирования для определения наиболее связанных понятий, изображений и предложений исходного текста[40].

Открытые проблемы

  • Поддержка русского языка.
  • Практическое применение.

Ссылки

См. также

Примечания

  1. 1,0 1,1 А. А. Реформатский (2015), Введение в языкознание, ISBN 978-5-7567-0807-3
  2. 2,0 2,1 C. K. Bliss (1978), Semantography: Blissymbolics, ISBN 0-9595870-0-4
  3. R. A. Kirsch (1964), Computer Interpretation of English Text and Picture Patterns
  4. L. S. Coles (1968), An On-line Question-answering Systems with Natural Language and Pictorial Input
  5. A. P. Ershov, I. A. Mel'chuk, A. S. Nariniany (1975), RITA: An Experimental Man-computer System on a Natural Language Basis
  6. J. Hutchins (2003), ALPAC: The (In)Famous Report, ISBN 0-262-14074-8
  7. T. Winograd (1972), Understanding natural language
  8. D. C. Brown & B. Chandrasekaran (1981), Design Considerations for Picture Production in a Natural Language Graphics System
  9. G. Adorni, M. Di Manzo & F. Giunchiglia (1984), NAtural Language driven Image Generation
  10. A. Yamada et al. (1992), Reconstructing Spatial Image from Natural Language Texts
  11. S. R. Clay & J. Wilhelms (1996), Put: Language-Based Interactive Manipulation of Objects
  12. A. Mukerjee et al. (2000), Conceptual description of visual scenes from linguistic models
  13. 13,0 13,1 R. Coyne & R. Sproat (2001), WordsEye: An Automatic Text-to-scene Conversion System
  14. R. Lu & S. Zhang (2001), Overview of Research on Computer Animation and Related Topics
  15. J. Cassell, H. H. Vilhjálmsson & T. Bickmore (2001), BEAT: The Behavior Expression Animation Toolkit
  16. X. Zeng, Q. H. Mehdi & N. E. Gough (2003), Shape of the Story: Story Visualization Techniques
  17. M. Ma & P. Mc Kevitt (2006), Virtual human animation in natural language visualisation
  18. L. M. Seversky & L. Yin (2006), Real-time Automatic 3D Scene Generation from Natural Language Voice and Text Descriptions
  19. 19,0 19,1 D. Ramamonjisoa (2007), Designing and Implementing Knowledge Bases for Narrative Animations System
  20. O. Kolomiyets & M.-F. Moens (2014), Towards Animated Visualization of Actors and Actions in a Learning Environment
  21. S. Dupuy et al. (2001), Generating a 3D Simulation of a Car Accident from a Written Description in Natural Language: The CarSim System
  22. O. Åkerberg et al. (2003), CarSim: An Automatic 3D Text-to-Scene Conversion System Applied to Road Accident Reports
  23. R. Johansson (2005), Automatic Text-to-Scene Conversion in the Traffic Accident Domain
  24. M. Arens, A. Ottlik & H.-H. Nagel (2002), Natural Language Texts for a Cognitive Vision System
  25. С. С. Курбатов и др. (2014), TTP-система: интеграция естественного языка и изображений
  26. D. Joshi, J. Z. Wang & J. Li (2006), The Story Picturing Engine—a system for automatic text illustration
  27. 27,0 27,1 X. Zhu et al. (2007), A Text-to-Picture Synthesis System for Augmenting Communication
  28. A. B. Goldberg (2008), Easy As ABC?: Facilitating Pictorial Communication via Semantically Enhanced Layout
  29. A. B. Goldberg (2009), Toward Text-to-Picture Synthesis
  30. H. Li et al. (2008), Word2Image: Towards Visual Interpreting of Words
  31. 31,0 31,1 R. Mihalcea & C. Leong (2008), Towards Communicating Simple Sentence using Pictorial Representations
  32. D. Delgado, J. Magãlhaes & N. Correia (2010), Assisted News Reading with Automated Illustration
  33. D. Ustalov & A. Kudryavtsev (2012), An Ontology Based Approach to Text to Picture Synthesis Systems
  34. D. Ustalov (2012), A text-to-picture system for Russian language
  35. С. Хомич (2014), Формализованное представление текста на естественном языке для системы автоматизированного построения изображений
  36. C. J. Huang, C. T. Li & M. K. Shan (2013), VizStory: Visualization of Digital Narrative for Fairy Tales
  37. W. Song et al. (2013), picoTrans: An Intelligent Icon-driven Interface for Cross-lingual Communication
  38. P. Jain, H. Darbari & V. C. Bhavsar (2014), Vishit: A Visualizer for Hindi Text
  39. Y. Jiang, J. Liu & H. Lu (2014), Chat with illustration
  40. W. Li & H. Zhuge (2014), Summarising News with Texts and Pictures