Microsoft Research выпустила публичную версию продукта, направленного на решение проблемы понимания машинами естественного языка. Компания верит, что фоновые знания — один из ключевых моментов, отличающих в плане понимания языка людей от машин. База данных Probase, над которой редмондская компания работала на протяжении довольно долгого времени, стала основой для нового инструмента под названием Microsoft Concept Graph. Probase предоставляет доступ к 5,4 млн концептов, сильно обгоняя такие базы данных как, например, Cyc, которая может похвастаться лишь 120 тысячами концептов.
Цель всего этого — поддержка текстового анализа посредством объединения интерпретации и предположения. Очень похожим образом действуют люди, быстро отсеивая ненужную информацию для определения контекста. Например, при прочтении фразы «человек бежал от незнакомца с ножом» большинство, вероятно, представят человека, убегающего от вооружённого незнакомца. Однако эта фраза также может означать, что человек забрал у незнакомца нож и теперь убегает от него. Тем не менее, бег и нож ассоциируются со страхом, поэтому самая очевидная интерпретация этой фразы в данном случае преобладает над остальными.
Модель концептуального тегирования Microsoft тоже помогает определить контекст фразы. Нож, о котором идёт речь, может восприниматься и как посуда, и как оружие, но в данном контексте это, скорее всего, именно оружие, а не тупой нож для масла, украденный из музея.
Посуда и оружие — довольно распространённые категории, однако музейные экспонаты — это уже нечто более редкое. Модель Microsoft рассматривает наиболее вероятный и крайне маловероятный смыслы слова, учитывая атрибуты, отношения и контекст.
Последняя версия Microsoft Concept Graph способна определять релевантность слов в любом тексте. В будущем программа будет учитывать и «концептуализацию отдельных случаев с контекстом», что означает, что для определения смысла фразы между такими словами как «незнакомец» и «нож» будут устанавливаться связи. Дальше исследователи собираются работать с «концептуализацией короткого текста», расширяя, таким образом, возможности приложений в плане поиска, рекламы и функциональности искусственного интеллекта.
Источник: