Семантические процессоры и хитроумное извлечение фактов

В настоящее время методы контент-анализа применяются к обширным текстам, с активным использованием специализированных программных средств.

Контент-анализу, ориентированному на понимание скрытой (латентной) позиции автора текста, в настоящее время противостоят схемы выявления фактов.

Что же такое факт в такой схеме? Для примера, если распознать в тексте, что произошла покупка акций, то автоматически должен быть построен стандартный набор сообщений – ответов на вопросы кто покупатель, кто продавец, кто эмитент, сколько продано, каковы последствия. Существующие программные пакеты требуют указания, кто из трех действующих лиц является конкурентом. Досье могут быть построены только по одному из трех перечисленных выше действующих лиц.

Теперь можно определить, что же при таком подходе является фактом. Это не самое простое понятие в контент-анализе. Для того, чтобы нечто было признано фактом должен быть определен объект анализа. Если объектом является фирма-конкурент, то ее одновременно следует признать и субъектом, то есть активным действующим лицом. Объект должен быть задан некоторым синонимическим рядом. И «Роман Абрамович», и «владелец Челси» и даже «главный чукотский футболист» должны автоматически преобразовываться в «руководство компании Сибнефть». Объектами мониторинга могут быть как персоны, так и организации. Должна быть построена система соответствий между теми и другими, причем систему эту, равно как и набор синонимов, следует постоянно актуализировать.

Но во многих случаях увеличение числа синонимов, приписываемых наблюдаемому объекту, приводит к потоку ненужной информации. Чтобы этого избежать, определяются атрибуты объекта мониторинга, то есть те типы действий, виды деятельности, которые в наибольшей мере интересуют конкурентную разведку.. Например, информация о том, что какой-либо крупный предприниматель поехал в Куршавель или на Лазурный берег, обычно следует исключать из атрибутов объекта. В общем, атрибуты объекта мониторинга – это те сферы деятельности, те классы его действий, которые следует отслеживать.

В первых проектах сорокалетней давности (вспомните упоминавшуюся выше USA) выделялся только объект, а то, что говорилось об этом объекте анализировалось методом выдергивания нужных сообщений из беспорядочной их кучи. Сейчас другие времена, естественный интеллект в упадке, но зато крепчает интеллект искусственный. Одно из направлений исследований по искусственному интеллекту – так называемые семантические процессоры. Мне в большей степени приходилось встречаться с разработками в этой области, которые велись сначала на Вычислительном центре Сибирского отделения АН СССР, а теперь продолжаются в Российском НИИ искусственного интеллекта(17). Другое направление разработки отечественных семантических процессоров представлено разработками компании «Гарант-Парк-Интернет», работающая в области компьютерной лингвистики(18). На базе этих разработок, в частности, создана интеллектуальная программа RCO Fact Extractor, которая находит в тексте описания фактов заданного типа. Несколько программ семантического анализа, такие как Native Minds, noHold, FlexAnswer, Banter Inc. разработаны вне лингвистических процессоров(19).

Но прежде, чем описывать работу семантического процессора того или иного типа, следует точно определить то, что в данной постановке считается фактом. Отмечу сразу, что в таком определении факта есть нечто аналогичное тому, как великий Эйнштейн определял прямую линию. По его полушутливому определению прямая линия есть ось вращения абсолютно твердого тела. Точно так же и семантическом контент-анализе факт определяется сложно. Он есть выявленное в тексте событие, в котором замешан наблюдаемый объект по заранее зафиксированному атрибуту, то есть виду деятельности. Конкретизацией атрибута является тип факта, то есть конкретное действие, к которому имеет отношение объект наблюдения. Иногда тип факта называют значением атрибута. Пример типа факта из тех, что упоминались выше – приобретение акций. Такова частная конкретизация атрибута «купля-продажа собственности». Один и тот же факт, относящийся к одному и тому же объекту мониторинга, может иметь отношение не к одному, а к нескольким его атрибутам.

Основная часть семантических процессоров строится как обучаемые системы. Если им показано (примерно на десятке примеров), какие наблюдать объекты, какие атрибуты у этих объекты интересны для мониторинга, то специальная программа настройщик построит шаблоны фактов каждого из исследуемых типов. В этом шаблоне, иногда называемом лингвистическим описанием факта (ЛОФ) или семантической сетью, указана полная его структура. Скажем, если вернуться к ситуации купли-продажи акций, то там должны быть три фигуранта: покупатель, продавец и эмитент плюс характеристики проданного или купленного пакета. По этому шаблону восстанавливается позиция объекта мониторинга в шаблоне (семантической сети): кто он продавец или покупатель. В некоторых системах семантического анализа фигуранты делятся на обязательных и факультативных. Но на практике в информационном сообщении могут быть опущены даже обязательные фигуранты.

Собственно мониторинг состоит в том, что найденные факты, сгруппированные по атрибутам объектов, собираются в досье. Досье постоянно обновляется и служит хорошим сырьем для быстрого написания справки или отчета. Если упростить описание работы семантических процессоров, то можно сказать, что они выполняют единственную функцию. У них заготовлены вопросы анкеты, задача их – проверить, является ли данная часть текста (речи, выступления) ответом на какой-нибудь вопрос этой анкеты. К этой основной функции добавляются вспомогательные – как составить саму анкету и какими способами проверять. Прогресс в этой сфере настолько высок, что обе вспомогательных функции совершенствуются практически ежедневно. Но существо дела не меняется.

Появляются и новые вспомогательные функции. В частности, явное продвижение отмечается в выявлении семантических связей между предложениями. Это позволяет совершенно по-новому трактовать любой текст, практически полностью игнорируя синтаксис в той части, когда он не касается семантики.



Оглавление

НОВОСТИ КОМПАНИИ


архив ...»