Процедуры современного контент-анализа

Рассмотрим этапы контент-анализа при использовании того программного обеспечения (семантических и лингвистических процессоров), что в настоящее время присутствует на рынке. Перечисленные процедуры показывают место человека в современном, ориентированном на использование компьютеров, контент-анализе.

Кодирование (или разметка текста) представляет собой основной по затратам этап контент-анализа. Существуют разные системы разметки текстов, основная часть их предполагает полуавтоматическую разметку. То есть, нет ни одной системы, которая бы распознавала структуру текста без участия человека. Но существуют хорошие программные пакеты поддержки разметки, которые на порядок повышают производительность труда разметчика.

Категоризация представляет собой следующий уровень контент-анализа. На этом этапе из размеченных единиц анализа формируются немногочисленные категории типа тех, какие упоминались выше.

Классификация подразумевает стыковку единиц анализа и категорий. Хотя в этой процедуре встреченные в тексте слова не всегда могут быть легко и однозначно отнесены к какой-либо из категорий, эта процедура считается наиболее автоматизированной. Человек даже в не самых современных программных пакетах «подбирает» за компьютером не поле 10% слов, которые не могут быть разнесены по категориям автоматически.

Подсчет и сравнение – следующий уровень, на который понимается исследователь в ходе человеко-машинного контент-анализа. Подсчитываются и сравниваются количества фактов в разных категориях, по разным классам документов и в динамике. Некоторые сравнения делаются по каким-то временным вехам. Пример приведен выше, в связи с российской поэзией.

Получение выводов, как и в любом исследовании, представляет собой наиболее важный и наиболее сложный этап анализа. Основную роль в данной процедуре играет человек. Компьютер отработал свое на предыдущих этапах, в предшествовавших процедурах. Выводы отличаются о проведенных ранее сравнений и подсчетов тем, что они содержат скрытые (латентные) или явные рекомендации – что делать.


Теперь мы можем вернуться к упомянутой выше программе General Inquirer, которой насчитывается уже пятый десяток. Эта программа использует в настоящее время 182 семантических категории и пользуется словарем в сотни тысяч слов, которые поставлены в соответствие этим словам. Только категория «отрицание» имеет соответствия с 2291 термином. При этом исследуются все смысловые оттенки каждого термина. Этот набор категорий складывался постепенно и продолжает совершенствоваться. Для служб конкурентной разведки такой подход может служить хорошим примером. Нужно начинать с какого-либо стандартного набора категорий, а затем постепенно притирать их к существу решаемых задач.



Оглавление

НОВОСТИ КОМПАНИИ


архив ...»