Самодеятельная песня

Жизнь как-то давным-давно свела меня с блестящим социологом и бардом С. В. Чесноковым. В те годы он сочинял красивые песни и работал пожарником в Театре на Таганке. Талантливые люди могут себе позволить и не такое занятие, ведь внутренний мир у них заметно богаче внешнего. Мы сидели в какой-то тесной подсобке, у меня «горел» билет на самолет в Новосибирск, но прервать беседу было невозможно. Познакомившись спустя десять с лишком лет с системой data mining, я многократно вспоминал тогдашнюю беседу.

Потом, уже спустя пару лет, С. В. Чесноков издал книгу о методике, которую он назвал «детерминационным анализом». Книга вышла только потому, что за нее вступился лауреат Нобелевской премии по экономике академик Л. В. Канторович1).

Задачи, которые решает детерминационный анализ, на удивление близки к тем, которые ставит перед собой и data mining:

  • Находить правила, скрытые в данных
  • Вычислять критические границы числовых факторов
  • Находить и анализировать качественные факторы
  • Строить новые признаки и использовать их при поиске правил
  • Вычислять связи между признаками в несвязанных массивах данных

Основная идея детерминационного анализа всегда излагалась его автором как нечто универсальное и высоконаучное. Кто не верит, может обратиться к его статье в журнале «Социологические исследования» и насладиться «на полную катушку».

А вот сейчас вас ждет неполное наслаждение. Приводимая ниже цитата взята с сайта аналитической компании «Контекст», которую С. В. Чесноков основал в 1989 г. и возглавляет до сих пор.

Ну, а теперь к делу. Допустим, мы согласны с высказыванием: «Все мои конкуренты мне противны». И добавляем к нему частное высказывание «Женя Б. – мой конкурент». Из этого следует вывод «Женя Б. мне противен». Но если пойти дальше и «перевернуть» логику рассуждений следующим образом: «Этот человек (некоторый произвольный, не обязательно Женя Б.) мне противен»? Можно ли из этого сделать вывод, что этот человек – мой конкурент?

Перечитаем вновь цитату о правилах детерминационного анализа. Конкурентность – объясняющий признак, противность – объясняемый. Точность правила «Если конкурент, то противный», определяется долей противных людей среди моих конкурентов. Точность обратного правила «Если противный - то конкурент» определяется вероятностью того, что, увидев противного человека, я потом узнаю: да, он действительно мой конкурент. Полнота первого правила состоит в том, что противность – не единственный (неполный) признак, определяющий конкурента, нужно добавить еще какие-то. Полнота второго правила состоит в том, что противность человека еще не дает права относить его к конкурентам. Хотя потом, когда мы узнаем, что он тоже бизнесмен и работает на том же рынке товаров или услуг, то набор признаков («к тому же еще и противный!») задает новый критерий С. И высказывание, казавшееся маловероятным, становится более достоверным в форме «если С, то А».

Теперь перейдем к примерам. Начнем с простого и покажем, каковы могут быть направления совершенствования метода. Стартовый пример, собственно, к детерминантному анализу не относится, а взят из одного моего давнего исследования, когда казалось, что мир анализа информации пуст и все придется придумывать самому. Проводилось исследование результатов одной из советских хозяйственных реформ. Проводился опрос директоров промышленных предприятий Сибири и Дальнего Востока. Директора отвечали на 20 вопросов о реформе. Их ответы обрабатывались, в результате ЭВМ выдавала следующие похожие друг на друга тексты по отраслям сибирской и дальневосточной промышленности (пробелы заполнялись вычисленными значениями):

«Были опрошены ___ директоров предприятий (отрасли) промышленности Сибири и Дальнего Востока, что составляет ___ % от всего числа директоров этой отрасли в данном регионе страны.

Из них ___ человек, то есть ___% опрошенных придерживаются единого мнения относительно проведенной реформы. Это единое мнение состоит в том, что на вопрос

  1. (содержание вопроса) они отвечают (содержание ответа, например, да), на вопрос
  2. (содержание вопроса) они отвечают (содержание ответа, например, нет), и так далее…»

Список вопросов в таких текстах был меньше двадцати по той причине, что по некоторым из вопросов общего списка у директоров не было единого мнения.

Не трудно догадаться, как строились эти тексты. Сама форма была стандартной; машина находила самую заполненную клеточку в многомерной матрице, учитывающей все переменные, то есть вопросы. Это и было стартовое, действительно единое мнение. Если клеточка эта была слабо заполнена, скажем, в ней оказывалось всего 10% опрошенных, находился тот вопрос, при исключении которого группа с единым мнением значительно увеличивалась. И вопросы исключались один за одним до тех пор, пока группа с единым мнением не превышала двух третей от общей совокупности опрошенных.

Что в такой методике плохого? Недостатка два. Последовательное исключение вопросов не ведет к единственному решению, то есть можно найти другую последовательность исключения признаков и другое их сочетание, где группа с единым мнением будет не меньше. Можно, конечно, заставить компьютер перебирать все сочетания вопросов, хотя это и унизительно. И второй недостаток – произвол. Почему две трети? Да просто так.

И вот теперь даю краткую характеристику возможностей (достоинств) детерминационного анализа. Он при решении подобной задачи позволяет обойтись без упоминавшихся выше перебора и произвола. То есть детерминационный анализ упорядочивает правила выделения наборов ячеек в таблице (или многомерной матрице). С помощью выделенных наборов можно установить связи между одиночными или комбинированными признаками. В прикладном отношении детерминационный анализ делает для качественных признаков то же, что факторный анализ делает для признаков количественных.


1) Чесноков С.В. Детерминационный анализ социально-экономических данных. М.: Наука, 1982. Более поздняя книга, покруче, вышла за океаном: Чесноков С.В. Физика Логоса. Нью-Йорк: Телекс, 1991. Но более доступна большая по объему статья Чесноков С.В. Метаматрицы в логике натуральных текстов, Социологический журнал, 2003, №2, с. 46-89



Оглавление

НОВОСТИ КОМПАНИИ


архив ...»