Помимо слайсинга

Было бы неправильно видеть в системе data mining некоторую единую методику, под этим именем, как, впрочем, и под именем «кибернетика», понимается набор разрозненных математико-статистических методов , к числу которых относится ассоциирование, то есть объединение в группы сходных объектов. Кластеризация, которая уже упоминалась, представляет собой частный случай и наиболее развитую процедуру ассоциирования. Объединение объектов в рамках кластеризации иерархическое, мелкие группы объектов оказываются вложенными в более крупные. В последнее время в пакеты программ data mining включаются и новомодные методы: нечеткая логика, размытые множества, генетические алгоритмы, фрактальные преобразования, нейронные сети. Общий принцип таков, неважно какие методы, главное – чтобы поставленная задача была решена.

Существует несколько специализированных программных пакетов, содержащих набор процедур data mining. Но в нашей практике мы обычно пользуемся модулем Data Miner, который включен в широко известную статистическую программу STATISTICA.

Его основу составляет программа слайсинга General Slicer/Dicer Explorer. Результаты ее работы и показаны выше. Кроме этого в составе модуля есть программа классификации General Classifier. Эта программа включает в себя блоки построения регрессионных моделей, классификации по образцам и дискриминантного анализа. Специализированная программа General Modeler/Multivariate Explorer содержит набор методов множественной регрессии и факторного анализа. Программа позволяет составлять произвольные структурные уравнения. Программа General Forecaster, еще один компонент модуля Data Miner предоставляет широкий выбор традиционных методов прогнозирования: распределенные лаги, выделение сезонных колебаний, экспоненциальное сглаживание. И завершает набор элементов модуля программа нейронных сетей.

В современных системах мониторинга и конкурентной разведки data mining начинают использовать не только стандартные схемы, но и встраивают эти схемы в системы ввода информации. Каждая новая порция информации подвергается анализу сразу же после того, как она поступила. Такие процедуры называются «аналитический процесс он-лайн» (On-Line Analytic Processing, сокращенно OLAP) или «быстрый анализ распределенной многомерной информации» (Fast Analysis of Shared Multidimensional Information или FASMI).

Оперативные технологии позволяют генерировать из баз данных оперативные описательные или сравнительные справки. Несмотря на название (он-лайн), OLAP на практике не работает в реальном времени; анализ все-таки делается периодически, по мере появления потребности в нем. И вместе с тем, иногда OLAP или FASMI запускаются автоматически спустя определенное время. По мере работы с одним и тем же увеличивающимся массивом, эти системы постепенно «привыкают» к стандартным схемам анализа, типичным для исследователя, занимающегося данной проблемой.



Оглавление

НОВОСТИ КОМПАНИИ


архив ...»