Что это такое?

Приведем сначала несколько определений «data mining», собранных из разных источников:

  1. Выделение из данных неявной и неструктурированной информации, представление ее в удобном виде.
  2. Анализ и представления детализированных данных для решения проблем бизнеса.
  3. Обработка больших объемов данных для выделения структур (patterns).
  4. Обнаружение новых значимых корреляций и тенденций в данных большого объема.
  5. Процесс, цель которого — обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образов плюс применение статистических и математических методов
  6. Автоматическое выделение эффективной информации из больших баз данных.
  7. Анализ информации в базе данных с целью отыскания аномалий и трендов без выявления смыслового значения записей
  8. Процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности
  9. Информационный инструмент управления, с помощью которого возможно вскрывать структуры, способные приводить к решениям в условиях неопределенности.

Есть и более лаконичное, хотя и шутливое определение: «Вы мучаете информацию, пока она не признается». Все эти определения верны, каждое по-своему. Но они не объясняют сути метода.

Иногда data mining приравнивают к «обнаружению знаний» (knowledge discovery), под которым понимается нахождение скрытых структур, регулярностей (patterns), преобразующих информацию в знания.

Теперь попробуем описать, что же такое data mining по существу. Общеизвестный статистический анализ состоит в том, что сначала исследователь выдвигает гипотезу о связи или независимости признаков, которую затем проверяют на статистическую значимость. «Добыча эффективной информации» (data mining), в отличие от статистического анализа, представляет некоторую стандартную цепь процедур, практически не оставляющей возможности для творческого подхода в рамках собственно математической статистики.

Что же ограничивает творчество в data mining? Прежде всего, data mining направлен на практическое применение результатов анализа, а не на принципиальное исследование структуры анализируемых явлений или субъектов деятельности. Иными словами, если на основании выявленной закономерности нельзя принять никакого решения, то эта закономерность для data mining не существует.



Оглавление

НОВОСТИ КОМПАНИИ


архив ...»