7.7.4. Классы систем интеллектуального анализа данных
Статистические пакеты. Хотя последние версии почти всех известных статистических пакетов включают наряду с традиционными статистическими методами также элементы Data Mining, основное внимание в них уделяется все же классическим методикам: корреляционному, регрессионному, факторному анализу и др. Недостатком систем этого класса считают требование к специальной подготовке пользователя. Также отмечают, что мощные современные статистические пакеты являются слишком «тяжеловесными» для массового применения в финансах и бизнесе.
Есть еще более серьезный принципиальный недостаток статистических пакетов, ограничивающий их применение в Data Mining. Большинство методов, входящих в состав пакетов, опираются на статистическую парадигму, в которой главными объектами служат усредненные характеристики выборки. А эти характеристики при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами. В следующих разделах будут специально более подробно обсуждены эти вопросы.
В качестве примеров наиболее мощных и распространенных статистических пакетов можно назвать SAS (компания SAS Institute), SPSS (SPSS), STATGRAPICS, STATISTICA, STADIA и др. [5].
Нейронные сети. Это большой класс систем, архитектура которых пытается имитировать построение нервной ткани из нейронов.
На нейроны самого нижнего слоя подаются значения входных параметров, на основе которых нужно принимать какие-то решения, прогнозировать развитие ситуации и т. д. Эти значения рассматриваются как сигналы, передающиеся в вышележащий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона самого верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ, реакция всей сети на введенные значения входных параметров. Для того чтобы сеть можно было применять в дальнейшем, ее прежде надо «натренировать» на полученных ранее данных, для которых известны и значения входных параметров, и правильные ответы на них. Эта тренировка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов сети к известным правильным ответам.
Основным недостатком нейросетевой парадигмы является необходимость иметь очень большой объем обучающей выборки. Другой существенный недостаток заключается в том, что даже натренированная нейронная сеть представляет собой черный ящик. Знания, зафиксированные как веса нескольких сотен межнейронных связей, совершенно не поддаются анализу и интерпретации человеком (известные попытки дать интерпретацию структуре настроенной нейросети выглядят неубедительными).
Системы рассуждений на основе аналогичных случаев. Идея систем на первый взгляд крайне проста. Для того чтобы сделать прогноз на будущее или выбрать правильное решение, эти системы находят в прошлом близкие аналоги текущей ситуации и выбирают тот же ответ, который был для них правильным. Поэтому данный метод еще называют методом «ближайшего соседа». Эти системы показывают хорошие результаты в самых разных задачах.
Главным их минусом считают то, что они вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт. В выборе решения они основываются на всем массиве доступных исто- рических данных, поэтому невозможно сказать, на основе каких конкретно факторов CBR системы строят свои ответы.
Другой минус заключается в произволе, который допускают эти системы при выборе меры «близости». От этой меры самым решительным образом зави- сит объем множества прецедентов, которые нужно хранить в памяти для достижения удовлетворительной классификации или прогноза. Примеры систем [5]: KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica^ США).Деревья решений. Деревья решений являются одним из наиболее популярных подходов к решению задач Data Mining. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ..., ТО...», имеющую вид дерева (это похоже на определитель видов из ботаники или зоологии). Для того чтобы решить, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид; «Значение параметра А больше X?». Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный, то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.
Популярность подхода связана с наглядностью и понятностью. Но очень остро для деревьев решений стоит проблема значимости. Дело в том, что отдельным узлам на каждом новом построенном уровне дерева соответствует все меньшее и меньшее число записей данных. Дерево дробит данные на большое количество частных случаев. Чем больше этих частных случаев, чем меньше обучающих примеров попадает в каждый такой частный случай, тем менее уверенной становится их классификация. Если построенное дерево слишком «кустистое», состоит из неоправданно большого числа мелких веточек, то оно не будет давать статистически обоснованных ответов. Как показывает практика, в большинстве систем, использующих деревья решений, эта проблема не находит удовлетворительного решения. Кроме того, общеизвестно, и это легко показать, что деревья решений дают полезные результаты только в случае независимых признаков. В противном они лишь создают иллюзию логического вывода.
Довольно много систем используют этот метод. Самыми распространенными являются See5/C5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США) [5].
Эволюционное программирование. Проиллюстрируем современное состояние данного подхода на примере системы Poly Analyst. В данной системе гипотезы о виде зависимости целевой переменной от других переменных формулируются в виде программ на некотором внутреннем языке программирования. Процесс построения программ строится как эволюция в мире программ (этим подход немного похож на генетические алгоритмы). Когда система находит программу, достаточно точно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных таким образом дочерних программ те, которые повышают точность. Таким образом, система «выращивает» несколько генетических линий программ, которые конкурируют между собой в точности выражения искомой зависимости. Специальный транслирующий модуль системы PolyAnalyst переводит найденные зависимости с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и пр.), делая их легкодоступными. Для того чтобы сделать полученные результаты еще понятнее для пользовате- ля-нематематика, имеется богатый арсенал разных средств визуализации обнаруживаемых зависимостей. Для контроля статистической значимости выводимых зависимостей применяется набор современных методов, например рандомизированное тестирование.
Другое направление эволюционного программирования связано с поиском зависимости целевых переменных от остальных в форме функций какого-то определенного вида. Например, в одном из наиболее удачных алгоритмов этого типа — методе группового учета аргументов (МГУА) зависимость ищут в форме полиномов.
Тенетические алгоритмы. Строго говоря, Data Mining — далеко не основная область применения генетических алгоритмов. Их нужно рассматривать скорее как мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Тем не менее, генетические алгоритмы вошли в стандартный инструментарий методов Data Mining и поэтому включены в данный обзор.
Пусть нужно найти решение задачи, оптимальное с точки зрения некоторого критерия. Пусть каждое решение полностью описывается некоторым набором чисел или величин нечисловой природы. Скажем, если нужно выбрать совокупность фиксированного числа параметров рынка, наиболее выраженно влияющих на его динамику, это будет набор имен этих параметров. Об этом наборе можно говорить как о совокупности хромосом, определяющих качества индивида — данного решения поставленной задачи. Значения параметров, определяющих решение, будут тогда называться генами. Поиск оптимального решения при этом похож на эволюцию популяции индивидов, представленных их наборами хромосом. В этой эволюции действуют три механизма: отбор сильнейших — наборов хромосом, которым соответствуют наиболее оптимальные решения; скрещивание - производство новых индивидов при помощи смешивания хромосомных наборов отобранных индивидов; мутации — случайные изменения генов у некоторых индивидов популяции. В результате смены поколений в конце концов вырабатывается такое решение поставленной задачи, которое уже не может быть далее улучшено.
Генетические алгоритмы имеют ряд недостатков. Критерий отбора хромосом и сама процедура являются эвристическими и далеко не гарантируют нахождения лучшего решения. Как и в реальной жизни, эволюцию может «заклинить» на какой-либо непродуктивной ветви. И, наоборот, можно привести примеры, как два неперспективных родителя, которые будут исключены из эволюции генетическим алгоритмом, оказываются способными произвести высокоэффективного потомка. Это особенно становится заметно при решении высокоразмерных задач со сложными внутренними связями. Примером может служить система GeneHunter фирмы Ward Systems Group.
Алгоритмы ограниченного перебора. Алгоритмы ограниченного перебора были предложены в середине 70-х годов XX в. М.М. Бон- гард ом для поиска логических закономерностей в данных. С тех пор они продемонстрировали свою эффективность при решении множества задач из самых разных областей.
Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Примеры простых логических событий: X = а; X < а; X > а; а < X > Ь и др., где X — какой-либо параметр, а и b — константы. Ограничением служит длина комбинации простых логических событий. На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и пр.
Наиболее яркий современный представитель этого подхода — система WizWhy предприятия WizSoft, являющаяся одним из лидеров на рынке продуктов Data Mining. Это связано с тем, что система по-
стояино демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы.
7.8.
Еще по теме 7.7.4. Классы систем интеллектуального анализа данных:
- Расходы на покупку прав на результаты интеллектуальной собственности при упрощенной системе налогообложения Расходы на приобретение прав на результаты интеллектуальной деятельности
- § 1. Анализ существующих данных. Контент-анализ
- 4.1.3. Классификация интеллектуальных информационных систем
- § 5. Сбор, обработка и анализ данных
- 12.4. ОБЗОР ДРУГИХ ЗАДАЧ АНАЛИЗА ДАННЫХ
- 7.7. Анализ данных 7.7.1.
- 6.5. Основные типы анализа данных
- Этап 4. Сбор и анализ входных данных для эксперимента
- 12. БАЗОВЫЙ АНАЛИЗ ДАННЫХ
- 10.1. Анализ данных и описание процедуры моделирования
- 5.2. Подготовка данных для анализа
- 7.3.2. Выделенные классы систем
- 4. ОСНОВЫ ПОСТРОЕНИЯ И ИСПОЛЬЗОВАНИЯ ИНТЕЛЛЕКТУАЛЬНЫХ ИНФОРМАЦИОННЫХ СИСТЕМ