<<
>>

3.8. Хранилища данных и базы знаний

Основные проблемы, связанные с анализом информации, как правило, обусловлены разрозненностью данных в первоисточниках, их качеством и уровнем готовности (отсутствием агрегатов, вычис­ляемых показателей) для решения аналитических задач.
Поэтому на сегодняшний день наиболее востребованной технологией, исполь­зуемой при реализации аналитической информационной системы, являются хранилища данных, с помощью которых решается задача сбора, очистки и преобразования первичных данных.

Основными идеями, лежащими в основе концепции хранилища данных, являются:

• интеграция разъединенных детализированных данных, кото­рые описывают некоторые конкретные факты, свойства, со­бытия и т.д., в едином хранилище;

• разделение наборов данных и приложений на используемые для оперативной обработки и применяемые для решения за­дач анализа.

В начале восьмидесятых годов прошлого века в период бурного развития регистрирующих ИС возникло понимание ограниченности возможности применения БД для целей анализа данных и построе­ния на их основе систем поддержки и принятия решений.

Регист­рирующие системы создавались для автоматизации рутинных опе­раций по ведению бизнеса — выписка счетов, оформление догово­ров, проверка состояния склада и т.д. Пользователями таких систем был в основном линейный персонал. Основные требования, кото­рые предъявлялись к регистрирующим системам, — обеспечение транзакционности вносимых изменений и максимизация скорости их выполнения. Именно эти требования определили выбор реляци­онных СУБД и соответствующей модели представления данных в качестве основных используемых технических решений при построе­нии регистрирующих систем.

Для менеджеров и аналитиков требовались системы, которые бы позволяли:

• анализировать информацию во временном аспекте;

• формировать произвольные запросы к системе;

• обрабатывать большие объемы данных;

• интегрировать данные из различных регистрирующих систем.

Очевидно, что регистрирующие системы не удовлетворяли ни

одному из вышеуказанных требований. В регистрирующей системе информация актуальна только на момент обращения к базе данных, в следующий момент времени по тому же запросу можно получить совершенно другой результат. Интерфейс регистрирующих систем рассчитан на проведение жестко определенных операций и возмож­ности получения результатов на нерегламентированный запрос силь­но ограничены. Возможность обработки больших массивов данных также мала из-за настройки СУБД на выполнение коротких тран­закций и неизбежного замедления работы остальных пользователей.

Ответом на возникшую потребность стало появление новой тех­нологии организации баз данных — технологии хранилищ данных.

Хранилище данных (ХД) — это система, содержащая непротиво­речивую интегрированную предметно-ориентированную совокуп­ность исторических данных крупной корпорации или иной органи­зации с целью поддержки принятия стратегических решений [31].

Информационные ресурсы ХД формируются путем извлечения моментальных снимков БД операционной ИС организации и раз­личных внешних источников. ХД собирает, очищает, загружает, агрегирует, хранит данные и предоставляет к ним быстрый доступ.

При эффективном использовании ХД может быть одним из ос­новных источников достоверной информации для руководителей и специалистов всех подразделений организации. Это обеспечит со­гласованность, своевременность и обоснованность принятия управ­ленческих решений, облегчит выверку обязательной отчетности, выпуск управленческой отчетности.

О хранилище данных можно говорить как о совокупности ис­точника данных (структура связанных таблиц — это и есть храни­лище), где собирается информация для дальнейшей обработки, и процедур извлечения, преобразования и загрузки данных (ETL — extraction, transformation, loading).

Физически хранилище данных представляет собой реляционную базу данных. Однако в отличие от БД корпоративных информацион­ных систем (КИС) хранилище имеет принципиально иную структуру.

Например, хранилище содержит агрегированные данные, вычис­ляемые показатели, хранит исторические накопленные данные по конкретным объектам (период хранения информации — длитель­ный). В отличие от ХД базы данных КИС содержат детализирован­ные данные, период их хранения относительно короткий.

Классическая архитектура ХД состоит из следующих элементов: реляционная, многомерная, или гибридная БД, средства извлечения, очистки и загрузки данных, средства визуализации данных и гене­рации отчетов (OLAP-клиенты). Реляционная БД строится по архи­тектуре «звезда», в которой с одной таблицей фактов связаны не­сколько таблиц измерений (справочников), или «снежинка», отли­чающаяся наличием иерархических справочников. Это делается для оптимизации скорости выполнения объемных запросов (в послед­нее время появилось много статей, критикующих этот подход за его упрощенность и невозможность решения исключительно в рамках «звезды» всего многообразия задач ХД). В многомерной БД строятся «кубы» — специфические структуры, аналогичные по смыслу реля­ционным «снежинкам», но хранящие вычисленные агрегаты на всех пересечениях измерений.

Концептуально модель хранилища данных можно представить в виде схемы, показанной на рис. 3.20.

Данные из различных источников помещаются в ХД, а описа­ния этих данных в репозитории метаданных. Конечный пользова­тель, используя различные инструменты (средства визуализации, построения отчетов, статистической обработки и т.д.) и содержимое репозитория, анализирует данные в хранилище. Результатом его деятельности является информация в виде готовых отчетов, най­денных скрытых закономерностей, каких-либо прогнозов. Так ,как средства работы конечного пользователя с хранилищем данных мо­гут быть самыми разнообразными, то теоретически их выбор не должен влиять на его структуру и функции его поддержания в акту­альном состоянии.

Рис. 3.20.

Концептуальная модель хранилища данных

Особенности хранилища данных связаны с особенностями задач, на решение которых оно ориентировано: аналитическую оператив­ную обработку информации и, как следствие, сложные для опера­тивных баз данных БС^Ь-запросы.

На основе ХД создаются подмножества данных — ОЬАР-кубы, многомерные иерархические структуры данных, содержащие мно­жество признаков:

• дата/время (период времени, к которому относятся данные);

• сфера деятельности (бизнес-сфера, результат), к которой от­носятся данные;

• субъект управления (лицо, принимающее решение — ЛПР);

• вид ресурса и др.

Эти признаки позволяют агрегировать данные путем произволь­ного сочетания признаков и вычисления статистических оценок. В результате анализа информации создается новое знание, полезное для целей управления.

Данные в хранилище попадают из оперативных систем (ОЬ ГР- систем), которые предназначены для автоматизации бизнес-процессов. Кроме того, хранилище может пополняться за счет внешних источ­ников, например статистических отчетов.

На вопрос «Зачем строить хранилища данных — ведь они содер­жат заведомо избыточную информацию, которая и так присутствует

в БД или файлах оперативных систем?», можно ответить, что ана­лизировать данные оперативных систем напрямую невозможно или очень сложно. Это объясняется различными причинами, в том чис­ле разрозненностью данных, хранением их в форматах различных СУБД и в разных «уголках» корпоративной сети. Но даже если на предприятии все данные хранятся на центральном сервере БД, ана­литик почти наверняка не разберется в их сложных, подчас запу­танных структурах.

OLAP (On-line Analytical Processing) не представляет собой не­обходимый атрибут хранилища данных, но он все чаще и чаще при­меняется для анализа накопленных в этом хранилище сведений.

Компоненты, входящие в типичное хранилище, представлены на рис. 3.21.

Построение отчетов

Перенос и транс­формация данных
Реляционное хранилище
Оперативные базы данных
ISÈ
OLAP- хранилище

OLAP- анализ

Репозиторий

----- ». потоки данных

потоки метаданных

Рис. 3.21. Структура хранилища данных

Оперативные данные собираются из различных источников, очищаются, интегрируются и складываются в реляционное храни­лище. При этом они уже доступны для анализа при помощи раз­личных средств построения отчетов. Затем данные (полностью или частично) подготавливаются для OLAP-анализа. Они могут быть загружены в специальную БД OLAP или оставлены в реляционном хранилище. Важнейшим его элементом являются метаданные, т.е. информация о структуре, размещении и трансформации данных.

Благодаря им обеспечивается эффективное взаимодействие различ­ных компонентов хранилища.

Таким образом, задача хранилища — предоставить «сырье» для анализа в одном месте и в простой, понятной структуре.

Есть и еще одна причина, оправдывающая появление отдельно­го хранилища. Сложные аналитические запросы к оперативной ин­формации тормозят текущую работу компании, надолго блокируя таблицы и захватывая ресурсы сервера.

Основными причинами, побуждающими организации внедрять хранилища данных, являются:

• необходимость выполнения аналитических запросов и гене­рации отчетов на не задействованных основными ИС вычис­лительных ресурсах;

• необходимость использования моделей данных и технологий, ускоряющих процесс выполнения запросов и подготовки от­четности, но не предназначенных для обработки транзакций;

• создание среды, в которой даже относительно небольших знаний основ СУБД достаточно для создания запросов и под­готовки отчетов, что означает сокращение времени, требуемо­го от персонала ИТ-отдела для сопровождения системы;

• создание источника с предварительно очищенной информа­цией;

• упрощение процесса подготовки отчетов на основе информа­ции из нескольких транзакционных систем и/или внешних ис­точников данных и/или данных, используемых исключительно для генерации отчетов;

• создание выделенного источника в тех случаях, когда воз­можности операционной системы не соответствует требуемо­му бизнесом сроку хранения данных и/или необходимо иметь возможность подготовки отчетов на определенные моменты времени в прошлом;

• защита конечных пользователей от необходимости в какой бы то ни было степени вникать в структуру и логику работы БД регистрирующей системы.

Переход от данных к знаниям — логическое следствие развития и усложнения информационно-логических структур, обрабатываемых с помощью компьютера. Активно развивающейся областью исполь­зования современных компьютеров является создание баз знаний (БЗ) и их применение в различных областях науки и техники.

Знания — это закономерности предметной области (принципы, связи, законы), полученные в результате практической деятельно­сти и профессионального опыта, позволяющие специалистам ста­вить и решать задачи в этой области.

Знания можно рассматривать как стратегическую информацию, необходимую для формирования цели и построения кинематической траектории, а информацию — как оперативные знания, используемые системой в динамическом процессе.

Под базой знаний (БЗ) понимают совокупность знаний, накоп­ленных человеком в определенной предметной области, выраженную с помощью некоторого языка представления знаний.

Для создания БЗ разрабатываются соответствующие программ­ные средства. Они позволяют обеспечивать загрузку, актуализацию, поддержание в достоверном состоянии, расширение БЗ, формиро­вание, обработку и включение новых знаний, соответствующих те­кущей ситуации. Базы знаний составляют основу экспертных сис­тем при подготовке управленческих решений.

Экспертные системы (ЭС) — прикладные системы искусствен­ного интеллекта, в которых база знаний представляет собой форма­лизованные эмпирические знания высококвалифицированных спе­циалистов (экспертов) в какой-либо узкой предметной области, а также может содержать результатную информацию, полученную при решении экономических задач.

Структура экспертной системы и ее компоненты представлены на рис. 3.22.

Рис. 3.22. Структура экспертной системы

• База знаний предназначена для хранения экспертных знаний о предметной области, которые используются при решении задач экспертной системой. База знаний состоит из набора фреймов и правил-продукций. Фрейм — это структура данных, состоящая из слотов (полей). Фреймы используются в базе знаний для описания объектов, событий, ситуаций, прочих понятий и взаимосвязей меж­ду ними. Правила используются в базе знаний для описания отно­шений между объектами, событиями, ситуациями и прочими поня­тиями. На основе отношений, задаваемых в правилах, выполняется логический вывод. В условиях и заключениях правил присутствуют ссылки на фреймы и их слоты.

• База данных предназначена для временного хранения фактов или гипотез, являющихся промежуточными решениями или резуль­татом общения системы с внешней средой, в качестве которой обычно выступает человек, ведущий диалог с экспертной системой.

• Машина логического вывода — механизм рассуждений, опери­рующий знаниями и данными с целью получения новых данных из знаний и других данных, имеющихся в рабочей памяти. Для этого обычно используется программно реализованный механизм дедук­тивного логического вывода (какая-либо его разновидность) или механизм поиска решения в сети фреймов или семантической сети. Машина логического вывода может реализовывать рассуждения в виде дедуктивного вывода (прямого, обратного, смешанного), не­четкого вывода, вероятностного вывода, поиска решения с разбие­нием на последовательность подзадач, поиска решения с использо­ванием стратегии разбиения пространства, поиска с учетом уровней абстрагирования решения или понятий, с ними связанных, моно­тонного или немонотонного рассуждения, рассуждений с использо­ванием механизма аргументации, ассоциативного поиска с исполь­зованием нейронных сетей и др.

• Подсистема общения служит для ведения диалога с пользова­телем, в ходе которого ЭС запрашивает у пользователя необходи­мые факты для процесса рассуждения, а также дает возможность пользователю в какой-то степени контролировать и корректировать ход рассуждений экспертной системы.

• Подсистема объяснений необходима для того, чтобы дать воз­можность пользователю контролировать ход рассуждений и, может быть, учиться у ЭС. Если нет этой подсистемы, ЭС выглядит для пользователя как «вещь в себе», решениям которой можно либо верить, либо нет. Пользователь выбирает последнее, и такая ЭС не имеет перспектив для применения.

• Подсистема приобретения знаний служит для корректировки и пополнения базы знаний. В простейшем случае это — интеллекту­альный редактор базы знаний, в более сложных экспертных систе­мах — средства для извлечения знаний из баз данных, неструктури­рованного текста, графической информации и т.д.

Среди специализированных систем, основанных на знаниях, наиболее значимы экспертные системы реального времени, или динамические экспертные системы. На их долю приходится 70% этого рынка.

Классы задач, решаемых экспертными системами реального вре­мени, таковы: мониторинг в реальном масштабе времени, системы управления верхнего уровня, системы обнаружения неисправностей, диагностика, составление расписаний, планирование, оптимизация, системы — советчики оператора, системы проектирования.

<< | >>
Источник: Под ред. Г.А. Титоренко. Информационные системы в экономике: учебник для студентов вузов, обучающихся по специальностям «Финансы и кре­дит», «Бухгалтерский учет, анализ и аудит» и специальностям экономики и управления (060000)— 2-е изд., перераб. и доп. - М.: ЮНИТИ-ДАНА, - 463 с.. 2008

Еще по теме 3.8. Хранилища данных и базы знаний:

  1. 6.3. CRM и хранилища данных
  2. 5.2. БАЗЫ ДАННЫХ
  3. Базы данных по контрактам.
  4. 2. БАЗЫ ДАННЫХ
  5. 2.2. Нормализация файлов базы данных
  6. 2.1. Принципы построения и этапы проектирования базы данных
  7. 18.5. Государственная пошлина за совершение уполномоченным федеральным органом исполнительной власти действий по официальной регистрации программы для электронных вычислительных машин, базы данных и топологии интегральной микросхем
  8. Размеры государственной пошлины за совершение уполномоченным федеральным органом исполнительной власти действий по официальной регистрации программы для электронных вычислительных машин, базы данных и топологии интегральной микросхемы
  9. 4.4 Результативность и эффективность файлов данных (картотек, массивов данных)
  10. 7.3. ПРИОБРЕТЕНИЕ И ФОРМАЛИЗАЦИЯ ЗНАНИЙ 7.3.1. ЭЛЕМЕНТЫ ТЕХНОЛОГИИ ПРИОБРЕТЕНИЯ ЗНАНИЙ
  11. II Главные возражения против антропологических данных. — Метод исследования. — Научные предположения. — Разногласие данных. — Признаки преступности, даже у честных людей. — Историческая и антропологическая изменчивость понятия преступления. Его определение. — Преступный тип. — Происхождение и природа преступности.
  12. 7.3.2. МЕТОДЫ ПРИОБРЕТЕНИЯ ЗНАНИЙ
  13. 4.5. Момент определения налоговой базы 4.5.1. Общий порядок определения налоговой базы
  14. 7.2. МОДЕЛИ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ
  15. Информационные системы с базами знаний
  16. 4.2.2. Классификация методов представления знаний
  17. 3.3.3 Передача знаний
  18. 3.4.3. СТРУКТУРИЗАЦИЯ ДАННЫХ И МЕТАДАННЫЕ
  19. 87. ОБЩАЯ МЕТОДИКА ФОРМИРОВАНИЯ ЗНАНИЙ
  20. ИНФОРМАЦИОННЫЙ ПРОЦЕСС ПРЕДСТАВЛЕНИЯ ЗНАНИЙ