Características de um Data Warehouse

Uma das características de um Data Warehouse é que antes dos dados serem armazenados eles passam por um processo de extração, tradução, filtragem e integração com os dados relevantes já contidos no Data Warewouse.

Estes processos são realizados pelo mecanismo chamado Extract-Transform-Load (ETL) que segundo (KIMBALL e CASERTA, 2004) consiste em:

 Extrair dados das mais diversas fontes de dados, garantir a qualidade de dados e padrões de consistência, traduzir dados de forma que fontes distintas possam ser usadas juntas, e finalmente a entrega dados em um formato de apresentação pronto de forma que desenvolvedores de aplicação possam construir aplicativos aos usuários finais encarregados de tomar decisões.

Após estes processos serem finalizados, as pesquisas podem ser realizadas. Estas pesquisas são feitas diretamente no Data Warehouse, não sendo necessário que os provedores de informação estejam ativos ou mesmo ligados. A figura 1 ilustra este processo.

Figura 1 – Exemplo de Sistema de Data Warehouse

Fonte: (RAGHU e JOHANNES, 2002, p. 680)

 

Outra característica importante é as peculiaridades dos dados, eles devem ser orientados por assunto, integrados, não voláteis e históricos.

Orientado por assunto

O fato de ser orientado por assunto faz com que os dados sejam referentes aos temas de maior interesse das organizações. Estes temas podem ser clientes, produtos, promoções. Esta abordagem leva em consideração apenas entidades de alto nível, centrada apenas nos dados que sejam relevantes ao processo de tomada de decisão e geralmente suas estruturas não obedecem a uma forma normalizada. A figura 2 apresenta um cenário de uma seguradora onde os assuntos de relevância para a mesma são extraídos de sistemas operacionais do dia a dia da empresa e transformados em um Data Warehouse.

 

Figura 2 – Exemplo de orientação por assunto

            Fonte: (INMON, 2005)

Integrado

A integração é uma das principais características do Data Warehouse, é nela que se define a representação única para os dados provenientes dos mais diversos sistemas de informação que irão compor a base de dados do Data Warehousing.

Neste processo, muitos problemas ocorrem e devem ser resolvidos. Estes problemas geralmente estão relacionados aos homônimos, sinônimos, conflitos de chave e domínio, além da forma de representação dos dados. Para exemplificar um dos problemas que pode ocorrer, imagina-se que um determinado sistema de informação (A) do Data Warehousing represente o estado civil de uma pessoa como sendo um campo alfanumérico onde C = “casado”, S = “solteiro”, V = “viúvo”, D = “divorciado” e O = “outros”. Outro sistema de informação (B) represente os mesmos valores com um campo numérico 1, 2, 3,4 e 5. Quando os dados destes provedores A e B forem ser integrados no Data Warehouse, eles devem possuir a mesma representação, como sugere a tabela 1.

 

SISTEMA

AMBIENTE OPERACIONAL

DATA WAREHOUSE

A

Estado Civil: C, S, V, D, O

C, S, V, D, O

B

Estado Civil: 1, 2, 3, 4, 5

C, S, V, D, O

Tabela 1 – Integração dos dados

Fonte: Autor

Históricos

O fato dos dados serem históricos torna possível uma ferramenta muito importante para as análises de tomadas de decisões, que é a análise de tendência. Em um sistema convencional os dados armazenados refletem a posição atual dos dados no exato momento da pesquisa. Já em um sistema Data Warehousing, para cada mudança relevante no ambiente operacional é criada uma nova entrada no Data Warehouse, a qual contém um componente de tempo associado implícita ou explicitamente. Isto torna possível a análise de tendência, pois dados referentes a anos de funcionamento das instituições estão disponíveis para consultas.

Esta característica influencia de forma direta no tamanho do Data Warehouse.

Não Volatilidade

A característica de não volatilidade está relacionada ao fato de que o conteúdo do Data Warehouse permanece estável por longos períodos de tempo.

Basicamente duas operações são efetuadas no Data Warehouse. A primeira é a transação de manutenção, onde o objetivo é a carga dos dados provenientes dos provedores de informação. A segunda é relacionada à leitura dos dados para geração de relatórios de tomadas de decisão.

A figura 3 apresenta os diferentes tipos de operações executadas em uma base operacional e em um Data Warehouse.

Figura 4 – Exemplo de operações em DW

Fonte: (INMON, 2005)

Conclusão

Os dados contidos em um sistema de DW tem particularidades específicas que diferem dos dados de uma base operacional. Essas características são: Orientados por assunto, integrados, não voláteis e históricos.

Para saber mais:

Leia o primeiro post sobre a definição de Data Warehouse http://www.tiselvagem.com.br/desenvolvimento/banco-de-dados/conceitos-basicos-sobre-data-warehouse/ e acompanhe os próximos posts em http://www.tiselvagem.com.br/category/desenvolvimento/banco-de-dados/.

 

INMON, W. H. Building the Data Warehouse. Indianapolis: Wiley Publishi

RAGHU, R.; JOHANNES, G. Database Management Systems. 2. ed. Chicago: McGraw-Hill Higher Education, 2002.

Comentarios

comentarios