lunes, 12 de enero de 2009

CIF vs MD : Dos enfoques clásicos en el diseño de la arquitectura de un Data Warehouse

Bill Inmon y Ralph Kimball son dos de las personalidades referentes y más influyentes en el área de data warehousing, y responsables de los dos enfoques a los que hacemos referencia.
Bill Inmon es el creador del término Data Warehouse así como del CIF, conjuntamente con Claudia Imhoff. Es considerado por todos el padre de la disciplina. Por su parte, Ralph Kimball es un gurú del diseño de data warehouse y creador del enfoque MD.

En múltiples disciplinas existen diferentes enfoques para abordar un mismo concepto o problema. La existencia de dichos enfoques enriquece sobremanera la propia disciplina. Siendo más generalista, eso mismo sucede entre diferentes áreas del conocimiento y produce que el avance de la ciencia no se enquiste.

A modo de ejemplo, pensemos en el papel que juega la geometría diferencial no euclidiana1 (un enfoque completamente abstracto) en el modelo de partículas elementales de la física (un enfoque
que tiene el objetivo de describir la realidad a nivel subatómico).

El diseño de un Data Warehouse, como disciplina que ha alcanzado ya un grado de madurez considerable a lo largo de estos años, también presenta diferentes enfoques. En el presente
artículo hablaremos sobre dos de ellos y sus ventajas e inconvenientes.

Introducimos a continuación MD (Multidimensional Architecture) y CIF (Corporate Information Factory). Dos enfoques clásicos que conviene revisar antes de considerar enfoques mucho más modernos o concretos.

MD
La arquitectura MD fue desarrollada por el Dr. Ralph Kimball; está basada en la premisa que todos los análisis Business Intelligence tiene su origen en una estructura multidimensional. Quizá
sea conveniente referirnos a la definición que tiene Kimball de un data warehouse: una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis.
Vayamos un poco más allá. Partamos del hecho que Kimball acuñó la siguiente frase: “El Data Warehouse es la unión de todos los Data Marts de una entidad”.
Podemos, entonces, entender de forma natural que la presente metodología:
  • Es ascendente (bottom-up).
  • Está basado principalmente en uso de Data Marts independientes.
La arquitectura MD está separada en dos capas de procesos y servicios:
  • Back Room: a groso modo la cocina de nuestro sistema. Se realizan todos los procesos ETL para conseguir los datos de las fuentes de origen (involucrando procesos de data quality, data staging u otros), pero además también se consideran aquellos procesos ETL que alimenta cada uno de los data marts independientes existentes en la organización. Kimball distingue además dos tipos de data marts:
  1. Atomic Data Marts: contienen la información al nivel de detalle máximo.
  2. Aggregated Data Marts: contienen la información departamento, por áreas o funcional que puede estar alimentado por los anteriores o directamente de la Staging Area.
  • Front Room: consistente por las herramientas de análisis que usan la información consolidada en los data martsde la back room. Es por lo tanto claro, que para cada unidad de negocio se creará un data mart (o varios) sin tener en cuenta las necesidades de otra unidad. No prima la visión única del dato.
CIF
CIF, enfoque creado por Bill Inmon, es una metodología descendente (topdown).
Se basa en la creación de un repositorio de datos corporativo como fuente de información consolidada, persistente, histórica y de calidad. Consiste como el anterior enfoque en dos
fases:
  • Getting Data In: incluye los procesos ETL de las fuentes de origen (que incluyen Data Quality, Data Staging u otros procesos), creación del Data Warehouse Corporativo y, en caso de ser necesario, ODS y Staging Area.
  • Getting Information Out: procesos ETL que distribuyen la información a los diferentes data marts que responden necesidades diferentes (lo que llamamos Data Delivery). Las herramientas de explotación de datos atacan los Data Marts y en casos excepcionales al mismo Data Warehouse Corporativo.
Como es fácil comprender la búsqueda de un enfoque único para cada¡ uno de los conceptos de la organización prima en este enfoque. Por ejemplo, hay veces que el concepto de cliente se entiende de forma sutilmente diferente por los diversos departamentos existentes. Bajo esta metodología se buscaría un entendimiento común.

CIF vs MD
Al final, necesitamos categorizar los conceptos para poder contextualizarlos.
La breve comparativa permite lo anterior.
Queda fuera del alcance de esta breve introducción, cómo se abordan en cada uno de los enfoques estos puntos: mantenimiento, volatilidad, costes de implementación, funcionalidad,
flexibilidad o complejidad.

Conclusiones
Existen situaciones en las que una delas arquitecturas clásicas proporciona ventajas competitivas sobre la otra.
Hecho que hará escoger dicha arquitectura.
Normalmente la realidad es que ambas arquitecturas se combinan para proporcionar la mejor respuesta a las necesidades del cliente o incluso es factible encontrarse otros enfoques más o menos afortunados. Lo importante, en definitiva, es conocer todos los enfoques posibles para no tener de reinventarse la rueda en el momento de hacer un diseño de un Data Warehouse.
Es decir, sólo a partir del conocimiento profundo podemos ir más allá de las propias fronteras.


Fuente: Articulo escrito por Josep Curto en la revista "Gestion del Rendimiento"

No hay comentarios: