¿Qué es ETL?
ETL (Extract: Extraer, Transform: Transformar y Load: Cargar) es un proceso a través del cual los datos se mueven y se trasladan de una forma definida. Es utilizado por las organizaciones para mover datos desde múltiples fuentes, modificarles el formato y cargarlos en otra base de datos, con el objetivo de analizarlos o enviarlos a otro sistema.
Un poco de historia
En la década de los años 70s cuando las bases de datos crecieron en popularidad, las ETL se introdujeron como un proceso de integración para la computación y el análisis de datos, eventualmente se convirtieron en el principal método de procesado de datos para los proyectos de DataWareHouse(almacenes de datos especializados).
Las ETL sentaron las bases para la analítica de datos y por medio de una serie de reglas de negocio, se convirtieron en una herramienta para limpiarlos y organizarlos en la medida justa en que la inteligencia de negocios lo requiere, a través de reportes mensuales, que son la entrada a funciones de análisis más avanzadas.
¿Cómo funcionan las ETL?
La forma más fácil de entender cómo funcionan las ETL es entender qué ocurre en cada uno de los pasos del proceso.
1. Extracción
Durante la fase de extracción, los datos crudos son copiados o exportados desde las fuentes al área de trabajo. Los equipos de manipulación de datos pueden extraer la información desde una gran variedad de fuentes y pueden contener tanto datos estructurados como sin estructura como: correos electrónicos, páginas web, archivos planos, sistemas de CRM (Customer Relationship Management o gestión de las relaciones con clientes), sistemas ERP (Enterprise Resource Planning o Planificación de Recursos Empresariales), entre muchos otros.
2. Transformación
En el área de manipulación, los datos crudos son sometidos a procesamiento. Aquí son transformados y consolidados para su análisis. Esta fase puede contener algunas de las siguientes tareas: filtrado, limpiado, validación y autenticación de datos.
3. Carga
En este último paso, los datos transformados se mueven desde el área de manipulación a la base de datos de destino. Por lo general, esto implica una carga inicial de todos los datos, seguida de una carga periódica de cambios de datos incrementales y con menos frecuencia, actualizaciones completas para borrarlos y reemplazarlos.
Para la mayoría de las organizaciones que utilizan ETL, el proceso es automatizado, bien definido, continuo y controlado por lotes. Generalmente, se lleva a cabo fuera de las horas de trabajo cuando el tráfico en los sistemas de origen y la base de datos de destino está en su nivel más bajo.
Beneficios de los procesos ETL
Los procesos ETL presentan beneficios para las organizaciones gracias a su capacidad para la integración de grandes bases de datos, logrando así, una visión global única que permite a analistas y directivos la toma de decisiones estratégicas adecuadas. Adicionalmente, permiten la creación de un repositorio estandarizado de todos los datos de la organización, también conocido como MDM(Master Data Management o Administrador de datos maestros) y la integración de otros sistemas, gracias a nuevas fuentes de datos útiles para la organización.
Implantación de los sistemas ETL
La implantación de un sistema ETL bien definido siempre supone un reto, ya que para que sea realmente efectivo, debe permitir la integración de sistemas legados (algunos están obsoletos) con los más modernos, donde los accesos a estos sistemas se deben llevar a cabo tanto en modo lectura como en modo escritura para su correcto funcionamiento.
Referencias bibliográficas
- https://www.oracle.com/integration/what-is-etl/
- https://www.ibm.com/cloud/learn/etl