ETL (Extract, Transform & Load)

¿Qué es ETL?

ETL (Extract: Extraer, Transform: Transformar y Load: Cargar) es un proceso a través del cual los datos se mueven y se trasladan de una forma definida. Es utilizado por las organizaciones para mover datos desde múltiples fuentes, modificarles el formato y cargarlos en otra base de datos, con el objetivo de analizarlos o enviarlos a otro sistema.

Un poco de historia

En la década de los años 70s cuando las bases de datos crecieron en popularidad, las ETL se introdujeron como un proceso de integración para la computación y el análisis de datos, eventualmente se convirtieron en el principal método de  procesado de datos para los proyectos de DataWareHouse(almacenes de datos especializados).

Las ETL sentaron las bases para la analítica de datos y por medio de una serie de reglas de negocio, se convirtieron en una herramienta para limpiarlos y organizarlos en la medida justa en que la inteligencia de negocios lo requiere, a través de reportes mensuales, que son la entrada a funciones de análisis más avanzadas.

¿Cómo funcionan las ETL?

La forma más fácil de entender cómo funcionan las ETL es entender qué ocurre en cada uno de los pasos del proceso.

1. Extracción

Durante la fase de extracción, los datos crudos son copiados o exportados desde las fuentes al área de trabajo. Los equipos de manipulación de datos pueden extraer la información desde una gran variedad de fuentes y pueden contener tanto datos estructurados como sin estructura como: correos electrónicos, páginas web, archivos planos, sistemas de CRM (Customer Relationship Management o gestión de las relaciones con clientes), sistemas ERP (Enterprise Resource Planning o Planificación de Recursos Empresariales), entre muchos otros.

2. Transformación

En el área de manipulación, los datos crudos son sometidos a procesamiento. Aquí son transformados y consolidados para su análisis. Esta fase puede contener algunas de las siguientes tareas: filtrado, limpiado, validación y autenticación de datos.

3. Carga

En este último paso, los datos transformados se mueven desde el área de manipulación a la base de datos de destino. Por lo general, esto implica una carga inicial de todos los datos, seguida de una carga periódica de cambios de datos incrementales y con menos frecuencia, actualizaciones completas para borrarlos y reemplazarlos. 

Para la mayoría de las organizaciones que utilizan ETL, el proceso es automatizado, bien definido, continuo y controlado por lotes. Generalmente, se lleva a cabo fuera de las horas de trabajo cuando el tráfico en los sistemas de origen y la base de datos de destino está en su nivel más bajo. 

ETL-Salud electrónica

Beneficios de los procesos ETL

Los procesos ETL presentan beneficios para las organizaciones gracias a su capacidad para la integración de grandes bases de datos, logrando así, una visión global única que permite a analistas y directivos la toma de decisiones estratégicas adecuadas. Adicionalmente, permiten la creación de un repositorio estandarizado de todos los datos de la organización, también conocido como MDM(Master Data Management o Administrador de datos maestros) y la integración de otros sistemas, gracias a nuevas fuentes de datos útiles para la organización.

Implantación de los sistemas ETL

La implantación de un sistema ETL bien definido siempre supone un reto, ya que para que sea realmente efectivo, debe permitir la integración de sistemas legados (algunos están obsoletos) con los más modernos, donde los accesos a estos sistemas se deben llevar a cabo tanto en modo lectura como en modo escritura para su correcto funcionamiento.

Referencias bibliográficas

  • https://www.oracle.com/integration/what-is-etl/
  • https://www.ibm.com/cloud/learn/etl
Ideas disruptivas como agentes de cambio
Todas las empresas deberían implementar nuevos procesos, generar nuevas ideas de servicios y productos, reinventarse…
Base de datos no relacionales
El uso de una base de datos SQL o NoSQL depende del tipo de proyecto…
¿Que es Big Data ?
Big data (grandes datos o grandes volúmenes de datos) se denomina como un conjunto de…
Nuestro equipo de trabajo interdisciplinario es especialista David Vélez CEO

David Vélez

Soy David, CEO de Salud Electrónica, mi pasión es ofrecer productos innovadores e integrales que aporten a los procesos en salud para mejorar la eficiencia de las instituciones.

Formación académica:

Cuento con la siguiente experiencia laboral:

  • Director médico en instituciones de alta complejidad.
  • Coordinador de servicios hospitalarios y ambulatorios.
  • Docente universitario.

En mi tiempo libre me gusta cocinar, leer sobre tecnología y actualidad.

Registra tus datos y uno de nuestros funcionarios se pondrá en contacto contigo

× ¿Cómo podemos ayudarte?