Modelo de Aprendizaje Automático IBM Watson Machine-Salud Electrónica

1. Introducción

En este artículo se desarrolla un modelo predictivo de aprendizaje automático implementando los servicios de IBM Watson Machine Learning.

El aprendizaje automático es un subcampo de la inteligencia artificial, en el que un ordenador aprende de las experiencias pasadas (datos de entrada) y hace predicciones futuras. El rendimiento de un modelo de aprendizaje automático debería estar, como mínimo, a la altura del ser humano (Valéncia, 05).

IBM Watson Machine Learning es un servicio cloud que facilita a los científicos y desarrolladores de inteligencia artificial la integración de las capacidades predictivas en sus aplicaciones (Cloud, 2022).

2. Implementación de la metodología CRISP-DM

La metodología CRISP-DM (Cross Industry Standard Process for Data Mining) es una guía de referencia utilizada en el desarrollo de proyectos de Data Mining (Minería de datos) y está divida en 4 niveles organizados, de forma jerárquica, en tareas que van desde el nivel más general, hasta los casos más específicos (Arancibia, 2009).

Figura 1

Modelo de proceso CRISP-DM

Nota. La figura muestra las fases que deben implementarse en la metodología. Adaptado por Modelo de proceso CRISP-DM (p.17), por José Alberto Gallardo Arancibia, 2009, Metodología para la Definición de Requisitos en Proyectos de Data Mining (ER-DM).

La ejecución de las fases es flexible, permitiendo la adaptación del artículo. Las fases se componen de tareas, las cuales deben desarrollarse de manera específica en cada situación, sin embargo, no se propone cómo deben realizarse (Arancibia, 2009).

Primera fase: Comprensión del negocio

Esta fase debe ser la más importante. En ella se definen las tareas que ayudan a comprender los objetivos y requisitos, “con el fin de convertirlos en objetivos técnicos y en un plan de proyecto.” (Arancibia, 2009).

Para este artículo se selecciona un conjunto de datos (dataset) que contiene información acerca de las cuentas de los clientes en un centro comercial y, basándose en la información se deduce:

Datos de 3 años.
La calidad de los datos es óptima.
Transacciones de previsión.
Probablemente se implementa un modelo de regresión.

Segunda fase: Comprensión de los datos

“Comprende la recolección inicial de los datos, con el objetivo de establecer un primer contacto con el problema, familiarizarse con ellos, identificar su calidad y establecer las relaciones más evidentes que permitan definir las primeras hipótesis.” (Arancibia, 2009).

– Descripción de los datos

Los datos se encuentran almacenados en una única tabla distribuida en 7 columnas con aproximadamente 4212 registros que almacenan la información sobre las cuentas de los clientes en un centro comercial.

En la siguiente figura se puede observar la tabla de frecuencia de datos, esta se generó utilizando el lenguaje de programación Python, proporcionado por el software Jupyter Lab:

Nota. En la figura se muestra la tabla de frecuencia correspondiente al conjunto de datos a analizar. Fuente Información del dataset proporcionado por software Jupyter Lab.

Después de haber realizado la tarea de descripción de los datos, el paso siguiente es explorarlos. La tarea de exploración de datos implica utilizar pruebas estadísticas básicas para revelar propiedades de cada uno, con el fin de crear tablas de frecuencia y gráficos que muestren la manera en que se distribuyen los datos.

A continuación, te mostramos las gráficas que representan los datos que se han cargado con el lenguaje Python, además, de una breve descripción de lo que significa cada una de ellas:

Figura 3

Resumen de conciso del conjunto de datos

Nota. En esta figura se busca mostrar el resumen conciso del conjunto de datos donde se aprecia su cantidad, que no tiene datos vacíos y el tipo de dato que es. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab.

Figura 4

Resumen estadístico del conjunto de datos

Nota. En esta figura se busca mostrar el resumen estadístico de los datos. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab.

Gráfica 1

Densidad de probabilidad de los datos por tipo de cuenta

Nota. En esta gráfica se aprecia la densidad de los datos por su tipo de cuenta. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab.

Gráfica 2

Densidad de probabilidad de los datos por tipo de cuenta Liability

Nota. En esta gráfica se aprecia la densidad de los datos por el tipo de cuenta Liability. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Gráfica 3

Ventas estacionales por tipo de crédito Revenue

Nota. En esta gráfica se aprecia las ventas estacionales por el tipo de cuenta. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Gráfica 4

Ventas estacionales por descripción de la cuenta de tipo Product Sales

Nota. En esta gráfica se aprecian las ventas estacionales por descripción de la cuenta por tipo Product Sales. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Gráfica 5

Correlación de las cuentas

Nota. En esta gráfica se aprecia la correlación de las cuentas. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Tercera fase: Preparación de los datos

El objetivo de esta fase es adaptar los datos a las técnicas de Data Mining. “La preparación de datos incluye las tareas generales de selección de datos a los que se va aplicar una determinada técnica de modelado, limpieza de datos, generación de variables adicionales, integración de diferentes orígenes de datos y cambios de formato”. (Arancibia, 2009).

– Formateo de los datos

Algunos atributos se encuentran mal codificados, dependiendo del tipo de aprendizaje automático que se implemente, se requiere un tipo de dato específico (entero). Todos los datos deben formatearse para cumplir con las exigencias que imponen las técnicas de aprendizaje automático. En las siguientes figuras se aprecia el formateo de los datos:

Figura 5

Tipo de los atributos antes de ser formateados

Nota. En esta figura se aprecia el tipo de dato de cada atributo antes de ser formateado. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Figura 6

Tipo de los atributos después de ser formateados

Nota. En esta figura se aprecia el tipo de dato de cada atributo después de ser formateado. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Cuarta fase: Modelado

Después de preparados los datos, se procede a escoger la técnica más apropiada. Antes de realizar el trabajo de modelado, es necesario determinar un método para evaluar el modelo y los parámetros que se utilicen para la evolución “dependen de las características de los datos y de las características de precisión que se quieran lograr con el modelo.” (Arancibia, 2009).

– Selección de técnica de modelado

Se opta por seleccionar la técnica de bosque aleatorio (Random forest), con esta técnica se busca clasificar los datos en varias submuestras del conjunto de datos, utilizar el promedio para mejorar la precisión predictiva y controlar el sobreajuste.

– Modelo

El siguiente paso consiste en realizar el entrenamiento y la evaluación del modelo, por ende, fue necesario dividir el conjunto de datos en 2 secciones: 70% y 30%, que corresponden a las dos tareas descritas anteriormente.

El sobreajuste es cuando el modelo no es capaz de procesar nuevos datos de manera correcta. Para determinar si existe o no sobreajuste en el modelo, se debe definir un conjunto de datos para entrenar el modelo, y evaluarlo para luego proceder a comparar el error de predicción entre los 3 subconjuntos de datos. Dependiendo del resultado, se define si existe o no sobreajuste en el modelo:

Modelo desarrollado: este modelo se desarrolla utilizando diferentes librerías de regulación. Se utilizan las tuberías (pipelines) para pasarle diferentes parámetros y conocer cómo impacta en la predicción del modelo. A continuación, puedes observar los parámetros establecidos para cada variable:

Figura 7

Gráfica de los parámetros establecidos

Nota. En esta figura se muestran los parámetros establecidos y el nombre de cada variable. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Figura 8

Gráfica de la predicción del modelo con la variable ridge y los datos de prueba

Nota. La figura muestra el modelo clásico, basándose en la variable ridge los datos de prueba. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Quinta fase: Evaluación

En esta fase se busca que se cuente con “el cumplimiento de los criterios de éxito del problema” (Arancibia, 2009) al momento de evaluar el modelo. Si se cometió algún error, debe repetirse el paso y para ello, es necesario revisar el proceso y tener en cuenta los resultados obtenidos.

Para la evaluación del modelo se implementan dos métricas de evaluación:

R2_score: su mejor puntuación es 1.0 y puede ser negativa. “Un modelo constante que siempre predice el valor esperado de Y, sin tener en cuenta las características de entrada (X), obtendría una puntuación de R^2 de 0.0” (learn, 2007-2021).
Mean_absolute_error: el error absoluto medio es la medida de la diferencia entre dos variables continuas (Wikipedia, 2021).

Figura 9

Resultados de la fase de evaluación

Nota. La figura muestra los resultados de las diferentes métricas. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

En base a las pruebas realizas, se opta por el parámetro “rf”, el cual tiene las mejores métricas de evaluación:

Figura 10

Parámetro con las mejores métricas

Nota. La figura muestra cómo está compuesto el parámetro con las mejores métricas. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Sexta fase: Implantación

En esta fase, ya con el modelo construido y validado, se procede a transformar el conocimiento obtenido en acciones dentro de un proceso. En este artículo pasaremos todo el modelo obtenido, al servicio cloud de IBM Watson, incorporando las tecnologías MERN.

– Despliegue a IBM Watson Machine Learning

Para realizar el despliegue se requiere instalar la dependencia de IBM Watson Machine Learning y configurar el espacio de trabajo.

Figura 11

Configuración del espacio de trabajo

Nota. La figura muestra la configuración que se debe realizar para conectarse a IBM Watson. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Después de configurar el entorno de trabajo, se procede a guardar y desplegar el modelo en IBM Watson.

Figura 12

Configurando los parámetros y guardando el modelo

Nota. La figura muestra la configuración de los parámetros y como guardar el modelo. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Figura 13

Despliegue de la aplicación a IBM WATSON

Nota. La figura muestra el despliegue del modelo. Fuente Elaboración propia a través de la información suministrada por el conjunto de datos en el software Jupyter Lab

Bibliografía

Arancibia, J. A. (2009). Metodología para la definición de Requisitos en Proyectos de Data Mining. Obtenido de UPM: https://oa.upm.es/1946/1/JOSE_ALBERTO_GALLARDO_ARANCIBIA.pdf

Cloud, I. (02 de 02 de 2022). IBM Cloud. Obtenido de IBM: https://cloud.ibm.com/catalog/services/machine-learning

learn, S. (2007-2021). Scikit Learn. Obtenido de sklearn.metrics.r2_score: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html

MERN Stack. (2020 de Julio de 4). Obtenido de ¿Qué es MERN Stack?: https://jmsolera.com/que-es-mern/

Valéncia, U. P. (2016 de 12 de 05). Técnicas para el análisis del sentimiento en Twitter: Aprendizaje Automático Supervisado y SentiStrength. Revista de Comunicación Digital, págs. 36-39. Obtenido de https://riunet.upv.es/bitstream/handle/10251/153230/Baviera%20-%20T%c3%a9cnicas%20para%20el%20an%c3%a1lisis%20del%20sentimiento%20en%20Twitter%3a%20Aprendizaje%20Autom%c3%a1tico%20Supervisad….pdf?sequence=1&isAllowed=y

Wikipedia. (17 de Enero de 2021). Wikipedia. Obtenido de https://es.wikipedia.org/wiki/Error_absoluto_medio