SEGURO MEDICO

Linear Regression

INTRODUCCION

Se busca construir un modelo de regresión para estimar el costo de un seguro médico para una persona.

DATASET

Medical Cost Personal Dataset

Para este trabajo se cuenta con un dataset (Linear Regression Tutorial | Kaggle), el cual cuenta con 1338 filas representando personas aseguradas, e información acerca de su edad, su sexo, su IMC (índice de masa corporal), la cantidad de hijos que posee, la región donde vive, si es fumador o no, y el costo del seguro médico para esta persona. Para esta investigación se trabajará con los datos relacionados al IMC, el costo del seguro médico, su edad, el IMC, si es fumador, y la cantidad de hijos. No hay datos faltantes para ninguna de las variables, las cuales se describen a continuación:


MinMaxAvg
Costo - Númerico1121.8763770.42813270.422
Edad - Númerico186439
IMC - Númerico15.96053.13030.663
Hijos - Númerico051
Fumador - BinomialSi: 1064No: 274


A continuación analizamos la correlación existente entre las distintas variables, y las mismas no se presentan correlacionadas entre sí. Sin embargo se observa que, a priori, el costo del seguro médico se ve influenciado principalmente por si la persona es fumadora, luego por la edad del sujeto, en menor medida por el IMC del mismo, y (aparentemente) muy poco por la cantidad de hijos que posee.




Se grafica la relación entre el costo y la edad, y se observa una aparente relación que indica que el costo pareciera aumentar para personas mayores.




Se realiza un diagrama de cajas para analizar la relación del costo con el hecho de ser fumador, y se observa que el hecho de ser fumador efectivamente se asocia a costos más elevados.


MODELO

REGRESION LINEAL MULTIPLE

Se realizará un modelo de regresión lineal múltiple para este trabajo.
Este método se basa en cálculos matemáticos para determinar el valor de una salida (Y) a partir de un conjunto de variables llamadas predictores (x1, x2, x3).


Se separa el dataset en dos conjuntos de entrenamiento y validación, con una proporción del conjunto inicial de 70% y 30% respectivamente.


Para trabajar con la regresión lineal, debemos convertir la variable categórica Fumador a numérica. Para ello, se utiliza la técnica “Label encoding”, donde se asigna un número (1 o 0) a cada posible valor (fumador/no fumador).


Finalmente, se crea el modelo de regresión lineal múltiple utilizando el conjunto de entrenamiento en RapidMiner, se predice sobre el conjunto de validación, y se utiliza la métrica error cuadrático (ó raíz de la desviación cuadrática media) para evaluar el modelo por ser una métrica cuya unidad es comparable con la unidad original (dólares). El valor resultante para esta medida fue $6264, siento este monto una buena referencia de que tanto puede diferir del valor real (aproximadamente, ya que la diferencia con el valor real puede ser mayor).