ANALISIS DE CLIENTES

Clustering

INTRODUCCION

Se quiere estudiar un conjunto de clientes de un comercio para ver si es posible identificar grupos de clientes similares. Por lo tanto, para este trabajo se utilizarán técnicas de clustering.

DATASET

Mall Customers Dataset

Se trabajara con un dataset (Mall Customers | Kaggle) que contiene información de 200 clientes, y 5 variables:


CustomerID    El id asignado al cliente. Esta variable va del 1 al 200 y carece de interés para este trabajo, por lo cual será descartada.
GenderEl sexo del cliente, es categorico: “Male” (88) y “Female” (112).
AgeLa edad del cliente, cuyo rango es de 18 a 70, con un promedio de 39.
Annual Income Los ingresos anuales del cliente, expresados en miles de dólares. El valor mínimo es 15, el máximo 137, y el promedio 61.
Spending ScoreUna puntuación asignada al cliente basado en su comportamiento de compras y gastos. El mínimo es 1, el máximo 99, y el promedio 50.


El dataset no cuenta con datos faltantes, y se encuentra balanceado.

ANALISIS

ANALISIS DE LOS DATOS

Se estudia la relación entre las variables Age, Annual Income, y Spending Score. De la gráfica Age vs Spending Score pareciera ser que las personas de 40 años suelen gastar más que los mayores. De la comparación de Annual Income vs Spending Score se observan ciertos amontonamientos de observaciones, a simple vista parecieran haber 5 grupos: para aquellos con ingresos bajos y con ingresos altos, hay un grupo que gasta poco (Spending Score menor a 40), y otro que gasta mucho (Spending Score mayor a 60), y para aquellos con ingresos medios (Annual Income = 50) hay un solo grupo, cerca de Spending Score = 50.





Se estudia la matriz de correlación, y no se identifican variables extremadamente correlacionadas, por lo que ninguna será eliminada.



MODELO

KMEANS

Para la generación de clusters, se utilizará el método de K-Means.
Continuando con el análisis previo, se generan los clusters usando RapidMiner con K-Means parametrizado para utilizar SquaredEclideanDistance, BregmanDivergences, y k = 5.

Al graficar los clusters obtenidos, podemos observar que coinciden con nuestras intuiciones previas.