Fichas - Detector automático de interacciones

Detector automático de interacciones

Enunciado:

En un estudio sobre un determinado buscador de Internet, se realizó una encuesta electrónica entre los clientes del servicio que da este buscador para que diesen su valoración sobre la utilidad que percibían con su uso. La encuesta fue contestada por 200 usuarios de este buscador.

A estos usuarios, aparte de pedirles que lo valorasen de 1 a 10, de menos a más valorado, se les pedía que dijeran en qué segmento de edad se encontraban (de 18 a 30 años, de 31 a 45, más de 45) y el lugar desde donde se conectaban habitualmente a Internet (desde el trabajo o desde casa).

Para poder trabajar con los resultados de la encuesta, se realizó la codificación siguiente:

Edad

Código

De 18 a 30

1

De 31 a 45

2

Más de 45

3

Lugar conexión

Código

Trabajo

1

Casa

2

A partir de los resultados de la encuesta, se pide que hagáis una detección automática de interacciones para configurar grupos homogéneos (diferentes entre ellos) que tengan una valoración parecida sobre el buscador objeto de estudio.

Solución:

En primer lugar, ejecutad el programa Minitab con los datos del caso práctico.

Primero nos planteamos las cuatro dicotomías siguientes:

D1: De 18 a 30 – Más de 30
D2: De 31 a 45 – De 18 a 30 y Más de 45
D3: Más de 45 – Menos de 45
D4: Trabajo - Casa

Para recoger estas dicotomías con Minitab, crearemos tres nuevas variables, D1, D2 y D3, de forma que, por ejemplo, el valor de la variable D1 vale 1 para un encuestado que tiene de 18 a 30 años y vale 0 si tiene más de 30 años. Para crear estas variables, hacemos lo siguiente:

Calc/Make Indicator Variables

Y a continuación introducimos la columna "Grupo de edad" en la ventana Indicator variables, y después los nombres de las columnas en las que queremos almacenar los 1 y 0 de las variables D1, D2 y D3.

Para la variable D4 no es necesario realizar ninguna transformación, porque ésta ya es dicotómica.

Acto seguido procedemos a realizar cuatro análisis de la varianza utilizando como variable respuesta la valoración de los usuarios y como factores (variable explicativa) D1, D2, D3 y D4, respectivamente.

Para realizarlos, tenemos que hacer:

Stat/ANOVA/One-way

En la pantalla que aparecerá hay que poner la variable sobre la que se ha preguntado (en este caso, sobre la valoración del buscador) en el recuadro Response, y la columna correspondiente al factor en el recuadro Factor.

Al hacer OK, obtendremos la siguiente salida de Minitab:

One-way Analysis of Variance

Analysis of Variance for Valoraci

Source   DF       SS       MS      F      P
D1        1    179,70  179,70  24,12  0,000
Error   198   1475,09    7,45
Total   199   1654,80

                           Individual 95% CIs For Mean
                           Based on Pooled StDev
Level    N    Mean   StDev --+---------+---------+---------+----
0      124   4,363   2,786  (----*---) 
1       76   6,316   2,634                      (-----*-----) 
                           --+---------+---------+---------+----
Pooled StDev =    2,729    4,0       5,0       6,0       7,0

Los resultados que debemos considerar de esta salida son, en primer lugar, el valor del estadístico F, que es un indicador de la diferencia que hay, en este caso, entre los grupos "De 18 a 30" y "Más de 30 años". En segundo lugar, deberemos considerar la valoración media de cada uno de los dos grupos, lo que nos ayudará a conocer el comportamiento de cada uno de los segmentos en los que quedará dividido el mercado.

En la tabla siguiente se recogen los principales resultados de los cuatro ANOVA:

Dicotomías

F

Grupos

N

Valoración media

D1

24,12

De 18 a 30
Más de 30

76
124

6,32
4,36

D2

0,24

De 31 a 45
De 18 a 30 y Más de 45

59
141

4,95
5,17

D3

20,66

Más de 45
Menos de 45

65
135

3,83
5,72

D4

2,72

Trabajo
Casa

100
100

4,77
5,44

De estos resultados, lo que primero se observa es que el valor mayor del estadístico F se obtiene cuando se comparan las valoraciones que hacen los grupos "De 18 a 30" y "Más de 30". Por tanto, ya podemos decidir la primera segmentación:

Ahora, dentro de cada uno de los dos segmentos que nos han aparecido, debemos continuar distinguiendo entre grupos.

Primer segmento: De 18 a 30

Por lo que respecta al primer segmento, debemos pasar a utilizar la segunda variable explicativa, la conexión. En primer lugar, para trabajar con este segmento, deberemos extraer de toda la encuesta los resultados correspondientes sólo a encuestados que están en este grupo.

Para hacerlo, debemos proceder de la manera siguiente:

Manip/Subset Worksheet

En la ventana que se abrirá se deben marcar las opciones Specify wich rows to include y Rows that match. Y en este segundo caso debemos introducir la condición, Condition..., que nos permitirá trabajar con los resultados que queremos. En nuestro caso, dado que nos centramos en el segmento de usuarios de edades entre 18 y 30 años, es suficiente poner la condición de que la variable D1 valga 1, ya que éste es el valor que toma esta variable cuando un encuestado se sitúa en esta franja de edad.

Por otro lado, en el recuadro Name podemos poner el nombre que le queramos dar al conjunto de datos. En este caso hemos puesto "De 18 a 30".

Ahora, trabajando con sólo los datos del segmento considerado, realizamos un ANOVA con la variable "Valoración" y el factor "Conexión", directamente. El resultado es el siguiente (recordad que el código 1 indicaba conexión desde el trabajo y que el código 2 indicava conexión desde casa):

One-way Analysis of Variance

Analysis of Variance for Valoraci

Source     DF     SS     MS     F     P
Conexión    1    4,06  4,06  0,58  0,448
Error      74  516,36  6,98
Total      75  520,42
                        Individual 95% CIs For Mean
                        Based on Pooled StDev
Level  N   Mean  StDev  -----+---------+---------+---------+-
1     34  6,059  2,674   (--------------*--------------) 
2     42  6,524  2,616           (-------------*------------) 
                        -----+---------+---------+---------+-
Pooled StDev =    2,642    5,40      6,00      6,60      7,20

Puesto que la variable "Conexión" ya era dicotómica, en este punto del estudio no podremos decidir entre posibles segmentaciones (como hemos hecho antes eligiendo aquella que tenía la F mayor).

Por lo que respecta a este segmento del mercado, ya habremos acabado. Ahora hay que seguir con el otro, el de usuarios mayores de 30 años.

Segundo segmento: Más de 30

En lo concerniente a este segundo segmento, debemos pasar a utilizar la segunda variable (como en el caso anterior), pero además debemos tener en cuenta que dentro de este segmento se encuentran, por un lado, los que tienen entre 31 y 45 años y, por otro, los que tienen más de 45 años.

Para trabajar con este segmento, deberemos extraer de toda la encuesta los resultados correspondientes sólo a encuestados que están en este grupo de más de 30 años. Para hacerlo, debemos proceder como en el caso anterior:

Manip/Subset Worksheet

Pero ahora poniendo la condición de que D1 sea igual a 0.

Para este segmento sí que se plantean diferentes dicotomías:

E1: De 31 a 45 – Más de 45
E2: Conexión desde el trabajo – Conexión desde casa

De la misma manera que hemos hecho en la primera segmentación, en este caso deberemos hacer dos ANOVA, uno para E1 y otro para E2 y elegir la segmentación según el mayor valor del estadístico F.

Para la primera dicotomía utilizaremos el factor D2. Dado que estamos trabajando con usuarios de más de 30 años, un valor 1 de esta variable nos indica un encuestado que se encuentra en la franja de edad de 31 a 45 años. Por otro lado, un valor 0 nos indicará que el usuario tiene más de 45 años.

Para la segunda dicotomía, igual que hemos hecho en el caso anterior, utilizaremos el factor "Conexión" directamente.

Los resultados obtenidos son los siguientes:

Dicotomías

F

Grupos

N

Valoración media

E1

5,15

De 31 a 45
Más de 45

59
65

4,95
3,83

E2

1,20

Trabajo
Casa

66
58

4,11
4,66

Por tanto, puesto que el valor más elevado lo hemos obtenido por la dicotomía E1, la segmentación continuará por las edades y no por el lugar desde donde se conectan.

Finalmente, para acabar la segmentación, deberíamos continuar por las dos últimas cajas, centrándonos en el segmento de 31 a 45 años y en el de más de 45 años. Procederíamos de la misma manera que lo hemos hecho con el segmento de 18 a 35 años: utilizando la variable dicotómica "Conexión". El diagrama final sería el siguiente:

Conclusiones

Como hemos podido ver, usando el detector de interacciones, hemos podido realizar una segmentación del mercado agrupando elementos parecidos (es decir, usuarios con características parecidas), de forma que entre ellos, entre los grupos, haya el mayor número posible de diferencias.

Así, mientras el colectivo de usuarios comprendidos en la franja de los 18 a los 30 años es el que mejor valora el buscador, con una puntuación media de 6,32, de éstos, los que hacen una valoración más alta, con un 6,52, son quienes se suelen conectan desde casa (el 21% del total).

Por otro lado, si seguimos la otra rama del árbol, llegaremos a encontrar al grupo de usuarios que menos lo valoran. Concretamente, se trata de quienes tienen más de 45 años y se conectan habitualmente desde el trabajo, que son un 17,5% del total. Éstos valoran el buscador sólo con un 3,69.