domingo, 5 de septiembre de 2010

El ESAD, realizó una encuesta a una muestra de 5117


Problema


El ESAD, realizó una encuesta a una muestra de 5117 alumnos inscritos en la segunda generación, la encuesta mide las edades y preferencias de carrera.
Por lo que se requiere hacer un  análisis estadístico de las preferencias de los alumnos por edad y carrera.

Análisis estadístico 1.- “Por grupos de edades”

La Tabla A, muestra los datos por intervalos de edad; donde se observa:
v      Cinco  intervalos que van desde 17 años, se observar que no existe un limite superior.
v      Los intervalos tienen una amplitud de 10 años.
v      El último intervalo tiene una amplitud indefinida (más de 10 años).

Un primer resultado muestra que la mayor cantidad de alumnos de la muestra corresponden a aquellos cuyas edades esta entre 27 y 36 años de edad con 2043.

Tabla A
No. Renglón
Intervalos de Edades
Frecuencia (fi)
Frecuencia absoluta (Fi)
Frecuencia recuencia relativa (hi)
Frecuencia relativa acumulada Hi
1
17-26
915
915
0.178815712
0.178815712
2
27-36
2043
2958
0.399257377
0.57807309
3
37-46
1562
4520
0.305256987
0.883330076
4
47-56
538
5058
0.10513973
0.988469807
5
57 – mas
59
5117
0.011530193
1
Total de datos (N)
5117




El siguiente histograma (Grafica A1) muestra la distribución en los intervalos de edades de los alumnos inscritos en el ESAD, donde la mayor frecuencia acumulada esta en los datos correspondientes a 27-36 años.

En esta Grafica A2 se muestra la frecuencia acumulada, que representa la cantidad de alumnos inscritos en el sistema ESAD, respecto a lo intervalos de edades.

En la Grafica A3, se muestra los intervalos de edades de alumnos inscritos a ESAD, de la misma se puede observar que el mayor numero de alumnos corresponden a los que esta ente 27 y 36 años con 2043 alumnos (39%), para el intervalo de 37 a 46 la frecuencia es de 1562 (31%), los alumnos de entre 27 a 46 años representan el 70% de la muestra quedando los alumnos de 57 o mas años con el 1%, los de 47-56 con 11% y los de 17-26 con 18% los que en suma serian el 30% de la muestra.


Nota Importante: los intervalos de la muestra que se presentan en la Tabla A, no es útil para hacer cálculos matemáticos, esta afirmación se debe a que no tenemos limite a los alumnos en los intervalo 57 o más.
Para efectos de realizar el ejercicio, tomaremos el intervalo (57-más) como 57 – 66.
Esto matemáticamente es incorrecto, debido a que limitamos la respuesta sin que esto se hiciera de origen, exista la posibilidad de que uno o más elementos de la muestra tengan mas de 66 años.


En este caso consideraremos intervalos de amplitud 10.
No. Renglon
Intervalos de Edades
Frecuencia (fi)
Frecuencia absoluta (Fi)
Frecuencia recuencia relativa (hi)
Frecuencia relativa acumulada Hi
Mc
Mcifi
1
17
26
915
915
0.178815712
0.178815712
21.5
19672.5
2
27
36
2043
2958
0.399257377
0.57807309
31.5
64354.5
3
37
46
1562
4520
0.305256987
0.883330076
41.5
64823
4
47
56
538
5058
0.10513973
0.988469807
51.5
27707
5
57
66
59
5117
0.011530193
1
61.5
3628.5









S
n
Mcfi
=
180186
i=1

Media Aritmética
=180186/5117
= 31.21

Mediana
Donde  N/2 = 5117
Tomando el intervalo 2 (27-36),
porque es en su frecuencia acumulada donde se encuentra 2558.5
Li= 27
Fi-1= 915
fi = 2043
a=10

Sustituyendo en la formula de la izquierda tenemos:

Me = 27 + [(2558.5 - 915)/2043] * 10
Me = 35.0445423
Donde:
Li, = 27.
fi = 2043
Fi-1, 915
Fi+1 = 1562
ai = 10
Sustituyendo en la formula de la izquierda tenemos:
Mo = 27 + (2043-915)/(2043-915)+ (2043-1562)*10
Mo = 34.0043505


Medidas de dispersión

Con la tabla A2, realizaremos las operaciones, para obtener las medidas de dispersión de la muestra
No. Renglon
Intervalos de Edades
Frecuencia (fi)
Mc
Mc*Fi
Mc-u
(Mc-u)2
(Mc-u)2*fi
1
17
26
915
21.5
19672.5
-13.71311315
188.0494723
172065.2672
2
27
36
2043
31.5
64354.5
-3.713113152
13.78720928
-2029.212791
3
37
46
1562
41.5
64823
6.286886848
39.52494624
-1522.475054
4
47
56
538
51.5
27707
16.28688685
265.2626832
-272.7373168
5
57
66
59
61.5
3628.5
26.28688685
691.0004201
632.0004201









Sfi(Mc-m)2*fi
168872.8424

Varianza
Donde:
Sfi(Mc-m)2*fi = 168872.8424
n = 5117
Sustituyendo:
S2 = 168872.8424/ 5117
S2 = 33.0023

Desviación típica o estándar
De la formula de la Varianza tenemos que
S2 =33.0023
Por lo que:
s= (33.0023)1/2
s =5.74476



Análisis de Resultados:


1.- Respecto a las edades el promedio de la edad en los alumnos inscritos al ESAD es de 31.21.
2.- La mediana, esto es el valor de la variable que deja el mismo número de datos antes y después corresponde a 35.04 años lo que significa que el 5% de los alumno tiene menos de esa edad y el otro 50 es mayor a 35.04.
3.- la moda, esto es la edad calculada con mayor representatividad esta en los alumnos con  34 años.
4.- Respecto al grado de separación o alejamiento que tiene una variable estadística con respecto a las tendencia central,  existe una varianza de 33 años mientras que la media es de 35 por lo que esta muy cerca del promedio, esto es: la muestra corresponde a grupos muy similares en edades, lo que se confirma con la desviación estandar.



Análisis estadístico 2.- “Por intervalos de carreras”

En la Tabla B, se agrupan los datos de la muestra agrupados por “carreras seleccionadas”,  en este caso en la línea 11, tenemos 8 datos “Sin Respuesta”, por lo que no se consideraran como parte de la muestra en tal caso nuestro numero de muestras N esta representado por 13 elementos
Tabla B

No. Renglón
Carrera
Frecuencia (fi)
Frecuencia absoluta (Fi)
Frecuencia recuencia relativa (hi)
Frecuencia relativa acumulada Hi
1
Administración de empresas turísticas
145
145
0.028336916
0.028336916
2
Biotecnología
374
519
0.073089701
0.101426617
3
Desarrollo comunitario
176
695
0.034395153
0.135821771
4
Desarrollo de software
1298
1993
0.253664256
0.389486027
5
Energías renovables
201
2194
0.039280829
0.428766856
6
Gestión y administración de PYME
514
2708
0.100449482
0.529216338
7
Logística y transporte
196
2904
0.038303694
0.567520031
8
Matemáticas
625
3529
0.12214188
0.689661911
9
Mercadotecnia internacional
293
3822
0.057260113
0.746922025
10
Seguridad pública
540
4362
0.105530584
0.852452609
11
SIN RESPUESTA
8
4370
0.001563416
0.854016025
12
Técnico Superior Universitario Paramédico
106
4476
0.020715263
0.874731288
13
Tecnología ambiental
158
4634
0.030877467
0.905608755
14
Telemática
483
5117
0.094391245
1






Total de datos (N)
14




Se observa que se tiene 13 grupos más aquel que mide los “SIN RESPUESTA”, donde la mayor frecuencia se registra en la carrera de “Desarrollo de software” mientras que para la carrera de “Técnico Superior Universitario Paramédico”, solo 106 estudiantes, seleccionaron esta carrera.

La representación grafica de estos resultados se presenta a continuación:

La grafica B1 describa el comportamiento de los datos de la variable Edad del encuestado. El eje horizontal representa las carreras seleccionadas y el en vertical esta representadas las frecuencias de respuesta de los alumnos.

La grafica B2 nos muestra la frecuencia acumulada de la preferencia de carreras de alumnos inscritos a ESAD.

La grafica B3, muestra el porcentaje en la predilección de carreras de los alumnos del ESAD, note que solo 3 carreras tiene casi el 50% de la demanda, en este caso corresponden a “desarrollo de software”, administración de PYMES” y matemáticas



De lo expuesto anteriormente, la Tabla B, quedaría de la siguiente manera, considere que la variable Xi siempre será 1, por tratarse de una elección de las 13 que existen en la muestra.

No. Renglon
Carrera seleccionada
Frecuencia (fi)
Frecuencia absoluta (Fi)
Frecuencia recuencia relativa (hi)
Frecuencia relativa acumulada Hi
1
Administración de empresas turísticas
145
145
0.028336916
0.028336916
2
Biotecnología
374
519
0.073089701
0.101426617
3
Desarrollo comunitario
176
695
0.034395153
0.135821771
4
Desarrollo de software
1298
1993
0.253664256
0.389486027
5
Energías renovables
201
2194
0.039280829
0.428766856
6
Gestión y administración de PYME
514
2708
0.100449482
0.529216338
7
Logística y transporte
196
2904
0.038303694
0.567520031
8
Matemáticas
625
3529
0.12214188
0.689661911
9
Mercadotecnia internacional
293
3822
0.057260113
0.746922025
10
Seguridad pública
540
4362
0.105530584
0.852452609
11
Técnico Superior Universitario Paramédico
106
4468
0.020715263
0.873167872
12
Tecnología ambiental
158
4626
0.030877467
0.904045339
13
Telemática
483
5109
0.094391245
0.998436584

 Por lo tanto n = 13


Cálculos estadísticos.

Media Aritmética
=5109/13
= 393

Para este caso la Mediana esta en el valor del centro, esto una vez que se ordene ascendentemente las frecuencias

Mediana esta en el 7 dato que corresponde a 1275 alumnos, como se muestra en la siguiente tabla.
No
fi
FI
1
106
106
2
145
251
3
158
409
4
176
585
5
196
781
6
201
982
7
293
1275
8
374
1649
9
483
2132
10
514
2646
11
540
3186
12
625
3811
13
1298
5109
En el caso de esta muestra la moda corresponde a la carrera de “Desarrollo de software” con 1298 alumnos inscritos en esta opción.


Medidas de dispersión

Con la tabla B2, realizaremos las operaciones, para obtener las medidas de dispersión de la muestra
No. Renglon
carrera seleccionada
Xi
Xi-X
(Xi-X)2
1
Administración de empresas turísticas
145
-248
61504
2
Biotecnología
374
-19
361
3
Desarrollo comunitario
176
-217
47089
4
Desarrollo de software
1298
905
819025
5
Energías renovables
201
-192
36864
6
Gestión y administración de PYME
514
121
14641
7
Logística y transporte
196
-197
38809
8
Matemáticas
625
232
53824
9
Mercadotecnia internacional
293
-100
10000
10
Seguridad pública
540
147
21609
12
Técnico Superior Universitario Paramédico
106
-287
82369
13
Tecnología ambiental
158
-235
55225
14
Telemática
483
90
8100





S fi(xi-x)2 =

244.55275



Recorrido
Donde:
Máx xi = 1290
Min xi = 106
Sustituyendo:
Re = 1290 - 106
Re = 1184
Varianza
Donde:
Sfi(xi-x)2 =244.55275
n = 13
Sustituyendo:
s2 = 244.55275/ 13
s2 = 18.81175

Desviación típica o estándar
De la formula de la Varianza tenemos que
Por lo que:
s= (18.81175)1/2
s = 4.33725143



Análisis de Resultados:

De los resultados se puede decir que:

1.- El promedio alumnos inscritos al ESAD en 13 carreras e de 393 alumnos.
2.- La mediana, esta en 7 que corresponde a el 50 % de carrers con mas demanda y el 50% de menor demanda.
3.- a moda, esto es la edad calculada con mayor representatividad esta en los alumnos con  34 años.
Respecto a la moda la carrera mas demandada por los alumnos de ESAD es la de “Desarrollo de software”, con 1298 Alumnos inscritos
4. Respecto a las dispersión de datos,  se nota una amplia dispersión de los datos esto se debe a que existen carreras con mayor demanda que otras en este casa la comparación entre la varianza que es de18.81175 vs la media es de 393 por lo que la dispersión de datos es significativo.  


Otro Análisis

En este analisis agrego una tabla donde se consideran 2 variables edad y Carrera.
Esta tabla permite mayores posibilidades de análisis estadistico, lo que implica inferir en diferentes direcciones respecto a la encuesta realizada en el ESAD.
Se incluyen cálculos de medidas de tendencias central además de una grafica en la que se presenta el comportamiento de la elección de carrereas según la edad.

CARRERAS
total de alumnos por carrera
17-26
27-36
37-46
47-56
57 o más
MEDIA
MEDIANA
Administración de empresas turísticas
145
49
54
33
8
1
29
33
Biotecnología
374
107
143
84
34
6
74.8
84
Desarrollo comunitario
176
16
50
59
45
6
35.2
45
Desarrollo de software
1298
239
556
370
125
8
259.6
239
Energías renovables
201
29
66
73
26
7
40.2
29
Gestión y administración de PYME
514
65
210
179
55
5
102.8
65
Logística y transporte
196
30
81
71
13
1
39.2
30
Matemáticas
625
128
214
172
93
18
125
128
Mercadotecnia internacional
293
63
131
82
17

73.25
72.5
Seguridad pública
540
83
224
183
48
2
108
83
Técnico Superior Universitario Paramédico
106
12
53
32
9

26.5
22
Tecnología ambiental
158
23
53
54
24
4
31.6
24
Telemática
483
70
206
165
41
1
96.6
70










MEDIA
70.31
157
119.77
41.38
5.36



MEDIANA
63
131
82
34
5



Por ejemplo, las personas de entre 27-36 años tiene mayor frecuencia de respuesta en la carrera de Desarrollo de Software, uno podría esperar que los mas jóvenes se inclinas hacia estas carreras, pero la tabla global nos indica otra cosa.
El ejemplo anterior, nos indica que este tratamiento de información proporciona ventajas para el análisis de la información, este manejo de información, permite que en una sola tabla se muestren los principales resultados.
Otro ejemplo es la siguiente grafica donde a primera vista observa el comportamiento de las predilecciones de carreras según la EDAD, correspondería a un análisis más profundo combinarlo con las cualidades, de nuestra población.


Finalmente este histograma muestra como se comporto las muestras según la carrera seleccionada y la edad.