Problema
El ESAD, realizó una encuesta a una muestra de 5117 alumnos inscritos en la segunda generación, la encuesta mide las edades y preferencias de carrera.
Por lo que se requiere hacer un análisis estadístico de las preferencias de los alumnos por edad y carrera.
Análisis estadístico 1.- “Por grupos de edades”
v Cinco intervalos que van desde 17 años, se observar que no existe un limite superior.
v Los intervalos tienen una amplitud de 10 años.
v El último intervalo tiene una amplitud indefinida (más de 10 años).
Un primer resultado muestra que la mayor cantidad de alumnos de la muestra corresponden a aquellos cuyas edades esta entre 27 y 36 años de edad con 2043.
Tabla A
No. Renglón | Intervalos de Edades | Frecuencia (fi) | Frecuencia absoluta (Fi) | Frecuencia recuencia relativa (hi) | Frecuencia relativa acumulada Hi |
1 | 17-26 | 915 | 915 | 0.178815712 | 0.178815712 |
2 | 27-36 | 2043 | 2958 | 0.399257377 | 0.57807309 |
3 | 37-46 | 1562 | 4520 | 0.305256987 | 0.883330076 |
4 | 47-56 | 538 | 5058 | 0.10513973 | 0.988469807 |
5 | 57 – mas | 59 | 5117 | 0.011530193 | 1 |
Total de datos (N) | 5117 |
El siguiente histograma (Grafica A1) muestra la distribución en los intervalos de edades de los alumnos inscritos en el ESAD, donde la mayor frecuencia acumulada esta en los datos correspondientes a 27-36 años.
En esta Grafica A2 se muestra la frecuencia acumulada, que representa la cantidad de alumnos inscritos en el sistema ESAD, respecto a lo intervalos de edades.
En la Grafica A 3, se muestra los intervalos de edades de alumnos inscritos a ESAD, de la misma se puede observar que el mayor numero de alumnos corresponden a los que esta ente 27 y 36 años con 2043 alumnos (39%), para el intervalo de 37 a 46 la frecuencia es de 1562 (31%), los alumnos de entre 27 a 46 años representan el 70% de la muestra quedando los alumnos de 57 o mas años con el 1%, los de 47-56 con 11% y los de 17-26 con 18% los que en suma serian el 30% de la muestra.
Nota Importante: los intervalos de la muestra que se presentan en la Tabla A , no es útil para hacer cálculos matemáticos, esta afirmación se debe a que no tenemos limite a los alumnos en los intervalo 57 o más.
Para efectos de realizar el ejercicio, tomaremos el intervalo (57-más) como 57 – 66.
Esto matemáticamente es incorrecto, debido a que limitamos la respuesta sin que esto se hiciera de origen, exista la posibilidad de que uno o más elementos de la muestra tengan mas de 66 años.
En este caso consideraremos intervalos de amplitud 10.
No. Renglon | Intervalos de Edades | Frecuencia (fi) | Frecuencia absoluta (Fi) | Frecuencia recuencia relativa (hi) | Frecuencia relativa acumulada Hi | Mc | Mcifi | ||
1 | 17 | 26 | 915 | 915 | 0.178815712 | 0.178815712 | 21.5 | 19672.5 | |
2 | 27 | 36 | 2043 | 2958 | 0.399257377 | 0.57807309 | 31.5 | 64354.5 | |
3 | 37 | 46 | 1562 | 4520 | 0.305256987 | 0.883330076 | 41.5 | 64823 | |
4 | 47 | 56 | 538 | 5058 | 0.10513973 | 0.988469807 | 51.5 | 27707 | |
5 | 57 | 66 | 59 | 5117 | 0.011530193 | 1 | 61.5 | 3628.5 | |
S | n | Mcfi | = | 180186 | |
i=1 |
Media Aritmética =180186/5117 = 31.21 |
Mediana Donde N/2 = 5117 Tomando el intervalo 2 (27-36), porque es en su frecuencia acumulada donde se encuentra 2558.5 Li= 27 Fi-1= 915 fi = 2043 a=10 Sustituyendo en la formula de la izquierda tenemos: Me = 27 + [(2558.5 - 915)/2043] * 10 Me = 35.0445423 | |
Donde: Li, = 27. fi = 2043 Fi-1, 915 Fi+1 = 1562 ai = 10 Sustituyendo en la formula de la izquierda tenemos: Mo = 27 + (2043-915)/(2043-915)+ (2043-1562)*10 Mo = 34.0043505 |
Medidas de dispersión
Con la tabla A2, realizaremos las operaciones, para obtener las medidas de dispersión de la muestra
No. Renglon | Intervalos de Edades | Frecuencia (fi) | Mc | Mc*Fi | Mc-u | (Mc-u)2 | (Mc-u)2*fi | |
1 | 17 | 26 | 915 | 21.5 | 19672.5 | -13.71311315 | 188.0494723 | 172065.2672 |
2 | 27 | 36 | 2043 | 31.5 | 64354.5 | -3.713113152 | 13.78720928 | -2029.212791 |
3 | 37 | 46 | 1562 | 41.5 | 64823 | 6.286886848 | 39.52494624 | -1522.475054 |
4 | 47 | 56 | 538 | 51.5 | 27707 | 16.28688685 | 265.2626832 | -272.7373168 |
5 | 57 | 66 | 59 | 61.5 | 3628.5 | 26.28688685 | 691.0004201 | 632.0004201 |
Sfi(Mc-m)2*fi | 168872.8424 |
Varianza | Donde: Sfi(Mc-m)2*fi = 168872.8424 n = 5117 | Sustituyendo: S2 = 168872.8424/ 5117 S2 = 33.0023 |
Desviación típica o estándar | De la formula de S2 =33.0023 | Por lo que: s= (33.0023)1/2 s =5.74476 |
Análisis de Resultados:
1.- Respecto a las edades el promedio de la edad en los alumnos inscritos al ESAD es de 31.21.
2.- La mediana, esto es el valor de la variable que deja el mismo número de datos antes y después corresponde a 35.04 años lo que significa que el 5% de los alumno tiene menos de esa edad y el otro 50 es mayor a 35.04.
3.- la moda, esto es la edad calculada con mayor representatividad esta en los alumnos con 34 años.
4.- Respecto al grado de separación o alejamiento que tiene una variable estadística con respecto a las tendencia central, existe una varianza de 33 años mientras que la media es de 35 por lo que esta muy cerca del promedio, esto es: la muestra corresponde a grupos muy similares en edades, lo que se confirma con la desviación estandar.
Análisis estadístico 2.- “Por intervalos de carreras”
En la Tabla B , se agrupan los datos de la muestra agrupados por “carreras seleccionadas”, en este caso en la línea 11, tenemos 8 datos “Sin Respuesta”, por lo que no se consideraran como parte de la muestra en tal caso nuestro numero de muestras N esta representado por 13 elementos
Tabla B
No. Renglón | Carrera | Frecuencia (fi) | Frecuencia absoluta (Fi) | Frecuencia recuencia relativa (hi) | Frecuencia relativa acumulada Hi |
1 | Administración de empresas turísticas | 145 | 145 | 0.028336916 | 0.028336916 |
2 | Biotecnología | 374 | 519 | 0.073089701 | 0.101426617 |
3 | Desarrollo comunitario | 176 | 695 | 0.034395153 | 0.135821771 |
4 | Desarrollo de software | 1298 | 1993 | 0.253664256 | 0.389486027 |
5 | Energías renovables | 201 | 2194 | 0.039280829 | 0.428766856 |
6 | Gestión y administración de PYME | 514 | 2708 | 0.100449482 | 0.529216338 |
7 | Logística y transporte | 196 | 2904 | 0.038303694 | 0.567520031 |
8 | Matemáticas | 625 | 3529 | 0.12214188 | 0.689661911 |
9 | Mercadotecnia internacional | 293 | 3822 | 0.057260113 | 0.746922025 |
10 | Seguridad pública | 540 | 4362 | 0.105530584 | 0.852452609 |
11 | SIN RESPUESTA | 8 | 4370 | 0.001563416 | 0.854016025 |
12 | Técnico Superior Universitario Paramédico | 106 | 4476 | 0.020715263 | 0.874731288 |
13 | Tecnología ambiental | 158 | 4634 | 0.030877467 | 0.905608755 |
14 | Telemática | 483 | 5117 | 0.094391245 | 1 |
Total de datos (N) | 14 |
Se observa que se tiene 13 grupos más aquel que mide los “SIN RESPUESTA”, donde la mayor frecuencia se registra en la carrera de “Desarrollo de software” mientras que para la carrera de “Técnico Superior Universitario Paramédico”, solo 106 estudiantes, seleccionaron esta carrera.
La representación grafica de estos resultados se presenta a continuación:
La grafica B2 nos muestra la frecuencia acumulada de la preferencia de carreras de alumnos inscritos a ESAD.
La grafica B3, muestra el porcentaje en la predilección de carreras de los alumnos del ESAD, note que solo 3 carreras tiene casi el 50% de la demanda, en este caso corresponden a “desarrollo de software”, administración de PYMES” y matemáticas
De lo expuesto anteriormente, la Tabla B , quedaría de la siguiente manera, considere que la variable Xi siempre será 1, por tratarse de una elección de las 13 que existen en la muestra.
No. Renglon | Carrera seleccionada | Frecuencia (fi) | Frecuencia absoluta (Fi) | Frecuencia recuencia relativa (hi) | Frecuencia relativa acumulada Hi |
1 | Administración de empresas turísticas | 145 | 145 | 0.028336916 | 0.028336916 |
2 | Biotecnología | 374 | 519 | 0.073089701 | 0.101426617 |
3 | Desarrollo comunitario | 176 | 695 | 0.034395153 | 0.135821771 |
4 | Desarrollo de software | 1298 | 1993 | 0.253664256 | 0.389486027 |
5 | Energías renovables | 201 | 2194 | 0.039280829 | 0.428766856 |
6 | Gestión y administración de PYME | 514 | 2708 | 0.100449482 | 0.529216338 |
7 | Logística y transporte | 196 | 2904 | 0.038303694 | 0.567520031 |
8 | Matemáticas | 625 | 3529 | 0.12214188 | 0.689661911 |
9 | Mercadotecnia internacional | 293 | 3822 | 0.057260113 | 0.746922025 |
10 | Seguridad pública | 540 | 4362 | 0.105530584 | 0.852452609 |
11 | Técnico Superior Universitario Paramédico | 106 | 4468 | 0.020715263 | 0.873167872 |
12 | Tecnología ambiental | 158 | 4626 | 0.030877467 | 0.904045339 |
13 | Telemática | 483 | 5109 | 0.094391245 | 0.998436584 |
Por lo tanto n = 13
Cálculos estadísticos.
Media Aritmética =5109/13 = 393 | |||||||||||||||||||||||||||||||||||||||||||||
Para este caso | Mediana esta en el 7 dato que corresponde a 1275 alumnos, como se muestra en la siguiente tabla.
| ||||||||||||||||||||||||||||||||||||||||||||
En el caso de esta muestra la moda corresponde a la carrera de “Desarrollo de software” con 1298 alumnos inscritos en esta opción. | |||||||||||||||||||||||||||||||||||||||||||||
Medidas de dispersión
Con la tabla B2, realizaremos las operaciones, para obtener las medidas de dispersión de la muestra
No. Renglon | carrera seleccionada | Xi | Xi-X | (Xi-X)2 |
1 | Administración de empresas turísticas | 145 | -248 | 61504 |
2 | Biotecnología | 374 | -19 | 361 |
3 | Desarrollo comunitario | 176 | -217 | 47089 |
4 | Desarrollo de software | 1298 | 905 | 819025 |
5 | Energías renovables | 201 | -192 | 36864 |
6 | Gestión y administración de PYME | 514 | 121 | 14641 |
7 | Logística y transporte | 196 | -197 | 38809 |
8 | Matemáticas | 625 | 232 | 53824 |
9 | Mercadotecnia internacional | 293 | -100 | 10000 |
10 | Seguridad pública | 540 | 147 | 21609 |
12 | Técnico Superior Universitario Paramédico | 106 | -287 | 82369 |
13 | Tecnología ambiental | 158 | -235 | 55225 |
14 | Telemática | 483 | 90 | 8100 |
S fi(xi-x)2 = | 244.55275 |
Recorrido | Donde: Máx xi = 1290 Min xi = 106 | Sustituyendo: Re = 1290 - 106 Re = 1184 |
Varianza | Donde: Sfi(xi-x)2 =244.55275 n = 13 | Sustituyendo: s2 = 244.55275/ 13 s2 = 18.81175 |
Desviación típica o estándar | De la formula de | Por lo que: s= (18.81175)1/2 s = 4.33725143 |
Análisis de Resultados:
De los resultados se puede decir que:
1.- El promedio alumnos inscritos al ESAD en 13 carreras e de 393 alumnos.
2.- La mediana, esta en 7 que corresponde a el 50 % de carrers con mas demanda y el 50% de menor demanda.
3.- a moda, esto es la edad calculada con mayor representatividad esta en los alumnos con 34 años.
Respecto a la moda la carrera mas demandada por los alumnos de ESAD es la de “Desarrollo de software”, con 1298 Alumnos inscritos
4. Respecto a las dispersión de datos, se nota una amplia dispersión de los datos esto se debe a que existen carreras con mayor demanda que otras en este casa la comparación entre la varianza que es de18.81175 vs la media es de 393 por lo que la dispersión de datos es significativo.
Otro Análisis
En este analisis agrego una tabla donde se consideran 2 variables edad y Carrera.
Esta tabla permite mayores posibilidades de análisis estadistico, lo que implica inferir en diferentes direcciones respecto a la encuesta realizada en el ESAD.
Se incluyen cálculos de medidas de tendencias central además de una grafica en la que se presenta el comportamiento de la elección de carrereas según la edad.
CARRERAS | total de alumnos por carrera | 17-26 | 27-36 | 37-46 | 47-56 | 57 o más | MEDIA | MEDIANA |
Administración de empresas turísticas | 145 | 49 | 54 | 33 | 8 | 1 | 29 | 33 |
Biotecnología | 374 | 107 | 143 | 84 | 34 | 6 | 74.8 | 84 |
Desarrollo comunitario | 176 | 16 | 50 | 59 | 45 | 6 | 35.2 | 45 |
Desarrollo de software | 1298 | 239 | 556 | 370 | 125 | 8 | 259.6 | 239 |
Energías renovables | 201 | 29 | 66 | 73 | 26 | 7 | 40.2 | 29 |
Gestión y administración de PYME | 514 | 65 | 210 | 179 | 55 | 5 | 102.8 | 65 |
Logística y transporte | 196 | 30 | 81 | 71 | 13 | 1 | 39.2 | 30 |
Matemáticas | 625 | 128 | 214 | 172 | 93 | 18 | 125 | 128 |
Mercadotecnia internacional | 293 | 63 | 131 | 82 | 17 | 73.25 | 72.5 | |
Seguridad pública | 540 | 83 | 224 | 183 | 48 | 2 | 108 | 83 |
Técnico Superior Universitario Paramédico | 106 | 12 | 53 | 32 | 9 | 26.5 | 22 | |
Tecnología ambiental | 158 | 23 | 53 | 54 | 24 | 4 | 31.6 | 24 |
Telemática | 483 | 70 | 206 | 165 | 41 | 1 | 96.6 | 70 |
MEDIA | 70.31 | 157 | 119.77 | 41.38 | 5.36 | |||
MEDIANA | 63 | 131 | 82 | 34 | 5 |
Por ejemplo, las personas de entre 27-36 años tiene mayor frecuencia de respuesta en la carrera de Desarrollo de Software, uno podría esperar que los mas jóvenes se inclinas hacia estas carreras, pero la tabla global nos indica otra cosa.
El ejemplo anterior, nos indica que este tratamiento de información proporciona ventajas para el análisis de la información, este manejo de información, permite que en una sola tabla se muestren los principales resultados.
Otro ejemplo es la siguiente grafica donde a primera vista observa el comportamiento de las predilecciones de carreras según la EDAD , correspondería a un análisis más profundo combinarlo con las cualidades, de nuestra población.
Finalmente este histograma muestra como se comporto las muestras según la carrera seleccionada y la edad.