Ecuador - Estadísticas de Transportes 2022
ID del Estudio | ECU-INEC-DECON-ESTRA-2022-v1.3 |
Año | 2022 |
País | Ecuador |
Productor(es) | Instituto Nacional de Estadística y Censos (INEC) - Presidencia de la República del Ecuador |
Financiamiento | Instituto Nacional de Estadística y Censos - INEC - Financiamiento de toda la operación estadística |
Colección(es) | |
Metadatos | Descargar DDI Descargar RDF |
Creado el | 26 Dec, 2023 |
Última modificación | 26 Dec, 2023 |
Visitas a la página | 12023 |
Descargas | 2262 |
- Descripción de la operación estadística
- Descripción de Variables
- Obtener Microdatos
- Materiales Relacionados
Procesamiento de datos
Edición de datos
Para el procesamiento de datos es importante identificar y clasificar a las variables según su función: identificación, comunicación, cronológicas y estadísticas (cuantitativas y cualitativas), ya que de acuerdo a ello se generan algoritmos estandarizados que ayuden a la automatización de las tareas de transformación de registros administrativos en registros estadísticos. Cada BDD dentro de la fase de procesamiento estadístico pasan por el siguiente proceso:
* Proceso de perfilamiento. - Tiene como objetivo identificar anomalías 'de forma' presentes en cada variable (diseño-formato), revisándose principalmente lo siguiente: números en textos, texto en números, separador de fechas, decimal, etc.
* Proceso de corrección (diseño-formato). - Las anomalías encontradas en el perfilamiento son corregidas, sin alterar la esencia de las bases de datos.
* Proceso de estandarización. - La estandarización se aplica únicamente a las variables categóricas, consiste en la codificación, o categorización de información de Registros Administrativos de acuerdo a catálogos nacionales o internacionales; esto se hace uso de la herramienta METADEC4 desarrollada por el INEC.
* Proceso de precisión. - Se validan los datos de identificación directa5, para lo cual se cruza con los datos de identificación auxiliar (nombres y apellidos, razón social, nombre comercial, entre otras) de una fuente primaria (Registro Civil en el caso de personas) y a través de algoritmos probabilísticos y determinísticos se establecen tres grupos de registros: con id. Incorrectos 6, con ID. Válidos y verdaderos (id. correcto cuyos datos corresponden a la misma persona) y, con ID. Válidos pero falsos (id. correcto pero cuyos datos no corresponden a la persona).
Los casos con ID. Incorrectos y con ID. Válidos pero falsos se recuperan a través de métodos de integración determinísticos o probabilísticos (utilizando las variables: nombres, fecha y lugar de nacimiento) de la fuente primaria.
* Proceso de coherencia (validación y rectificación). - Son dos actividades que se desarrollan de forma consecutiva: la validación es la revisión de valores entre variables (Ej. Comparar el estado civil en función de la edad, y a rectificación en función de los procesos previos ejecutados.
* Proceso de conversión. - Generación de nuevas variables, a través de la recodificación de variables o cálculos matemáticos entre variables, de manera que las direcciones del INEC que consumen estas bases de datos reciban variables creadas bajo un mismo criterio.
* Proceso de unicidad. - Se identifican casos duplicados y se los depura, con el fin de contar con un registro por cada caso (hecho).
* Proceso de integración. - Se integran las variables nuevas y las existentes provenientes de otras fuentes, con dos propósitos: 1) robustecer el análisis temático con nuevas variables, y 2) mejorar la exactitud de las variables ya existentes. En esta fase se utilizan métodos determinísticos, usando de variables de identificación directa. Para llevar a cabo la integración es importante establecer por cada variable la fuente principal y las secundarias, en base a criterios de: mandato legal, oportunidad y disponibilidad.
* Proceso de seudonimización. - Con el objetivo de disponer de las bases de datos para el análisis y cuidar la confidencialidad 7 de la información, se procede con el reemplazo de la variable de identificación directa y eliminación de las variables de identificación auxiliares, tales como: nombres y apellidos, razón social, nombre comercial, entre otras. Este proceso permite oculta la identificación directa del individuo y garantiza la vinculación con otros registros administrativos (INEC, 2015b).
En la etapa de recolección inició en el mes de enero y febrero, una vez se envió el requerimiento de información a las diferentes fuentes de información del anuario; en este contexto a continuación, se detalla el control de cobertura y novedades presentadas para el proceso de recolección de cada una de las secciones de ESTRA, periodo de referencia 2022.
El control de cobertura permite evaluar el grado de cumplimiento de los objetivos en la recolección, tanto a nivel cualitativo como cuantitativo. La meta a conseguir con este control fue recolectar 4 bases del periodo 2022, información que es necesaria para la construcción del anuario de transportes del periodo en referencia.
La planificación de recolección contempló el uso de herramientas como: oficios, llamadas telefónicas, correos y, de ser necesario, reuniones con los diferentes equipos técnicos de las instituciones.
Frente a la pandemia por la COVID-19, en el año 2022 el uso de herramientas alternativas es más importante que en años anteriores, es así que, las estrategias de recolección reconocen las limitaciones del teletrabajo sin dejar de lado las estrategias tradicionales planificadas.
En esta fase de la producción de las Estadísticas de Transporte (ESTRA), se realiza la validación de la información captada, previo la generación de productos a publicarse.
1.- Crítica e integración de la base de datos. - Para la crítica de ESTRA 2022 se considera las siguientes acciones:
- Revisión de formatos establecidos para la entrega de la información
- Revisión del número de variables requeridas
- Revisión de datos omitidos
La integración de las bases de datos se realiza de manera homologada en función de la información entregada por cada una de las fuentes de información:
2.- Clasificaciones y/o codificaciones
Para la clasificación y codificación de las variables suministradas en los distintos registros administrativos, se realiza y/o actualiza las sintaxis de codificación (en SPSS o STATA), a fin de garantizar homologación y consistencia (con las publicaciones de años anteriores) en la asignación de las categorías requeridas para la presentación de resultados, por ejemplo: Clase de vehículos, tipo de cargas, otras.
3.- Validación e imputación
Para este proceso se aplica estadística descriptiva y otras herramientas para el análisis de consistencia de la información de los principales resultados.
3.1 Validación e imputación de datos
Una vez recolectadas las bases de datos y los datos del Boletín de Tráfico Aéreo se inició la revisión de los registros administrativos y, para aquellas bases que los necesitan: la imputación de datos mediante el uso de softwares como: SPSS, STATA, R Studio, entre otros.
3.1.1 Bases de datos de transporte.
De parte de la ANT, una de las bases solicitadas: siniestralidad periodo enero-diciembre 2022 fue remitida mediante correo electrónico en formato Excel en la fecha solicitada 17 de enero del 2023; la base correspondiente a vehículos matriculados fue remitida el 14 de abril del 2023, almacenados en archivo magnético digital (CD).
La DGAC envió la información el día 13 de marzo del 2023, con oficio Nro. DGAC-DGAC-2023-0655-O, remitió al INEC la base de datos, adicionalmente, mediante oficio Nro. DGAC-DGAC-2023- 0928-O del 18 de abril de 2023, como parte de la política de transparencia y acceso a la información pública, la DGAC presentó al INEC el Boletín Estadístico Aerocomercial de Tráfico Aéreo 2022.
La SPTMF remitió las bases de datos el 09 de marzo del 2023 mediante oficio Nro. MTOP-SPTM-23-180-OF, conforme el formato de matriz de recolección solicitada por el INEC.
Como primer paso, se realizó una primera validación de la base para detectar inconsistencias en los datos y si es que existen todas las variables necesarias para continuar con la validación por completo.
Cabe resaltar que, previo al envío de la base de datos del 2022, durante el 2022 se solicitó una base con corte semestral sobre la cual se remitieron novedades que, para el envío de la base anual, estuvieron sustentas obteniéndose así una base más consistente para trabajar.
Una vez consolidad la información y teniendo una base completa y corregidas las novedades, se retomó la validación de la data respecto al resto de variables que presenten novedades.
3.2 Imputación para datos atípicos
Ante esto, el equipo técnico del INEC realizó un ejercicio de imputación para los datos atípicos, valores cero y datos perdidos que existían en la Base de Datos, tanto para la capacidad de pasajeros como para la capacidad de carga, lo que permitió mejorar la clasificación de los vehículos de acuerdo a estas dos variables.
El ejercicio se estableció principalmente en una imputación aleatoria de los datos "missing", basados en el modelo "Hot-Deck", cuyo procedimiento consiste en el reemplazo de los valores perdidos por otro registro ya existente en la muestra para reemplazarlo. Para ello se categorizaron los vehículos por estratos por su "Marca" y "Clase" final.
La finalidad de realizar este proceso se fundamentó en que los valores de las imputaciones, para las variables de interés, sean muy similares a los vehículos dentro de su misma marca y clase lo más homogénea posible.
En este ejercicio se realizaron 5 imputaciones para cada "missing", cero o atípico; para luego calcular la media de las 5 imputaciones generadas; y para el caso de la variable capacidad de pasajeros tomar el redondeo del valor obtenido, puesto que se considera como números enteros para pasajeros y números continuos para la capacidad de carga. Para esta acción se utilizó el software estadístico STATA, basados en el comando "hotdeck".
Otros procesamientos
La actividad previa al procesamiento estadístico es la transferencia y recopilación de datos desde las fuentes administrativas, para lo cual se establecen escenarios de transferencia (identificación de herramientas para entrega recepción de información y actores que intervienen) que permitan el acceso oportuno a los datos y se preserve los principios de confidencialidad, Integridad y disponibilidad de la información. El proceso de recolección se desarrolla de acuerdo a los procesos que se detallan:
Planificación de la captación. - Es el acercamiento del INEC con las distintas instituciones para analizar el estado de las distintas fuentes de información y calendarizar las fechas de solicitud oficial, entregas parciales, validación y entregas finales de la información.
Procesos de captación
- Para el registro de información de vehículos motorizados matriculados y siniestros de tránsito, la ANT realiza el registro de datos a través de varios sistemas informáticos, y el traspaso de bases de datos al INEC se ejecuta bajo los procesos detallados en los anexos 5 y 8, respectivamente.
- La obtención la información de transporte aéreo es a través del Boletín Estadístico de Tráfico Aéreo que publica anualmente la Dirección de Aviación Civil.
- Finalmente, en lo que se refiere a transporte marítimo y fluvial los datos son recolectados por cada Entidad Portuaria y Superintendencia Petrolera siendo el ente regulador la Subsecretaría de Puertos y Transporte Marítimo y Fluvial.
Es importante mencionar que, si la información está incompleta o se detecta inconsistencias en los registros administrativos, el INEC, a través de la Dirección de Estadísticas Económicas se encarga de solicitar la aclaración a fin de que cada institución informante complete o corrija los datos; este proceso se hace vía correo electrónico, llamada telefónica, o reuniones técnicas interinstitucionales. Toda la información recolectada es remitida al INEC para su revisión, procesamiento y difusión.