Ecuador - Directorio de Empresas y Establecimientos 2015
ID del Estudio | ECU-INEC-DECON-DIEE-2015-v1.4 |
Año | 2016 |
País | Ecuador |
Productor(es) | Instituto Nacional de Estadística y Censos (INEC) - Secretaría Nacional de Planificación y Desarrollo (SENPLADES) |
Financiamiento | Instituto Nacional de Estadística y Censos (INEC) - INEC - Financiamiento de toda la operación estadística |
Colección(es) | |
Metadatos | Documentación en PDF Descargar DDI Descargar RDF |
Creado el | 06 Feb, 2017 |
Última modificación | 06 Feb, 2017 |
Visitas a la página | 292433 |
Descargas | 74695 |
- Descripción de la operación estadística
- Descripción de Variables
- Obtener Microdatos
- Materiales Relacionados
Procesamiento de datos
Edición de datos
La información por cada fuente se obtiene en diferentes formatos o diferentes motores de bases de datos, diferentes modos de transmisión; es por eso que se hace sustancial la intervención de procesos de Extracción, Transformación y Carga, ETL por sus siglas en inglés, que se encargan de transformar a toda la información y llevarla a la lógica definida en el DIEE.
Las herramientas de software con las que el DIEE trabaja son:
- Motor de Base de Datos: PostgresSQL 9.2.
- Herramienta BI: Pentaho Data Integration.
- Oracle Express Edition 10g.
- SQL Power DQguru
Para iniciar el procesamiento se prepara los siguientes documentos:
- Matriz de prioridades: corresponde a un documento que indica la priorización de actualización de variables conforme a su importancia dentro de la base de datos. Esto es, si es que la variable será destinada a la publicación, es relacionada con la publicación o no tiene ninguna relación.
En este mismo sentido, se elabora una matriz de prioridades por fuente de información, en la cual se detalla por variable, la jerarquía de las fuentes que actualizarán las variables existentes en la base de datos del DIEE.
- Plan de validación y tabulación: este documento evidencia la forma de validación y limpieza de las variables existentes en la base, además de identificar los tabulados que deberán ser elaborados con la información procesada para saber qué cantidad de datos se han subido con éxito y así poder ver si existe coherencia en la cantidad de información entre tablas de la base de datos.
Descripción del procesamiento:
La herramienta Pentaho es la que juega uno de los roles más importantes en esta fase debido a que aquí se trabaja con procesos ETL´s (Extracción, Transformación y Carga).
El procesamiento mediante la ejecución de ETL's consiste en los siguientes pasos:
i) Previo a la ejecución de los ETL´s, para extraer información válida y de mejor calidad para el DIEE, se realiza el proceso de limpieza y depuración de la información, donde es necesario descartar registros al no acogerse a las reglas que deben cumplir las variables, por ejemplo los teléfonos para ser tomados en cuenta (de acuerdo al plan de validación).
ii) Creación de un repositorio alterno llamado PASO que contiene las tablas principales del DIEE como son: la de empresa, unidad local y unidad legal. Su objetivo es actuar como puente de la información antes de llegar a la base final, ya que existen procesos que no se pueden ejecutar directamente en la base final.
iii) Inicialización de las tablas de PASO para cargar la información de la etapa de procesamiento, en la cual se cargará la información que tiene cambios con respecto a la base del DIEE del año anterior y la nueva que será agregada a la base final.
iv) Se identifican las empresas y establecimientos tanto a los nuevos como a los antiguos, para poder así analizarlos por separado y ser procesados de distinta manera.
v) A las empresas y establecimientos antiguos, es decir, que ya fueron incorporados al directorio en años anteriores, se identifican las variables que han cambiado y necesitan ser actualizadas. (de acuerdo al matriz de prioridades). A éstas se actualizan sus respectivas variables de control.
vi) Las empresas y establecimientos nuevos son insertados en PASO con un identificador interno único, para dar un seguimiento tanto de las empresas como de los establecimientos sin necesidad de utilizar el número de RUC. De igual manera se actualizan también sus respectivas variables de control.
vii) Cuando se tiene lista la información en el repositorio PASO se procede a actualizar las variables que cambiaron de las empresas y establecimientos antiguos y de los nuevos se insertan en la base del DIEE (de acuerdo al matriz de prioridades).
viii) Para verificar y validar la información que se ha obtenido a partir del procesamiento se procede con conteos establecidos para verificar que la información sea consistente, si existen errores se procede a realizar un reprocesamiento de la base hasta que todos los errores sean subsanados por completo (de acuerdo al plan de validación y tabulación).
ix) Por último se procede con el congelamiento de la base de datos.
Este proceso se lo aplica sistemáticamente sobre las variables del directorio que sirven para la publicación, dentro de este proceso también se generan ciertas variables derivadas.
Otros procesamientos
1. ETAPA PREPARATORIA O PREVIA A LA RECOLECCIÓN:
Durante el año 2010, se participó activamente en capacitaciones técnicas con la finalidad de construir una metodología sólida para la creación de las bases de datos usadas en el Directorio de Empresas y Establecimientos. En el año 2011 se suscribieron acuerdos interinstitucionales con el Servicio de Rentas Internas (SRI) y el Instituto Ecuatoriano de Seguridad Social (IESS), que permitieron establecer y consolidar las bases de datos para la construcción del Directorio.
La planificación de la recolección de la información para el año 2016 fue realizada de acuerdo a los insumos: diseño de la recolección, tiempos de recolección, listado de empresas y sistema de call center; cuyos productos fueron un balance de recolección y bases de datos verificadas, que permitieron solventar con satisfacción esta etapa y proceder a la recolección.
2. RECOLECCIÓN DE LA INFORMACIÓN:
La recolección de la información desde las fuentes primarias (SRI e IESS) utilizan métodos de recolección automática, así la información que llega desde las fuentes externas fluye por un canal de comunicación propio para las instituciones públicas: el anillo interministerial.
Por parte del SRI, la información transferida corresponde a datos de la empresa, como el RUC; su ubicación geográfica; la persona de contacto, la actividad económica codificada según la Clasificación Internacional Industrial Uniforme, tipo de contribuyente. Si la empresa realiza o no actividades de comercio exterior e información correspondiente a ventas, clasificadas según el tipo de gravamen: ventas netas con tarifa cero, ventas netas con tarifa diferente de cero, y exportaciones netas. Esta información tiene diferentes periodicidades de actualización, que varían desde actualizaciones diarias, a actualizaciones mensuales.
Por parte del IESS la información que se transfiere al DIEE corresponde al RUC, fecha de corte de información, número de establecimiento, dirección, teléfono, teléfono representante legal, número de afiliados hombres, número de afiliadas mujeres, remuneraciones de afiliados hombres, remuneraciones de afiliadas mujeres, número de días laborados con código de división política.
Adicionalmente, el DIEE se alimenta de fuentes internas, principalmente de la información proveniente de las encuestas económicas realizadas por el INEC, como son:
- Censo Nacional Económico
- Encuesta anual de manufactura, minería y construcción
- Encuesta anual de comercio interno
- Encuesta anual de hoteles, restaurantes, servicios generales, de enseñanza y transporte.
- Encuestas Ambientales
- Equipo Call Center, el cual se encarga de capturar y verificar la información directamente con el informante de la empresa a través de llamadas telefónicas.