Contribución:
Mg. Lic. Juan Pablo Carranza
Jefe Equipo Modelización y Métodos, IDECOR


1 de septiembre 2021.

¿Qué es la Ciencia de Datos?

La Ciencia de Datos como disciplina es un fenómeno de reciente conformación y su extensión, definición y campo de estudio está aún en discusión; incluso su status de ciencia se encuentra cuestionado. “All science is Data Science” es una afirmación que busca destacar que todo desarrollo científico se basa en el manejo de datos, ya sean cuantitativos o cualitativos, restándole entidad disciplinar a la Ciencia de Datos.

Si debiéramos brindar una definición que reúna algún nivel de consenso, probablemente la más adecuada sería la siguiente: “La ciencia de los datos es un enfoque que se basa principalmente en los métodos de la estadística y la computación, que se complementan adecuadamente con los conocimientos de distintos ámbitos para hacer frente a nuevos retos que plantea la actual sociedad de la información” (Lauro, et al., “Data Science and Social Research”, 2017, Springer). Esta sentencia define a la ciencia de datos como un “enfoque” y resalta los principales elementos de esta práctica científica: debe ser multidisciplinar, con un fuerte enfoque cuantitativo orientado a la inferencia y apta para tratar problemas con grandes volúmenes de información. De estos tres elementos, el más relevante y realmente novedoso es el “deber ser multidisciplinar”; los otros son consecuencias metodológicas que derivan de la necesidad operativa de trabajar con grandes conjuntos de información.

Nueva información genera nuevas preguntas, y nuevos problemas requieren nuevos enfoques metodológicos. La forma clásica de entender los procesos de investigación como cajas estancas disciplinares, donde hay especialistas como única opinión válida sobre el fenómeno en estudio, va perdiendo terreno. La explosión de información dada a partir de fines del siglo 20 ha puesto aún más en relieve la complejidad del mundo social (me refiero a una complejidad matemática, en donde una pequeña alteración de las condiciones iniciales de un fenómeno dispara procesos multicausales de magnitudes desconocidas). Esta complejidad sólo puede ser parcialmente abordada de manera cuantitativa con grandes volúmenes de información y con la colaboración de especialistas de diversos ámbitos del conocimiento, que se retroalimentan en su interpretación de la realidad tal cual la perciben.

En tal sentido, podríamos afirmar que la Ciencia de Datos es una nueva forma de hacer ciencia, transversal a las tradicionales disciplinas científicas. En esta nueva manera de investigar, el pensamiento deductivo da paso a la inducción en su estado más puro. Las preguntas emergen de los datos, al igual que las respuestas, que disparan nuevas preguntas. Se configura así, una manera de investigar basada en la necesidad de organizar, analizar y relacionar grandes cantidades de información, de una magnitud impensable hasta hace 20 años. Y la generación de información crece a tasas cada vez más aceleradas, reforzando este proceso.

En este escenario, una novedad absoluta fue la irrupción de grandes bases de datos geográficas, inexistentes hasta la década de 1980 y cada vez más masivas, gracias a la apertura de datos públicos y la proliferación de satélites orbitando la Tierra, entre otros aspectos. Esta nueva información permitió abrir una nueva dimensión en el análisis de fenómenos sociales. Por ejemplo, en el caso de los problemas relacionados a la economía, esta nueva dimensión espacial atraviesa todo análisis posible. Los problemas que inicialmente se limitaban a evaluar el impacto de múltiples variables independientes sobre una variable de estudio, buscando identificar impactos para responder “cuánto”, durante el tercer cuarto del siglo pasado dieron lugar al tratamiento de series temporales para responder simultáneamente “cuánto” y “cuándo”, para enfrentarse ahora con bases de datos espacio-temporales… a responder “cuánto”, “cuándo” y “dónde”.

Las primeras aplicaciones consistentes y de público conocimiento de este tipo de enfoques, basados en el uso intensivo de información, tuvieron lugar en el sector privado. La enorme cantidad de datos que “donamos” a nuestras redes sociales favoritas son un insumo invaluable para que muchas empresas puedan predecir nuestras preferencias y comportamientos, adecuando de esta manera las publicidades que vemos cada vez que iniciamos sesión. También son célebres las influencias sobre los ciudadanos de diversos países en periodos electorales, donde a partir de perfiles creados en base a información personal de millones de personas, se pueden diseñar estrategias para incidir en la intención de voto. Si bien las redes sociales se convirtieron en una gran usina de información, hay un sector que genera cantidades masivas de datos desde hace mucho más tiempo que las redes sociales: el Estado.

¿Qué estamos haciendo en Córdoba?

A nivel local, son interesantes las experiencias en ciencia de datos aplicada a fenómenos geográficos (¿Geo-Data Science?) con impacto en diversas políticas públicas. Desde IDECOR se han vinculado esfuerzos de profesionales de diversas disciplinas para realizar estimaciones del valor de la tierra urbana (ver nota) y rural (ver nota) en toda la provincia de Córdoba, en un diálogo horizontal impensado hace años entre economistas, arquitectos, agrónomos, agrimensores, corredores inmobiliarios, programadores y personal de la Administración Pública. Se dan procesos similares en el desarrollo del mapa de coberturas de suelo (land cover) a nivel provincial, extendiendo la vinculación a otros organismos con conocimiento específico como el INTA y el CONICET. También se ha buscado fomentar la recolección masiva de información por parte de la sociedad y su involucramiento en estudios sectoriales (Resultados de la participación ciudadana en el primer IDECOR Land Collect), como parte de estos procesos de análisis de datos.

Actualmente se encuentran en curso, además, diversos proyectos con organismos provinciales y nacionales para estimar valores de alquileres urbanos en las principales ciudades de la provincia, rindes agrícolas o ciertos componentes físico-químicos del suelo rural (como materia orgánica, fósforo, pH, entre otros).

Resulta igualmente interesante mencionar la participación de la Facultad de Matemática, Astronomía, Física y Computación (FAMAF) de la Universidad Nacional de Córdoba, en estudios similares para detectar potenciales interesados en pagar sus impuestos con débito automático o analizando con lenguaje natural los sentimientos de los contribuyentes (Rentas Córdoba: logran predecir en un 85% el comportamiento de los contribuyentes).

Imagen. Experiencias en ciencia de datos aplicada a fenómenos geográficos (mapas valor de la tierra urbana y rural, mapeo de variables de suelo y app Land Collect).

Todas estas iniciativas comparten las tres características fundamentales para permitirnos hablar de un enfoque de ciencia de datos: multidisciplina, vinculando profesionales de ámbitos diversos, enfoque cuantitativo orientado a la inferencia y utilización de técnicas de programación para trabajar sobre grandes volúmenes de información geográfica. En todos los casos, las relaciones entre múltiples variables territoriales que determinan la distribución espacial del fenómeno en estudio, surgen de los datos utilizados sin mediar recortes deductivos realizados por los investigadores.

La adopción por parte del Estado de enfoques basados en Ciencia de Datos para el análisis de la enorme masa de información que genera de manera constante, siguiendo buenas prácticas en torno al cuidado de la privacidad de los ciudadanos y su trasformación en información pública y datos abiertos, tiene relevancia central en una sociedad del conocimiento: Entre muchos otros beneficios públicos, por ejemplo, permite el acceso equitativo a información de calidad, útil por caso para la toma de decisiones empresariales y a la cual muchos negocios pequeños no podrían acceder de no mediar la producción pública de este conocimiento. Además, se facilita el diseño y gestión de políticas públicas basadas en evidencia, permitiendo superar discusiones y análisis en base a percepciones, y centrando el foco en el problema a resolver de manera objetiva.

¿Querés saber más?

Te invitamos a leer las siguientes notas y documentos técnicos.

—————————————

Referencias:
Lauro, et al., “Data Science and Social Research”, 2017, Springer

Categorías Novedades

Noticias Similares

Novedades

Ya disponibles los materiales de los talleres de IDECOR en las Jornadas de IDERA

15 de septiembre 2021. En las pasadas XV Jornadas de IDERA, realizadas en el mes de agosto, la Provincia de Córdoba participó con el dictado de 3 talleres a cargo de especialistas del equipo de Leer más

Novedades

¡Nuevo! Mapa de Lluvias Extremas para Diseño Hidrológico

Contribuciones:Dr. Ing. Carlos CataliniInvestigador del INA-CIRSADirector del Grupo de Estudios Hidrológicos en Cuencas Pobremente Aforadas, UCCDr. Ing. Carlos M. GarcíaInstituto de Estudios Avanzados en Ingeniería y Tecnología (IDIT CONICET/UNC)CETA – FCEFyN, UNC 15 de septiembre Leer más

Novedades

Ideas para innovar en el sector público (y también en las IDE!)

ContribuciónNorma Lescano, Red SIP Comunica 8 de septiembre 2021. En un contexto de transformación digital y cambios exponenciales, el Estado está obligado a crear una cultura de innovación, que permita encontrar ideas superadoras que logren Leer más