4 minuto(s) de lectura

Hoy esta muy de moda la ciencia de datos, se han escrito kilómetros de lineas sobre que es, para que sirve, cuales son sus objetivos en todas sus formas y lo sexy que es. Hoy les planteo una definición a modo de resumen, que engloba todo lo que he leído respecto a este campo que tantas pasiones despierta.

¿Que es la ciencia de datos?

La defino como un campo interdisciplinario que, haciendo honor a su componente científico, usa el método científico, para extraer conocimiento de datos en sus diferentes formas.

Es una continuación de campos como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva y su objetivo es obtener información valiosa de grandes volúmenes de datos.

Doy esta definición tratando de mantenerla libre de metodologías, técnicas y herramientas que se necesitan para lograrlo.

Finalmente, como les mencione en el post anterior ¿que es un dato?, un dato por si solo no constituye información, es a través de del procesamiento y análisis que se obtiene información.

¿Información valiosa?

Hablamos de obtener información valiosa, pero ¿que significa eso?, bueno, como todo en el mundo de los datos: eso depende

… depende del caso de uso, del objetivo que se desea lograr, de la calidad o cantidad de datos que contemos, etc, etc, etc… (un largo etc).

En general se trata de hacernos las preguntas adecuadas, tener clara cual es la pregunta que queremos responder y de acuerdo a eso, comenzar con el análisis que responda esa pregunta. El nivel de satisfacción que obtengamos de la respuesta a esa pregunta nos dirá si la información obtenida de los datos tiene valor para nosotros.

Y ojo con esto, ya que el valor obtenido depende de quien hizo la pregunta, no necesariamente de quien la responde, esto nos lleva a que la objetividad de quien responde es clave para evitar malas interpretaciones. Es muy necesario involucrarse con el problema que se busca resolver, empaparse del negocio, de la necesidad o del dolor de quien pregunta para entender el valor de la respuesta que se obtenga.

¿Como obtener valor de los datos?

A continuación voy a resumir cinco pasos básicos que he encontrado para la obtención de valor en los datos. Son pasos simples y no son la fuente de verdad absoluta, solo se por experiencia que funcionan.

  1. Obtención de los datos.
  2. Depuración de los datos.
  3. Exploración de los datos.
  4. Modelamiento de los datos.
  5. Interpretación de los datos.

Obtención de los datos

Sin datos, no hay ciencia de datos… así que es importante ir a la búsqueda de la materia prima para poder responder cualquier cosa.

¿De donde los obtenemos?

  • Servicios web.
  • Redes sociales.
  • APIs.
  • Bases de datos.
  • Datasets en archivos.
  • Planillas de calculo.
  • Sensores
  • y nuevamente un largo etc.

Es necesario ser creativo, ir a las fuentes de datos y obtenerlas para poder extraer todo el conocimiento que necesitamos para lograr respuestas valiosas.

Depuración de los datos

No existen datos perfectos y hay que saber que cuando analizamos datos la basura que entra es la basura que sale, por lo tanto la depuración de datos es muy importante.

¿Que se hace en la depuración?

  • Filtrar lineas sucias.
  • Extraer columnas.
  • Cambiar datos de formato.
  • Reemplazar valores.
  • Extraer palabras.
  • IMPORTANTE: Manejar valores ausentes o perdidos (Alerta de spoiler).
  • Otro gran etc.

En mi experiencia hay que tener en cuenta dos cosas importantes para este punto:

  1. No existen datos confiables, aunque quien te pase los datos te asegure frente a un juez que sus datos son confiables… no lo son, créeme, esto te evitara muchos dolores de cabeza.
  2. Te vas a pasar al menos el 80% del tiempo limpiando datos, créeme que es lo mejor, asegurar la calidad de los datos se traducirá en buenos resultados… siempre que hayas elegido los datos correctos…

Exploración de los datos

Este es el punto donde los datos comienzan a tener sentido, aquí comienza el análisis exploratorio y la idea de esto es conocer los datos, relacionarte con ellos, buscar sus métricas, visualizarlos, crear estadísticas a partir de ellos, graficarlos y visualizarlos.

El análisis exploratorio tiene como objetivo aprender de los datos a través de investigación y exploración.

Modelamiento de los datos

Aquí es donde se generan los modelos estadísticos con los datos, para poder encontrar las respuestas a nuestras preguntas, hacer predicciones y obtener conocimiento.

Aquí los datos se agrupan, se clasifican, se hacen regresiones y otro largo etc. Esto nos acercara a las respuestas que buscamos.

Interpretación de los datos

Este es quizás el paso mas importante, es aquí donde se cuenta la historia de los datos y sus conclusiones.

Contar una historia no requiere modelos matemáticos, requiere que sea interesante y objetiva, que entregue conclusiones y muestre gráficas que permitan de forma rápida evaluar los resultados.

Cierre

Como conclusión puedo solo repetir lo que dije al principio, el fin de la ciencia de datos es obtener respuestas valiosas de los datos, un valor que es relativo a la persona u organización que lo requiere y que debe ser entregado con una mirada objetiva, involucrándose en el proceso.

Existen muchas formas de obtener este valor, lo importante es que el uso del método científico es una de las herramientas mas poderosas para ejecutar esta tarea.

Pero eso es para otra historia.

Saludos

Deja un comentario