
La información es el resultado de la interpretación de los datos.
Este simple hacho es uno de los causantes principales de las malas tomas de decisiones, o, simplemente, de no saber pedir lo necesario para poder tomar las decisiones clave o estratégicas de cualquier actividad de negocios.
Por esta razón considero importante profundizar en los diferentes tipos de datos que hay, y, en especial, en el tratamiento que se les debe dar para poderlos aprovechar y convertir en la mejor información posible.
Datos sucios
El nombre en inglés es “dirty data” se refiere a aquellos datos que tienen que “limpiarse” para ser útiles, en especial en lo referente a su uso en bases de datos, por ejemplo. Datos sucios son, por ejemplo, aquellos que están duplicados, los que tienen errores de ortografía o los que no están en el formato correcto para poderse emplear.
Datos oscuros
En inglés se les conoce como “Dark data” y aunque suena como algo “malo” se trata de aquellos datos que se recolectan, pero no se usan, ósea, están en la “oscuridad”. Muchas veces se trata de datos a los que no se les puede acceder por el simple hacho de que se encuentran en diskettes o CDs y no hay una unidad capaz de poderlos leer. En otros casos, se usaba una aplicación, sistema o programa y se ha dejado de usar y los datos están físicamente allí, pero no pueden ser accedidos. Es importante tener este tipo de datos identificados, por el simple hacho de que los datos oscuros ocupan espacio, y ese espacio se paga. Debemos de recordar que los datos residen en un medio de almacenamiento, por el que se paga por tener más espacio, que vale la pena si se usa, más no para ser desaprovechado por datos inutilizables y peor aún si esto sucede en la nube pues todos los proveedores de ambientes de nube cobran por ese tipo de datos permanentemente, se usen o no.
Datos grandes
Del inglés “Big data” consiste en datos que son de distintos tipos (texto, videos, gráficas, registros de bases de datos, etcétera), siendo de gran volumen o tamaño y además que se van acumulando a gran velocidad. Estos datos pueden ser totalmente estructurados como los registros de una base de tatos, semi estructurados como los de las bitácoras de uso de aplicaciones o no estructurados como videos e imágenes. Para manipular datos grandes se requiere de sistemas específicos, tanto a nivel aplicaciones y software, para poder interpretarlos y anticipar o predecir comportamientos (sistemas de analítica) así como a nivel hardware, como los sistemas de almacenamiento donde residirán y en ciertos casos incluso los servidores donde se corren las aplicaciones pueden estar optimizados para poder orquestarse con los sistemas de almacenamiento para lograr el mejor rendimiento.
Datos pequeños
Del inglés “small data” este tipo de datos se relacionan con las personas. Son conjuntos de datos que son fáciles de interpretar para poder tomar decisiones en el corto plazo, tal como tener la información en una hoja de cálculo, sin demandar de programas o aplicaciones adicionales para su aprovechamiento. La clave para poder definir datos pequeños es que su cantidad no es enorme, o bien es capaz de ser interpretada por las personas sin requerir de mucho procesamiento.
Datos rápidos
Son aquellos datos cuya aplicación y valor dependen de la rapidez con la que son empleados e interpretados. Se debe de actuar sin espera sobre lo que reportan y eso termina por determinar desde el sitio donde se almacenan (debe de ser de rápido acceso) hasta la forma en la que son extraídos (servicios de comunicaciones confiables y de alta velocidad). Ejemplos de este tipo de datos es la información de sensores en un avión, o las instrucciones de compra de acciones en un sistema de inversiones en la bolsa de valores.
Datos lentos
Son datos que se recolectan con una latencia larga. El hundimiento de un edificio en un suelo no sólido o el desplazamiento a lo largo de años de un glaciar es un ejemplo de datos lentos. La interpretación y procesamiento de este tipo de datos sucede de vez en cuando.
¿Por qué es importante diferenciar los datos?
El tema es principalmente financiero. He visto malgastar a las empresas en la tecnología para almacenar, procesar e interpretar los datos por no tener en cuenta su clasificación.
Algunos se van directo a la nube sin pensar que mes con mes pagarán por sus datos estancados en ella, y otros compran de más o de menos la tecnología para rápido acceso a la información. Peor aún, otro grupo de errores consiste en no poner suficiente énfasis en las decisiones para adquirir la tecnología adecuada para analizar sus datos.
Todos los escenarios anteriores conllevan a una y solo una situación: se compra de más o de menos, se subestima o incluso se pierde la oportunidad de actuar ante la interpretación de los datos, esto es, no se aprovecha la información correctamente.
Y, cuando no se aprovecha la información, se cae en desventaja competitiva. Se mal atiende al cliente. Se entorpece la logística, no se vende o se vendo lo incorrecto. Todo esto se vuelve un amargo gasto y por ello, poner énfasis en los datos, la unidad indivisible de tomad decisiones, es en mi opinión, indispensable.