
Qué es Big Data y aplicaciones de uso
Antes de plantear posibles usos y aplicaciones de Big Data, vamos a ver conceptos básicos de Big Data. Así, podemos definir Big Data como procesamiento de cantidades de datos a gran escala, que sobrepasan la capacidad del software convencional para ser capturadas, procesadas y almacenadas en un tiempo razonable.
Otro de los aspectos a tener en cuenta, es que la cantidad de datos almacenadas en el mundo se está duplicando cada dos años. Cada vez más hay un uso más extensivo de los datos, posibilitado últimamente por el fenómeno COVID, y la proliferación del teletrabajo. De esta forma, la explosión de datos a la cual estamos asistiendo últimamente, es una consecuencia de la revolución digital y de la gran adopción por parte de los ciudadanos y de las empresas de herramientas y tecnologías como las redes sociales, el teletrabajo, los dispositivos móviles, la geolocalización, y el Internet de las Cosas.
Así, entender el concepto de Big Data, es fundamental para conocer también todo el contexto de la generación de datos del cual somos partícipes.
Para que nos hagamos una idea, cada día utilizamos muchos dispositivos mediante los cuales se emite una cantidad ingente de información: cada vez que hacemos clic en una página web, pagamos con tarjeta de crédito, publicamos imágenes en las redes sociales, encendemos el GPS, etc. Todas estas (y muchas más) acciones producen datos masivos que deben ser tratados.
Las cinco “Vs” del Big Data
La primera cuestión que nos tenemos que plantear, es cual debe ser el tamaño de los datos, para que hablemos explícitamente de Big Data, para ello, la mayor parte de los expertos, definen el Big Data en términos de 5 Vs, que seguidamente vamos a comentar:
- Volumen. La cantidad de datos generados en el mundo se ha duplicado de forma constante cada 12 18 meses. La razón principal para el crecimiento de los datos es la dramática reducción en el coste de almacenamiento de datos. Los costes de almacenamiento de datos han disminuido entre un 30 y 40% cada año.
- Velocidad. la segunda característica del Big Data está relacionada con el ritmo a los cuales los datos se están generando. La razón principal de la mayor velocidad de los datos es el aumento en la velocidad de Internet, tanto en las comunicaciones de las empresas, como en los propios domicilios de los ciudadanos. Otra razón importante es la mayor variedad de fuentes, como por ejemplo el uso de los dispositivos móviles y el teletrabajo, que pueden generar y comunicar datos desde cualquier lugar, en cualquier momento.
- Big Data incluye todas las formas de datos, para todo tipo de funciones, de todas las fuentes y dispositivos. Textos, gráficos, videos, presentaciones, imágenes…
- Veracidad. Relacionado con la veracidad, credibilidad y calidad de los datos. Una gran cantidad de datos no tiene valor si son incorrectos.
- Valor: finalmente, los datos y su análisis tienen que generar un beneficio para las empresas.
Tipos de Datos en Big Data
En función de su estructura, los datos pueden ser:
- Estructurados: datos que tienen definido su formato, tamaño y longitud, como por ejemplo las bases de datos relacionales o los Data Warehouse.
- Semiestructurados: datos almacenados según una cierta estructura flexible y con metadatos definidos, como XML y HTML, JSON, y las hojas de cálculo (CSV, Excel).
- No estructurados: datos sin formato específico, como ficheros de texto (Word, PDF, correos electrónicos) o contenido multimedia (audio, vídeo, o imágenes).
Herramientas para procesar Big Data
Big Data necesita de nuevas herramientas y de tecnologías para poder procesar adecuadamente la información, y al manejar datos de diverso tipo, las tecnologías tradicionales de base de datos relacionales no son adecuadas, al limitarse éstas al procesamiento de datos estructurados. A continuación, vamos a ver algunas de las herramientas más utilizadas para procesar Big Data:
Hadoop. Herramienta de código abierto que permite tanto gestionar grandes volúmenes de datos, como analizarlos y procesarlos. Hadoop utiliza MapReduce, un modelo de programación que da soporte a la computación paralela sobre grandes colecciones de datos. Más información: https://es.wikipedia.org/wiki/Apache_Hadoop
NoSQL. Sistemas que no utilizan SQL como lenguaje de consultas, lo que, aunque no se garantice la integridad de los datos, permite obtener importantes ventajes en escalabilidad y rendimiento cuando se trabaja con Big Data. Como ejemplo de base de datos NoSQL, podemos citar a MongoDB. Más información: https://es.wikipedia.org/wiki/NoSQL
Spark. Framework de computación en clúster de código abierto que permite procesar los datos de forma rápida. Permite escribir aplicaciones en Java, Scala, Python, R y SQL. Puede funcionar tanto de forma independiente como en cloud sobre Hadoop, Apache Mesos, Kubernetes.
Storm. Sistema de computación en tiempo real distribuido de código libre, que permite procesar flujos ilimitados de datos en tiempo real de manera muy sencilla.
Hive. Hive es una infraestructura de Data Warehouse construida sobre Hadoop. Hive es un lenguaje declarativo similar a SQL para consultas, por lo que es el más adecuado para trabajar con datos estructurados.
Ejemplos de aplicaciones de Big Data
A continuación, vamos a ver algunos ejemplos de uso del Big Data:
Marketing. segmentación de clientes.
Deportes. Optimización del rendimiento, utilizando dispositivos como los smart watches para registrar registran automáticamente datos como el consumo de calorías o el esfuerzo realizado.
Salud. Codificación de material genético, como por ejemplo descodificando cadenas de ADN para comprender mejor las enfermedades y poder de esta forma encontrar nuevos tratamientos.
Seguridad. Los cuerpos y fuerzas de seguridad utilizan Big Data para localizar a criminales o prevenir actividades delictivas.
Etiqueta:BIG DATA