Big Data

Actualizado el 21 de octubre de 2025

¿Qué es Big Data?

Definición breve: Big Data se refiere a conjuntos de datos voluminosos, veloces y variados que superan la capacidad de procesamiento de herramientas tradicionales y requieren arquitecturas y técnicas especializadas.

Ejemplo rápido

# Pipeline típico (simplificado)
[ Ingesta ] --> Kafka --> [ Procesamiento ] --> Spark/Flink --> [ Almacenamiento ] --> Data Lake (S3/HDFS)
# Consultas analíticas
Spark SQL / Presto / Trino
Flujo común de ingesta, procesamiento y análisis a gran escala.

¿Por qué importa?

Permite extraer valor de registros masivos: analítica de comportamiento, detección de fraudes, mantenimiento predictivo o personalización. Sin un buen gobierno del dato (calidad, linaje, seguridad), los costes y la complejidad se disparan.

Mini-FAQ

¿Hadoop sigue vigente?

HDFS/MapReduce han perdido centralidad frente a nubes y motores en memoria; no obstante, el ecosistema (YARN, Hive) y formatos (Parquet) siguen muy usados.

¿Data Lake vs Data Warehouse?

El lake guarda datos en crudo y semiestructurados; el warehouse almacena modelos curados para BI. Muchos adoptan arquitecturas híbridas (lakehouse).


Términos relacionados

Scroll al inicio