¿Qué es Big Data?
Definición breve: Big Data se refiere a conjuntos de datos voluminosos, veloces y variados que superan la capacidad de procesamiento de herramientas tradicionales y requieren arquitecturas y técnicas especializadas.
Ejemplo rápido
# Pipeline típico (simplificado)
[ Ingesta ] --> Kafka --> [ Procesamiento ] --> Spark/Flink --> [ Almacenamiento ] --> Data Lake (S3/HDFS)
# Consultas analíticas
Spark SQL / Presto / Trino
¿Por qué importa?
Permite extraer valor de registros masivos: analítica de comportamiento, detección de fraudes, mantenimiento predictivo o personalización. Sin un buen gobierno del dato (calidad, linaje, seguridad), los costes y la complejidad se disparan.
Mini-FAQ
¿Hadoop sigue vigente?
HDFS/MapReduce han perdido centralidad frente a nubes y motores en memoria; no obstante, el ecosistema (YARN, Hive) y formatos (Parquet) siguen muy usados.
¿Data Lake vs Data Warehouse?
El lake guarda datos en crudo y semiestructurados; el warehouse almacena modelos curados para BI. Muchos adoptan arquitecturas híbridas (lakehouse).
