DEFINICIÓN
Edd Dumbill (O'Reilly Media):
Big Data son datos que superan la capacidad de procesamiento de los sistemas de bases de datos convencionales.
Los datos son demasiado grandes, se mueven demasiado rápido o no se ajustan a las estructuras de sus arquitecturas de bases de datos.
Para obtener valor de estos datos hay que elegir una forma alternativa de procesarlos.
LAS 3V DEL BIG DATA
VELOCIDAD
La información se genera más rápido de lo que se puede analizar:
La velocidad de los recursos de las redes no crece tan rápido como el volumen de datos
Lo que necesitamos:
Procesamiento de flujos más rápido y/o técnicas de almacenamiento selectivo
VOLUMEN
El volumen de datos crece más rápido que los recursos informáticos:
Volumen x10 cada 5 años
La potencia bruta de la CPU se duplica cada 18 meses (Ley de Moore)
Lo que necesitamos:
Nuevas tecnologías que almacenen y datos de manera más eficiente
VARIEDAD
Las fuentes de datos son cada vez más heterogéneas:
Datos múltiples, estructurados o semiestructurados
Complicado de encajar en un modelo modelo relacional
Lo que necesitamos:
Modelos flexibles de representación de datos
Herramientas de almacenamiento y procesamiento de datos optimizadas para estos nuevos modelos
¿NECESITAMOS BIG DATA?
En una encuesta de intención de voto, ¿Se pregunta a toda la población?
Por supuesto que no. Eso sería como hacer las elecciones.
Tomamos una muestra representativa.
Pero, ¿Cuál debería ser el tamaño de esta muestra?
El tamaño de la muestra dependerá del tamaño total de la población y del nivel de confianza que queramos alcanzar.
Digamos que queremos un nivel de confianza del 95% con un error máximo del 5%. ¿Cómo crece el tamaño de la muestra n en relación con el tamaño de la población N?
¿Podemos predecir el resultado de unas elecciones (dentro de un margen de error razonable) con sólo preguntar a unas 400 personas?
Aparentemente, eso es lo que nos dicen las estadísticas (demasiado simplificadas).
Pero, incluso si asumimos que esto es cierto, ¿Cómo recogemos exactamente esta muestra?
¿Preguntamos simplemente a las primeras 400 personas que encontramos en la calle?
¿Cómo evitamos el sesgo de la muestra?
Potentes herramientas estadísticas y de conocimiento se han enfrentado con éxito a estos problemas como éste durante décadas.
¿QUÉ ES REALMENTE BIG DATA?
No es:
… un sustituto de la inferencia estadística.
... un sustituto de las bases de datos tradicionales.
... un sustituto de los procedimientos estándar de BI.
Big Data trata de abordar nuevos retos en los que estas (y otras) técnicas se quedan cortas. Situaciones en las que se producen datos...
... demasiado rápido (velocidad).
... en una cantidad extremadamente grande (volumen).
... de muchas fuentes heterogéneas (variedad).
EJEMPLOS DE APLICACIONES REALES
Hoy en día, las técnicas de Big Data están siendo utilizadas por muchas:
Grandes empresas
Servicios públicos
Instituciones de investigación
Start Ups
La mayoría reconoce los beneficios del Big Data para la gestión de clientes y el marketing, pero hay muchas más aplicaciones aplicaciones exitosas.
Sistemas de recomendación
Análisis de RRSS
Detección de Fraude
Neurociencia
Predicciones meteorólogicas avanzadas
Periodismo de investigación moderno