Scroll Top

BIG DATA

¿QUÉ ES EL BIG DATA?

Una base de datos es un conjunto de datos o combinaciones de conjuntos de datos cuyo tamaño, complejidad y velocidad de crecimiento dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales como bases de datos relacionales.

También hace referencia a las nuevas tecnologías que hacen posible el almacenamiento y procesamiento.  Big data o grandes datos, se caracteriza por las 5 Vs:

–    Volumen de datos

–    Variedad de tipos de datos 

–    Velocidad a la que se procesan los datos

–    Veracidad de los datos 

–    Valor de los datos

Hay que tener en cuenta que cuando hablamos de Big Data lo hacemos de un número de datos tan elevado al que no estamos acostumbrados y para manejarlos tendremos que contar con nuevas herramientas. 

LAS 5 V‘S DEL BIG DATA

Volumen

La cantidad de datos con la que contamos cada vez es mayor, aumentando de manera exponencial. Estos datos los podemos obtener a partir de registros de ventas, datos de experimentos científicos, encuestas o datos obtenidos en el internet de las cosas

Cuando hablamos de grandes cantidades de datos lo hacemos de Terabytes o Petabytes. Gracias al Big Data conseguimos controlar este volumen tan alto de datos. 

Velocidad

Una de las grandes ventajas que presenta el Big Data es la posibilidad de analizar los datos casi en tiempo real, ya que el flujo de entrada de datos es constante.

Variedad

Existen datos estructurados, semi estructurados y no estructurados.   

Veracidad

Hay que tener en cuenta que no todos los datos serán verídicos y algunos se habrán recolectado de forma incorrecta. Por eso, uno de los grandes desafíos del Big Data es detectar esos fallos y extraer únicamente los patrones reales.

Valor de los datos

Está muy relacionado con la veracidad ya que se analiza la valía de la información antes de recopilarla.

LAS 5 V’S DEL BIG DATA:

VOLUMEN: La cantidad de datos con la que contamos cada vez es mayor, aumentando de manera exponencial. Estos datos los podemos obtener a partir de registros de ventas, datos de experimentos científicos, encuestas o datos obtenidos en el internet de las cosas

Cuando hablamos de grandes cantidades de datos lo hacemos de Terabytes o Petabytes. Gracias al Big Data conseguimos controlar este volumen tan alto de datos. 

VELOCIDAD: Una de las grandes ventajas que presenta el Big Data es la posibilidad de analizar los datos casi en tiempo real, ya que el flujo de entrada de datos es constante.

VARIEDAD: Existen datos estructurados, semi estructurados y no estructurados.

VERACIDAD: Hay que tener en cuenta que no todos los datos serán verídicos y algunos se habrán recolectado de forma incorrecta. Por eso, uno de los grandes desafíos del Big Data es detectar esos fallos y extraer únicamente los patrones reales.

VALOR DE LOS DATOS: Está muy relacionado con la veracidad ya que se analiza la valía de la información antes de recopilarla.

Según su estructura
Datos estructurados:
Son los que tienen longitud y formato, pudiendo ser ordenados y procesados de forma sencilla y almacenados en una base de datos. Por ejemplo, datos que proceden de un censo, operaciones bancarias, compras online, de encuestas, etc.
Datos no estructurados:
Datos sin formato específico, se presentan en bruto y carecen de organización, como son los archivos de procesadores de texto, correos electrónicos, comentarios en redes sociales, contenido multimedia (audio, vídeo, o imágenes) y hojas de cálculo
Datos semi estructurados:
Aunque tienen una cierta organización interna, no pueden encuadrarse dentro de los datos estructurados. Por ejemplo, una web cuenta con datos estructurados (HTML o los metadatos) y con datos no estructurados (texto, imágenes y vídeos)
Según su
procedencia
Web y redes sociales
Machine to machine
Biométricos
Generados por personas
Generados por empresas

PASOS DEL BiG DATA

Conseguir los datos

Para ello será necesario contar con información confiable, de calidad y que tenga sentido.

procesar los datos

Se tendrá que procesar la información puesto que vendrá en distintos formatos, sin seguir un orden.

almacenar los datos

Las bases de datos pueden tener diferentes estructuras y almacenar los datos de distintas formas (claves, nodos, variables, etc.) La manera en la que organizamos la información va a depender de cómo se utilizará.

analizar los datos

Este paso es fundamental. La forma en la que se analizan los datos va a depender de la base de datos que se haya elegido para almacenar.

¿CÓMO ALMACENAR LOS DATOS? 

Uno de los grandes desafíos a los que se enfrenta el Big Data es tratar de conseguir almacenamiento para los datos. Los sistemas tradicionales no son suficientes por lo que se establecen unas alternativas:

01
NUBE HÍBRIDA

Es un sistema más avanzado con respecto a la nube tradicional. Cuenta con un software propio y se puede acceder a la nube desde cualquier parte. Existen 3 tipos: 

  • Nube privada 
  • Nube pública 
  • Nube híbrida; cuenta con una parte privada y con otra compartida
02

MEMORIA FLASH

Almacena información desde un semiconductor.

03

I-SDS

Ayuda a organizar mejor y en menos tiempo gracias a infraestructuras que se gestionan mediante un software inteligente.

04

ALMACENAR ARCHIVOS EN FRÍO

Consiste en almacenar los datos que revisten una menor importancia en discos que sean más lentos para así liberar los discos que trabajan más rápido, donde almacenar los datos que más se utilizan 

01
NUBE HÍBRIDA

Es un sistema más avanzado con respecto a la nube tradicional. Cuenta con un software propio y se puede acceder a la nube desde cualquier parte. Existen 3 tipos: 

  • Nube privada 
  • Nube pública 
  • Nube híbrida; cuenta con una parte privada y con otra compartida
02
MEMORIA FLASH

Almacena información desde un semiconductor.

03
I-SDS

Ayuda a organizar mejor y en menos tiempo gracias a infraestructuras que se gestionan mediante un software inteligente.

04
ALMACENAR ARCHIVOS EN FRÍO

Consiste en almacenar los datos que revisten una menor importancia en discos que sean más lentos para así liberar los discos que trabajan más rápido, donde almacenar los datos que más se utilizan