Big Data y Hadoop

Entendemos como Big Data todos aquellos sistemas que están capacitados para la captura, almacenamiento, compartición, análisis y visualización de los mismos. La tendencia actual es que cada vez se generan más datos, ya que nos encaminamos a lo que podríamos denominar el “Internet de las Cosas” (IoT, por sus siglas en inglés) donde cualquier dispositivo está o estará conectado a internet y puede generar cantidad de información susceptible de ser almacenada y procesada.

La problemática surge cuando esa cantidad de información es tan grande que, por un lado el almacenamiento está en bases de datos tradicionales, y por otro el procesamiento con sistemas de data warehouse tradicional resultaría muy costoso y además de disponer de una escalabilidad limitada. Nos encontramos con mucha información la cual es difícil almacenar en un sistema tradicional de tablas basadas en SQL.

Debemos tener en cuenta además, que debido a su procedencia tan dispar, los datos no están sometidos a un esquema previo y suelen no estar estructurados.

Los clientes tienen la necesidad de poder trabajar y analizar dicha información con el menor coste posible y Flytech dispone de las soluciones adecuadas para dicho fin. Contamos con plataformas específicas dedicadas al almacenamiento de Big Data y plataformas para su análisis como Cloudera basadas en Apache Hadoop.

Hadoop

Apache Hadoop es una plataforma abierta con soporte para aplicaciones distribuidas. Nos permite trabajar con Big Data para su análisis basándose en un modelo de programación MapReduce, modelo utilizado y liberado por Google para el procesamiento paralelo sobre grandes volúmenes de datos. Además se complementa con un sistema de ficheros distribuido llamado HDFS para la gestión de la información sobre el cluster que computa los datos.
Hadoop está orientado al análisis de grandes volúmenes de datos, no tanto a la búsqueda de resultados en tiempo real.

Hadoop trabaja pensando en la utilización de servidores estándar y con arquitecturas de red sencillas gracias a la paralelización de los trabajos y el concepto de “share nothing”, donde los datos se replican cerca del lugar de procesamiento, no se utilizan grandes sistemas de almacenamiento para el proceso de los datos ni redes muy costosas, ya que el tráfico de datos se producen en momentos puntuales, tanto en la carga de los datos en el cluster como en la transmisión de los resultados previamente computados.

Flytech dispone de las herramientas, el hardware para la plataforma y el conocimiento para poder asesorar a los clientes cuál es la mejor solución para el aprovechamiento de Big Data. Contamos con soluciones para adaptarnos a los diferentes escenarios que nos podemos encontrar.

A diferencia de otras empresas, Flytech busca ofrecer una solución totalmente abierta, escalable e independiente a cualquier fabricante. De este modo pretendemos evitar soluciones paquetizadas a un precio elevado, y con suficiente amplitud para no generar relaciones de dependencia con nuestros clientes.

Podemos adaptarnos a soluciones en que la capacidad de procesamiento sea más crítica. Incluso ofrecemos soluciones donde el elemento más crítico es el manejo de ficheros de mayor capacidad, y no el número de procesos sobre los datos.

Las empresas son conscientes del potencial que les ofrecen la gran cantidad de datos de que disponen para poder mejorar la toma de decisiones, mejorar la oferta a sus clientes y mejorar la atención al cliente entre otras cosas. Por este motivo es imprescindible contar con un socio tecnológico como Flytech, para poder abordar ese nuevo reto que supone obtener rendimiento a uno de los activos más importantes como es la información, al menor coste posible.

Soluciones Supermicro para Hadoop

En la utilitzación del análisi de datos grandes, ya no es una cuestión de cuándo sino de cómo se usa. Las empresas que implementan soluciones Hadoop necesitan un alto rendimiento y una infraestructura escalable y fiable. Estas medidas hacen gastar una gran cantidad de recursos en busca de la mejor arquitectura y del mejor proveedor para hacerlo posible.

Las soluciones Supermicro de servidores para Hadoop están certificadas, tanto el almacenamiento, redes, software y servicios y la implementación de una infraestructura realmente escalable para Big Data.

Supermicro Hadoop Cluster Solution
(Up to 1.15 PB Storage and 9 TB Memory)

Beneficios

Diseñado para crecer en el futuro agregando servidores o más clusters

El mejor precio/rendimiento y precio/capacidad con las principales plataformas de servidores y almacenamiento

Arquitectura avanzada basada en las últimas tecnologías. e.g Xeon E5-2600 v3, SAS3, NYMe

Cluster Building Blocks

Data Fabric

Supermicro 10GbE Switch (1-2)
• 48 port 10G SFP+/10GBase-T

Management Network

Supermicro 1GbE Switch (1)

Management Node

Supermicro Intelligent Management
Supermicro SuperServer 1U UP Xeon

Hadoop Name Nodes

Supermicro SuperServer (3)
1U DP Xeon E5-2600 v3
Hardware RAID, Redundant Power

Hadoop Data Nodes

Supermicro TwinPro or FatTwin (34)
2U-4U Xeon E5-2600 v3, dual 10GbE

Supermicro SuperRack

42U rack con Metered PDUs

Incluye personalización completa de clúster, burn-in y testing, actualizaciones BIOS y Firmware. configuraciones de network, pre-instalación de las distribuiciones de Hadoop incluyendo Cloudera y Hortonworks

Supermicro Hadoop Cluster Solution Offerings

• PoC Cluster
• High Capacity Cluster
• IO Optimized Cluster
• High Density Compute Cluster

• Large Memory & Storage Cluster
• Balanced Cluster
• Large Memory Cluster

	PoC Cluster	High Capacity Cluster	IO Optimized Cluster	High Density Compute Cluster	Large Memory and Storage Cluster	Balanced Cluster	Large Memory/Dual 10G Cluster
Model / SKU	SRS-14TP08-HADP-01	SRS-42SG18-HADP-01	SRS-42SG18-HADP-02	SRS-42FT36-HADP-01	SRS-42FT36-HADP-02	SRS-42TP36-HADP-01	SRS-42TP34-HADP-02
Data Node	8	18	18	36	36	36	34
Form Factor	2U TwinPro	2U SSG		4U FatTwin		2U TwinPro
	2x E5-2630 v3	2x E5-2630 v3	2x E5-2650 v3	2x E5-2680 v3	2x E5-2650 v3	2x E5-2630 v3	2x E5-2650 v3
	64GB	64GB	128GB	128GB	256GB	64GB	256GB
	6x 3.5″ Bays	16x 3.5″ Bays	24x 2.5″ Bays	8x 3.5″ Bays	8x 3.5″ Bays	6x 3.5″ Bays	12x 2.5″ Bays
Total Data Drive	48	288	432	288	288	216	408
Total Cores	128	288	360	864	720	576	680
Total Memory	512GB	1152GB	2304GB	4608GB	9216GB	2304GB	8704GB
Total Storage	96TB (2TB)	1.15PB (4TB)	432TB (1TB)	576TB (2TB)	1.15PB (4TB)	432TB (2TB)	408TB (1TB)
Name Node	2x 1U WIO	3x 1U WIO	3x 1U WIO	3x 1U WIO	3x 1U WIO	3x 1U WIO	3x 1U WIO
Management Node	1x 1U WIO	1x 1U WIO	1x 1U WIO	1x 1U WIO	1x 1U WIO	1x 1U WIO	1x 1U WIO
Switches	1x 24PT GbE	1x 48PT GbE		1x 48PT GbE			1x 48PT GbE
Switches	1x 24PT GbE	1x 48PT 10GBase-T		1x 48PT10G SFP+			2x 48PT 10G SFP+
Cabinet (WxHxD)	14U 21.6×30.6×37.4	42U 23.5x 82.4x 48
PDU	1x2U 30A	2x 50A 208 3-Phase Metered PDU
PDU	208V Switched Single-Phase	2x 50A 208 3-Phase Metered PDU

Para obtener más información sobre los servidores de Supermicro, consulta nuestra sección especializada.