Big Data con Apache Spark usando R

El ingrediente más importante del análisis de datos siempre son los datos. Cada vez que visitamos una página web, miles de datos son almacenados: qué se nos mostró, qué clickeamos, cuánto tiempo estuvimos en la página, dónde estaba el puntero del ratón, etc. Así también lo que no hacemos, genera información (como cuando ignoramos un artículo sugerido). Toda esta inundación de información exigen la existencia herramientas de analítica para grandes volúmenes de datos, de las cuales, muchas son ”gratis”.

Lenguajes como R y Python con miles de miles de librerías han democratizado el análisis de datos. Pero para procesar grandes volúmenes de datos, estos necesitan funcionar sobre arquitecturas distribuidas (escalamiento horizontal), dado que el escalamiento vertical o añadir más poder a una máquina puede volverse muy costoso (en términos costo beneficio). Cuando trabajemos con dicha arquitectura necesitaremos software que pueda distribuir el trabajo a varias máquinas. Allí entra en escena Apache Spark, el cual puede ser usado en R a través de sparklyr.

En este curso aprenderás sobre la computación distribuida y como ésta (basada en Spark) nos ayuda a llevar nuestros análisis a gran escala, desde la carga, hasta el modelamiento de los datos.

Contenido

Introducción: Spark, R, tidyverse y sparklyr
Prerrequisitos, conexiones y uso de spark
Lectura y escritura de datos
Procesamiento y visualización de datos
Análisis supervisado con MLlib
Análisis no supervisado con MLlib
Análisis exploratorio e ingeniería de variables
Pipelines
Optimización de hiperparámetros
Planes de validación cruzada
Extensiones

Capacitador

Hugo Porras, MSc.

Contenido

Big Data con Apache Spark usando R

Capacitador

Hugo Porras, MSc.

Contenido

Productos relacionados

Manejo datos y reportería con R de cero a ninja

Análisis de redes sociales usando PLN, Machine Learning, Bases de datos

Programa Experto en Forecasting Aplicado