Big Data con Apache Spark usando R

Capacitador

Hugo Porras, MSc.

Ingeniero en ciencias económicas y financieras de la Escuela Politécnica Nacional y máster en inteligencia artificial de la Universidad Internacional de la Rioja. Tiene 4 años de experiencia como científico de datos y 6 en el área de investigación.
Actualmente se desempeña como Científico de Datos Senior en Banco Pichincha. Trabaja además como consultor e investigador independiente en temas relacionados a finanzas de bienes raíces, economía del bienestar, economía geográfica e IA aplicada a las ciencias sociales.

Categorías: , ,

El ingrediente más importante del análisis de datos siempre son los datos. Cada vez que visitamos una página web, miles de datos son almacenados: qué se nos mostró, qué clickeamos, cuánto tiempo estuvimos en la página, dónde estaba el puntero del ratón, etc. Así también lo que no hacemos, genera información (como cuando ignoramos un artículo sugerido). Toda esta inundación de información exigen la existencia herramientas de analítica para grandes volúmenes de datos, de las cuales, muchas son ”gratis”.

Lenguajes como R y Python con miles de miles de librerías han democratizado el análisis de datos. Pero para procesar grandes volúmenes de datos, estos necesitan funcionar sobre arquitecturas distribuidas (escalamiento horizontal), dado que el escalamiento vertical o añadir más poder a una máquina puede volverse muy costoso (en términos costo beneficio). Cuando trabajemos con dicha arquitectura necesitaremos software que pueda distribuir el trabajo a varias máquinas. Allí entra en escena Apache Spark, el cual puede ser usado en R a través de sparklyr.

En este curso aprenderás sobre la computación distribuida y como ésta (basada en Spark) nos ayuda a llevar nuestros análisis a gran escala, desde la carga, hasta el modelamiento de los datos.

Contenido

  • Introducción: Spark, R, tidyverse y sparklyr
  • Prerrequisitos, conexiones y uso de spark
  • Lectura y escritura de datos
  • Procesamiento y visualización de datos
  • Análisis supervisado con MLlib
  • Análisis no supervisado con MLlib
  • Análisis exploratorio e ingeniería de variables
  • Pipelines
  • Optimización de hiperparámetros
  • Planes de validación cruzada
  • Extensiones