Visualiza nuestros
catálogos formativos:
-
Certificados de profesionalidad
- Gestión Empresarial y Recursos Humanos
- Formación, Educación y Orientación Laboral
- Servicios a la Comunidad
-
Sanidad, Dietética y Nutrición
- Dietética y Nutrición
- Acción Social y Ética
- Atención Domiciliaria
- Ciencias Sanitarias
- Fisioterapia
- Geriatría y Gerontología
- Laboratorios
- Medicina Alternativa / Naturopatía
- Odontología
- Óptica
- Psicología Infantil
- Radiología
- Transporte Sanitario
- Urgencias y Emergencias
- Veterinaria
- Enfermería
- Logopedia
- Psicoterapia y Psiquiatría
- Análisis Clínicos
- Primeros Auxilios
- Farmacia
- Gestión Sanitaria
- Personal Sanitario
- Sexología
- Electromedicina
- Trabajo Social
- Auxiliares de Enfermería
- Celador
- Ergonomía
- Idiomas
- Prevención de Riesgos Laborales, Calidad, Medioambiente, I D I
- Informática y Programación
- Inmobiliaria, Arquitectura e Interiorismo
- Energías Renovables y Agua
- Formación Profesional y Oficios
- Actividad física y del Deporte
- Seguridad y Vigilancia
- Hostelería y Turismo
- Agraria
- Imagen Personal
- Maquetación y Artes Gráficas
- Edificación, Obra Civil e Industrias Extractivas
- Comercio y Marketing
- Derecho y Aspectos Jurídicos
- Creación, Diseño y Edición Digital
- Industria Alimentaria y Restauración
- Transporte y Mantenimiento de Vehículos
- Instalación, Mantenimiento y Fabricación Mecánica
- Maquinaria
- Especialidades Formativas
- Conv. Turismo 2023
- Sanidad, Dietética y Nutrición
- Gestión Empresarial y Recursos Humanos
-
Formación, Educación y Orientación Laboral
- Escuela de Padres
- Orientación Laboral
- Formación E-learning
- Formación Permanente del Profesorado
- Formador de Formadores
- Pedagogía Terapéutica
- Educación
- Comedores Escolares
- Guarderías y Educación Infantil
- Lengua de Signos
- Logopedia
- Nuevas Tecnologías en Educación
- Transporte Escolar
- Bibliotecas
- Musicoterapia
- Servicios a la Comunidad
-
Sanidad, Dietética y Nutrición
- Dietética y Nutrición
- Manipulador de Alimentos
- Acción Social y Ética
- Atención Domiciliaria
- Ciencias Sanitarias
- Fisioterapia
- Geriatría y Gerontología
- Laboratorios
- Medicina Alternativa / Naturopatía
- Odontología
- Óptica
- Pediatría y Puericultura
- Psicología Infantil
- Quirófano
- Radiología
- Transporte Sanitario
- Urgencias y Emergencias
- Veterinaria
- Alergología
- Cirugía Ortopédica y Traumatología
- Dermatología
- Enfermería
- Endocrinología
- Neurología
- Otorrinolaringología
- Psicoterapia y Psiquiatría
- Homeopatía
- Análisis Clínicos
- Primeros Auxilios
- Microbiología
- Farmacia
- Gestión Sanitaria
- Personal Sanitario
- Sexología
- Terapia Ocupacional
- Biotecnología Sanitaria
- Electromedicina
- Trabajo Social
- Auxiliares de Enfermería
- Celador
- Ginecología
- Oncología
- Acupuntura
- Ergonomía
- Vendajes
- Vendajes Neuromusculares
- Idiomas
- Prevención de Riesgos Laborales, Calidad, Medioambiente, I D I
- Informática y Programación
- Inmobiliaria, Arquitectura e Interiorismo
- Energías Renovables y Agua
- Formación Profesional y Oficios
-
Actividad física y del Deporte
- Ocio y Tiempo Libre
- Medicina Deportiva
- Dirección de Instalaciones, Entidades Y Eventos Deportivos
- Educación Física
- Buceo
- Natación
- Caza
- Socorrismo Acuático
- Actividades acuáticas
- Fútbol
- Baloncesto
- Atletismo
- Pádel
- Balonmano
- Pilates
- Fitness
- Ciclismo
- Fitness musical
- Yoga
- Anatomía deportiva
- Ciclo Indoor
- Rehabilitación Deportiva
- Senderismo
- Gimnasia para Mayores
- Seguridad y Vigilancia
- Hostelería y Turismo
- Agraria
- Imagen Personal
- Maquetación y Artes Gráficas
- Edificación, Obra Civil e Industrias Extractivas
- Comercio y Marketing
- Derecho y Aspectos Jurídicos
- Creación, Diseño y Edición Digital
- Industria Alimentaria y Restauración
- Transporte y Mantenimiento de Vehículos
- Instalación, Mantenimiento y Fabricación Mecánica
- Maquinaria
- Oposiciones
Áreas Formativas
- Inicio >
- Certificados de profesionalidad>Informática y Programación>Bases de datos -BBDD->IFCT165PO BIG DATA PARA INGENIERÍAS
IFCT165PO BIG DATA PARA INGENIERÍAS
Ahora aprovéchate de un 20% de descuento en la versión online con la compra del material a distancia.
UNIDAD DIDÁCTICA 1. INTRODUCCIÓN
- ¿Qué es Big Data?
- Paradigmas de procesamiento en Big Data
- Las 8 V de Big Data (Volumen, Volatilidad, Variedad, Valor, Velocidad, Variabilidad, Veracidad, Validez).
UNIDAD DIDÁCTICA 2. BATCH PROCESSING
- MapReduce
- - Entorno MapReduce
- - Función Map y función Reduce
- - Flujo de datos
- - Características de MapReduce
- - Uso de MarpReduce
- - Ventajas e inconvenientes de Map Reduce
- - Ejercicios y ejemplos con MapReduce
- Hadoop
- - Entorno Hadoop
- - Almacenamiento: HDFS
- - Características de HDFS
- Apache Hadoop YARN
- - Funciones de Framework computacionales
- - YARN: El gestor de recursos del cluster
- - Conceptos de Apache Spark
- - Ejecución de Computational Frameworks en YARN
- - Exploración de las aplicaciones de YARN Applications a través de la Web UIs y de Shell
- Agregación de los logs de YARN
- - Configuración de Hadoop y registros de Daemon
- - Localizar configuraciones y aplicar cambios de configuración
- - Gestión de instancias de Role y añadir servicios
- - Configuración del servicio HDFS
- - Configuración de los logs de Hadoop Daemon
- - Configuración del servicio YARN
- Obtención de datos en HDFS
- - Ingestión de datos desde fuentes de recursos externos con Flume
- - Ingestión de datos desde bases de datos relacionales con Sqoop
- - REST Interfaces
- - Buenas prácticas para la importación de datos
- Planificación de un cluster Hadoop
- - Consideraciones generales de planificación
- - Elección correcta de Hardware
- - Opciones de Virtualización
- - Consideraciones de red
- - Configuración de nodos
- Instalación y configuración de Hive, Pig e Impala
- Clientes Hadoop incluidos en Hue
- - ¿Qué es un cliente de Hadoop?
- - Instalación y configuración de clientes Hadoop
- - Instalación y configuración de Hue
- - Autorizaciones y autenticación Hue
- Configuración avanzada de un cluster
- - Parámetros avanzados de configuración
- - Configuración de puertos Hadoop
- - Configuración de HDFS para la organización en rack
- - Configuración de HDFS para obtención de alta disponibilidad
- Seguridad Hadoop
- - ¿Por qué es importante la seguridad en Hadoop?
- - Conceptos del sistema de seguridad de Hadoop
- - Qué es Kerberos y cómo funciona
- - Securización de un clúster Hadoop Cluster con Kerberos
- - Otros conceptos de seguridad
- Gestión de recursos
- - Configuración de cgroups con Static Service Pools
- - El Fair Scheduler
- - Configuración de Dynamic Resource Pools
- - Configuraciones de CPU y memoria YARN
- - Impala Query Scheduling
- Mantenimiento de un cluster
- - Chequeo del estado de HDFS
- - Copia de datos entre clústers
- - Añadir y eliminar de nodos en el clúster
- - Rebalanceo del Cluster
- - Directorio de Snapshots
- - Actualización del clúster
- Solución de problemas y monitorización de un cluster
- - Sistema general de monitorización
- - Monitorización de clústers Hadoop
- - Solución de problemas habituales en el clúster de Hadoop
- - Errores habituales en la configuración
UNIDAD DIDÁCTICA 3. CIENCIA DE DATOS
- Data Science
- - Que hacen los data scientists, herramientas y procesos que utilizan
- - Aplicación de lo aprendido en módulo 2: Uso de Hue
- Apache Spark
- - Cómo trabaja Apache Spark y que capacidades nos ofrece
- - Que formatos de ficheros populares puede usar Spark para almacenar datos
- - Que lenguajes de programación puedes utilizar para trabajar con Spark
- - Cómo empezar a utilizar PySpark y Sparklyr
- - Cómo comparar PySpark y Sparklyr
- Machine Learning
- - ¿Qué es machine learning?
- - Algunos conceptos y términos importantes
- - Diferentes tipos de algoritmos
- - Librerías que se utilizan
- Apache Spark MLlib
- - Que capacidades de machine learning nos proporciona MLlib
- - Cómo crear, validar y utilizar modelos de machine learning con MLlib
- - Ejecución de trabajos Apache Spark
- - Cómo un trabajo de Spark se compone de una secuencia de transformaciones seguida de una acción
- - Cómo Spark utiliza la ejecución lenta
- - Cómo Spark divide los datos entre las particiones
- - Cómo ejecuta Spark operaciones limitadas y grandes
- - Cómo Spark ejecuta un trabajo en tareas y fases
UNIDAD DIDÁCTICA 4. DESARROLLO PARA SPARK Y HADOOP
- Datasets y Dataframes
- Operaciones en Dataframe
- Trabajar con Dataframes y Schemas
- Crear Dataframes a partir de Data Sources
- Guardar DataFrames en Data Sources
- DataFrame Schemas
- Rapidez y lentitud de ejecución
- Análisis de datos con consultas de DataFrame
- - Consultar DataFrames con el empleo de expresiones de columna
- - Agrupación y agregación de consultas
- - Unión de DataFrames
- RDD
- - Introducción RDD
- - RDD Data Sources
- - Creando y guardando RDDs
- - Operaciones con RDDs
- Transformación de datos con RDDs
- - Escritura y paso de funciones de transformación
- - Ejecuciones de transformación
- - Conversión entre RDDs y DataFrames
- Agregación de datos con Pair RDDs
- - Key-Valué Pair RDDs
- - Mal-Reduce
- - Otras operaciones Pair RDD
- Consulta y vistas de tablas con Spark SQL
- - Datasets y DataFrames
- - Creación de Datasets
- - Ejecución y guardado de Datasets
- - Operaciones de Dataset
- Creación, configuración y ejecución de aplicaciones Spark
- - Creación de una aplicación Spark
- - Compilar y ejecutar la aplicación
- - Application Deployment Mode
- - La interfaz Spark Application Web UI
- - Configuración de las propiedades de la aplicación
- Procesamiento distribuido
- - Apache Spark en un Clúster
- - Particiones RDD
- - Ejemplo: Particionamiento en consultas
- - Etapas y Tareas
- - Planificación de tareas de ejecución
- Persistencia de datos distribuidos
- - Persistencia en Datasets y DataFrames
- - Persistencia en niveles de almacenamiento
- - Visualización de RDDs persistentes
- Patrones comunes al procesar datos con Spark
- - Casos comunes de uso de Spark
- - Algoritmos de iteración en Apache Spark
- - Machine Learning
- Spark Streaming: Introducción a DStreams
- - Vista general de Spark Streaming
- - DStreams
- - Desarrollo de aplicaciones en Streaming
- Spark Streaming: procesamiento de múltiples lotes
- - Operaciones Multi-Batch
- - Time Slicing
- - Operaciones de estado
- - Operaciones Sliding Window
- - Vista previa: Streaming estructurado
- Apache Spark Streaming: Data Sources
- - Vista general de Streaming Data Source
- - Apache Flume y Apache Kafka Data Sources
- - Ejemplo: uso de un Kafka Direct Data Source
UNIDAD DIDÁCTICA 5. ANÁLISIS DE DATOS
- Introducción a Pig
- - ¿Qué es Pig?
- - Características de Pig
- - Casos de empleo de Pig
- - Interacción con Pig
- Análisis de datos básico con Pig
- - Sintaxis Pig Latin
- - Carga de datos
- - Tipos simples de datos
- - Definición de campos
- - Datos de salida
- - Vistas y esquemas
- - Filtrado y ordenación de datos
- - Funciones habituales
- Procesado de datos complejos con Pig
- - Formatos de almacenamiento
- - Tipos de datos complejos y anidados
- - Agrupaciones
- - Funciones predefinidas para datos complejos
- - Iteración de datos agrupados
- Operaciones con multiconjuntos de datos con Pig
- - Técnicas para combinar conjuntos de datos
- - Unión de conjuntos de datos con Pig
- - Conjunto de operaciones
- - División de conjuntos de datos
- Troubleshooting y optimización de Pig
- - Troubleshooting en Pig
- - Inicio de sesión
- - Empleo de UI web Hadoop
- - Muestreo de datos y depuración
- - Visión general del rendimiento
- - Comprensión del plan de ejecución
- - Consejos para mejorar el rendimiento de Jobs en Pig
- Introducción a Hive e Impala
- - ¿Qué es Hive?
- - ¿Qué es Impala?
- - ¿Por qué utilizar Hive e Impala?
- - Schema y almacenamiento de datos
- - Comparación entre Hive y bases de datos tradicionales
- - Casos de uso
- Consultas con Hive e Impala
- - Tablas y bases de datos
- - Sintaxis básica en consultas Hive e Impala
- - Tipos de datos
- - Empleo de Hue para ejecutar consultas
- - Empleo de Beeline (la Shell de Hive)
- - Empleo de la Shell de Impala
- Administración de datos
- - Almacenamiento de datos
- - Creación de bases de datos y tablas
- - Carga de datos
- - Alteración de bases de datos y tablas
- - Simplificación de consultas con vistas
- - Almacenamiento de resultados de consultas
- Almacenamiento y datos de rendimiento
- - Partición de tablas
- - Carga de datos en tablas particionadas
- - Cuándo utilizar el particionamiento
- - Elección de formato de almacenamiento
- - Gestión de metadatos
- - Control de acceso a datos
- Análisis de datos relacional con Hive e Impala
- - Unión de conjuntos de datos
- - Funciones predefinidas habituales
- - Agregaciones y Windowing
- Datos complejos con Hive e Impala
- - Datos complejos con Hive
- - Datos complejos con Impala
- Análisis de texto con Hive e Impala
- - Empleo de expresiones regulares
- - Procesamiento de texto con SerDes en Hive
- - Análisis de los sentimientos y N•Grams
- Optimización Hive
- - Rendimiento de las consultas
- - Bucketing
- - Indexación de datos
- - Hive en Spark
- Optimización de Impala
- - Ejecución de consultas
- - Mejorar el rendimiento de Impala
- Extendiendo Hive e Impala
- - Customizar SerDes y formatos de fichero en Hive
- - Transformación de datos con Scripts personalizados en Hive
- - Funciones definidas por el usuario
- - Consultas parametrizadas
- - Comparación entre MapReduce, Pig, Hive, Impala, y bases de datos relacionales. ¿Cuál elegir?
Productos relacionados
En la actualidad, en el mundo de la informática y las comunicaciones y dentro del área profesional de sistemas y telemática, más concretamente en la administración de bases de datos, es muy...
En la actualidad, en el mundo de la informática y las comunicaciones y dentro del área profesional de sistemas y telemática, más concretamente en la administración de bases de datos, es muy...
En la actualidad, en el mundo de la informática y las comunicaciones y dentro del área profesional de sistemas y telemática, más concretamente en la administración de bases de datos, es muy...
En la actualidad, en el mundo de la informática y las comunicaciones y dentro del área profesional de sistemas y telemática, más concretamente en la administración de bases de datos, es muy...
En la actualidad, en el mundo de la informática y las comunicaciones, es muy importante conocer los sistemas microinformáticos, dentro del área profesional de sistemas y telemática. Por ello, con...
En la actualidad, en el mundo de la informática y las comunicaciones y dentro del área profesional de sistemas y telemática, más concretamente en la administración de bases de datos, es muy...