Estudiar Big Data desde Cero este 2023

Estudiar Big Data desde Cero este 2023

Estudiar Big Data desde Cero. Hadoop. Spark. Python. SQL. Qué es ETL. IA.

¿Quieres estudiar Big Data desde cero y no sabes por donde empezar? En este artículo dejaremos volcado el contenido y glosario relacionado con las palabras dentro del mundillo de Big Data.

En detalle, hablaremos sobre los tecnicismos a los que tendremos que adaptarnos en los nuevos puestos de trabajo del mundo del dato como lo son los Científicos del Dato, Analistas y Arquitectos del Dato, entre otros. También hablaremos sobre algunas características que se dan en los proyectos Big Data.

Este bloque de contenido es la continuación de Qué es el Big Data. Si aún no sabes lo que es y sientes curiosidad, te invitamos a que pases por ahí antes. Si quieres estudiar Big Data desde cero por tu cuenta, deberías echarle un vistazo a ese artículo.

Diccionario Big Data por temática

Definición de palabras Big Data para aprender desde cero

Glosario de Términos Big Data
Glosario de Términos Big Data.
  • Python: Lenguaje de programación muy útil para empezar a programar y hacer Big Data. ¿Quieres saber más?

Aprender Python

  • SQL:Lenguaje de programación para acceso y consulta de datos en Bases de Datos; muy utilizado en la industria digital y en concreto es una materia prima habitual en proyectos de Big Data.

Aprender SQL

  • noSQL: Tencologías de Base de datos que no se basan en las estructuras de tipo relacionales o SQL.
  • Hadoop: Framework de desarrollo para soluciones Big Data donde construimos sistemas para resolver problemas de manera escalable y transversal.

Que es Hadoop

  • Framework: Herramientas y programas para desarrollar nuevos programas o soluciones, son base para desarrollar proyectos.
  • IDE: Herramienta software para desarrollar software mediante la programación; existen IDEs para Python y para SQL por ejemplo.
  • Paradigma: Se le llama al enfoque de resolver los retos en ese área, en detalle, para Big Data tenemos los paradigmas Batch Processing, Tiempo Real y Lambda.
  • ETL: Del Inglés Extract Transform Load. Hacen referencia a como debería construirse un proyecto de Big Data.

Que es ETL

  • Business Intelligence: Rama de Big Data cuyo objetivo es hacer que una compañía explote los datos para optimizar procesos mediante Dashboard o paneles.

Qué es Business Intelligence

  • Dashboard: Hace referencia a un Cuadro de Mandos o Panel. Es una herramienta software empresarial donde de un simple vistazo ayuda a identificar y optimizar las decisiones más adecuadas a negocio.
  • KPI: Del inglés Key Perfomance Indicator. Es un indicador numérico donde gracias a esa información podemos aplicar estrategias y medir si funcionan, van mejor o peor para una compaía.
  • Cloud Computing: Hace referencia a la idea de que cada vez más las soluciones software están en otra parte y ejecutando desde la nube, de manera que permite escalar y crecer.
  • Sistema Distribuido: Hace referencia a que más de un equipo, máquina o servidor esté interconectado para dar servicio a la vez como un todo.
  • Clúster: Palabra muy comunmente utilizada para hablar de lo que es aparentemente un servidor pero realmente son varias máquinas a la vez actuando como un todo (un sistema distribuido).
  • Fundación Apache: Asociación de proyectos libres y gratuitos para uso libre. Todo lo que lleva delante Apache es gratis y puedes usarlo en tu proyecto sin coste alguno.
  • Software LowCode: Herramienta para desarrollar programas o soluciones sin necesidad de programar directamente.
  • Open Data o Datos Abiertos: Iniciativa de utilizar, promulgar y ofrecer datos ordenados para explotarlos después. Kaggle o los Datos del Gobierno son dos iniciativas ejemplo.
  • Open Source: Herramienta o tecnología abierta con el código fuente para que se utilice y modifique como se desea.

Como ves, existen muchas terminologías nuevas para estudiar por tu cuenta.

Tecnologías Big Data
Tecnologías Big Data

Tecnologías alrededor del ecosistema Big Data

Por otra parte, si quieres estudiar big data desde cero y por tu cuenta, te exponemos los nombres más comunes a cerca de las tecnologías Big Data:

Algunas de las tecnologías Big Data
Algunas de las tecnologías Big Data
  • Apache Kafka: Sistema Distribuido de comunicación Streaming o Tiempo Real para proyectos Big Data.
  • Apache Nifi: Sistema de automatización de flujo de datos y ETL lowCode.
  • Apache Spark: Framework o motor de trabajo para entornos con clústeres open-source.

Apache Spark: Guía Completa

  • Databricks: Creado por los fundadores de Spark, plataforma web en la nube para trabajar con cuadernos y clústeres.
  • Apache Pig: Plataforma que utiliza consultas tipo SQL de alto nivel para lanzar trabajos MapReduce en Hadoop.
  • Apache Cassandra: Plataforma de Base de Datos noSQL tabular.
  • AWS: Amazon Web Services. Agrupa herramientas para desplegar servicios de sistemas en la nube.
  • Azure: Microsoft. Exactamente igual que AWS pero del ecosistema de Microsoft.
  • GCP: Google Cloud Platform. Identico a AWS o Azure pero servicios dados por Google.

La gran mayoría en Big Data tienen que ver con la palabra clave que ves más repetida en la foto: Hadoop

Que es Hadoop

Propiedades del Big Data: 4V o 5Vs

Las 4 Vs del Big Data

Para aprender desde cero big data, lo primero que solemos hacer es hablar de las 4V.

  • Volumen: La cantidad de información a procesar suele ser una característica en común de estos proyectos. Muy ligado a la escabilidad.
  • Variedad: Existen diversas fuentes de datos disponibles para construir un proyecto Big Data: una página web, CSV, Documentos Internos, PDF, una Base de Datos…
  • Velocidad: Con esta V incidimos en que la velocidad en la que la información se produce es muy elevada.
  • Veracidad: Esta propiedad hace referencia a que debemos fijarnos en la fiabilidad del dato y cuestionar si su procedencia, valor, … son confiables. La Calidad del Dato tiene mucho que ver aquí.

Las 5V de Big Data

Por último, cabe destacar que lo que realmente va a importar independientemente de qué características se dan o no dentro de un proyecto Big Data será su aplicación práctica y puesta en marcha para resolver un prolema y aportar valor a la compañía.

  • Valor: Esta última V hace alusión que la solución Big Data deberá generar beneficios o ahorrar costes; o bien añadir una ventaja competitiva muy superior al resto.

La nueva escuela habla de 8, 16 Vs… Y realmente Big Data va de aportar valor. Sino, no se acaba ejecutando en la vida real.

Big Data que es: su definición

Si quieres estudiar big data desde cero, es muy probable que te preguntes cual es la definición del Big Data. Sin embargo, tengo una mala noticia, no existe una definición específica y única de lo que significa Big Data. Por eso, déjame exponerte dos palabras clave que nos ayude a entender lo que son:

Big data es Transversal: Para cualquier sector

Los proyectos de Big Data son independendientes de la industria. Lo único que nos importa es tratar de aportar valor en el desarrollo de estos proyectos.

Ejemplos y casos de uso reales de Big Data

Big Data y Tecnologías
Big Data y Tecnologías

Veamos algunos ejemplos de diferentes sectores aplicando Big Data:

  • El Sector de la Pesca para conocer el estado de las capturas y la flota en tiempo real para vender mejor
  • La Banca para determinar si te conceden una hipoteca o no
  • Comercio para dar visibilidad y explotar la venta de nuestros productos. ¡Amazon lo hace!
  • Redes Sociales para saber qué hablan de nosotros o analizar la Competencia
  • Industria y Producción de piezas para medir el rendimiento del personal
  • Grandes Consultoras para decidir si te suben el sueldo para retener talento
  • Fútbol y medidores para conocer la evolución y motivación de las futuras promesas
  • Videojuegos: Sistemas de QA y Medidores de rendimiento para ajustar la dificultad
  • Sector Público: El sistema predictivo de Hacienda para saber si alguien hace trampas
  • Smart Cities & Ciudades Inteligentes para conocer donde se recicla más y mejorar los impuestos por zona

💡 Podríamos seguir con mil y un ejemplos prácticos super específicos. Como ves, nos vale para aplicar en cualquiera de los sectores siempre que haya muchos datos. Eso significa la palabra transversal.

Escalables y crecientes

Esta palabra es muy importante también en el mundillo Big Data. Hace referencia a que en muy poco tiempo un proyecto capaz de crecer y pasar de 1.000 usuarios al día a 1.000.000. Cuando escuchamos proyectos como Uber, Netflix o HBO, AirBnb o Google… se basan en esta idea.

Evolución de Big Data

Las tecnologías Big Data han crecido a una velocidad exponencial. Fíjate, desde 2012 a 2021 todo lo que ha cambiado en sólo 9 años:

Big Data en 2012

Big Data Landscape 2021
Tecnologías Big Data en 2012.

Si quieres saber más, te recomiendo investigar el significado de ETL, clave en estos grandes proyectos masivos:

¿Qué es una ETL?

Big Data a día de hoy (foto de 2021)

Tecnologías Big Data 2021
Tecnologías Big Data 2021

Es importante matizar que es imposible saberse todas las tecnologías. No lo intentes. Y como decimos por aquí en este mundillo…

Que los árboles no te impidan ver el bosque. Nos despedimos con un documental para hacerte pensar…

Aprender Big Data desde cero: Documental de la importancia de las nuevas empresas digitales.

Salidas en el Big Data

Tal y como comentabamos en el artículo de Qué es el Big Data, tenemos múltiples salidas. De ahí que queramos profundizar en un segundo nivel por una rama u otra.

¿Qué hace un Consultor Big Data?

Si sientes curiosidad por hacer cuadros de mando, paneles, gráficas… y te interesa el lado comercial o de negocio es muy probable que te interese este mundo:

BI: ¿Qué es?

¿Qué hace un Científico de Datos?

Si quieres saber como crear IAs es fundamental que empieces por este otro apartado:

¿Qué es un Científico de Datos?

Como empezar en Big Data

Como empezar en Big Data
Big Data y Tecnologías: Como empezar

Realmente, lo que necesitas es ponerte en marcha con la programación (¿No sabes lo que es programar?) y dominar Python (¿Por qué Python? 5 razones de peso). Si quieres empezar ya a programar ponte a ello:

Ejercicios Python

Por otra parte, los datos masificados significan estar almacenados en muchas partes. Pero las empresas que apuestan por proyectos Big Data son empresas con muchos datos, normalmente, almecenados en Bases de Datos. En detalle, suelen venir de Bases de Datos SQL (aprende qué es SQL). Si quieres practicarlos, aquí tienes una batería de ejercicios para practicar SQL por tu cuenta:

Ejercicios SQL

Preguntas más frecuentes

¿Cuánto cuesta estudiar Big Data?

Para estudiar Big Data puedes hacerlo por tu cuenta. Como siempre, existen cursos gratuitos del sepe y de pago online, existen másteres y carreras de Ciencias de Datos (muy nuevos de hecho). Depende de qué camino escojas, tendrás un abanico de precios.

¿Dónde puedo aprender Big Data?

Puedes aprender por tu cuenta, puedes pagar por un curso específico e intenso estilo bootcamp o bien hacer un Máster. Normalmente en formato presencial o remoto.

¿Qué es un curso de Big Data?

Un curso de Big Data de be ser formación que te ayuda a comprender los procesos y ejemplos reales de Big Data aplicadas en diversos sectores. Además, deberías aplicar tecnologías actuales y demandadas en la industria.

¡Haz clic para puntuar esta entrada!
(Votos: 2 Promedio: 5)
Escrito por:

Ibon Reinoso

He formado más de 1.000 alumnos en toda España en distintas ciudades. Programador desde los 12 años y con dos máster (Big Data e Informática). Co-fundador de startup de IA y actual Director & docente del Programa Nacional Big Data. Me encanta hablar de Programación y Bases de Datos, Inteligencia Artificial, Big Data y en general, todo lo necesario para dominar el mundo de los Datos.

Ver todas las entradas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *