Estudiar Big Data desde Cero este 2024

Estudiar Big Data desde Cero. Hadoop. Spark. Python. SQL. Qué es ETL. IA.

¿Quieres estudiar Big Data desde cero y no sabes por donde empezar? En este artículo dejaremos volcado el contenido y glosario relacionado con las palabras dentro del mundillo de Big Data.

En detalle, hablaremos sobre los tecnicismos a los que tendremos que adaptarnos en los nuevos puestos de trabajo del mundo del dato como lo son los Científicos del Dato, Analistas y Arquitectos del Dato, entre otros. También hablaremos sobre algunas características que se dan en los proyectos Big Data.

Este bloque de contenido es la continuación de Qué es el Big Data. Si aún no sabes lo que es y sientes curiosidad, te invitamos a que pases por ahí antes. Si quieres estudiar Big Data desde cero por tu cuenta, deberías echarle un vistazo a ese artículo.

Diccionario Big Data por temática

Definición de palabras Big Data para aprender desde cero

Glosario de Términos Big Data
Glosario de Términos Big Data.

Aprender Python

Aprender SQL

  • noSQL: Tencologías de Base de datos que no se basan en las estructuras de tipo relacionales o SQL.
  • Hadoop: Framework de desarrollo para soluciones Big Data donde construimos sistemas para resolver problemas de manera escalable y transversal. Descubre qué es Hadoop si ya sabes lo que es la programación en informática.

Que es Hadoop

  • Framework: Herramientas y programas para desarrollar nuevos programas o soluciones, son base para desarrollar proyectos.
  • IDE: Herramienta software para desarrollar software mediante la programación; existen IDEs para Python y para SQL, para cada lenguaje comunmente se utilizan distintas herramientas.
  • Paradigma: Se le llama al enfoque de resolver los retos en ese área, en detalle, para Big Data tenemos los paradigmas Batch Processing, Tiempo Real y Lambda.
  • ETL: Del Inglés Extract Transform Load. Hacen referencia a como debería construirse un proyecto de Big Data. Si quieres saber más y sus detalles, deberías leer debajo sobre qué es una ETL en Big Data:

Que es ETL

  • Business Intelligence: Rama de Big Data cuyo objetivo es hacer que una compañía explote los datos para optimizar procesos mediante Dashboard o paneles.

Qué es Business Intelligence

  • Dashboard: Hace referencia a un Cuadro de Mandos o Panel. Es una herramienta software empresarial donde de un simple vistazo ayuda a identificar y optimizar las decisiones más adecuadas a negocio.
  • KPI: Del inglés Key Perfomance Indicator. Es un indicador numérico donde gracias a esa información podemos aplicar estrategias y medir si funcionan, van mejor o peor para una compaía.
  • Cloud Computing: Hace referencia a la idea de que cada vez más las soluciones software están en otra parte y ejecutando desde la nube, de manera que permite escalar y crecer.
  • Sistema Distribuido: Hace referencia a que más de un equipo, máquina o servidor esté interconectado para dar servicio a la vez como un todo.
  • Clúster: Palabra muy comunmente utilizada para hablar de lo que es aparentemente un servidor pero realmente son varias máquinas a la vez actuando como un todo (un sistema distribuido).
  • Fundación Apache: Asociación de proyectos libres y gratuitos para uso libre. Todo lo que lleva delante Apache es gratis y puedes usarlo en tu proyecto sin coste alguno.
  • Software LowCode: Herramienta para desarrollar programas o soluciones sin necesidad de programar directamente.
  • Open Data o Datos Abiertos: Iniciativa de utilizar, promulgar y ofrecer datos ordenados para explotarlos después. Kaggle o los Datos del Gobierno son dos iniciativas ejemplo.
  • Open Source: Herramienta o tecnología abierta con el código fuente para que se utilice y modifique como se desea.

Como ves, existen muchas terminologías nuevas para estudiar por tu cuenta.

Tecnologías Big Data
Tecnologías Big Data

Tecnologías alrededor del ecosistema Big Data

Por otra parte, si quieres estudiar big data desde cero y por tu cuenta, te exponemos los nombres más comunes a cerca de las tecnologías Big Data:

Algunas de las tecnologías Big Data
Algunas de las tecnologías Big Data
  • Apache Kafka: Sistema Distribuido de comunicación Streaming o Tiempo Real para proyectos Big Data.
  • Apache Nifi: Sistema de automatización de flujo de datos y ETL lowCode.
  • Apache Spark: Framework o motor de trabajo para entornos con clústeres open-source. Es más potente que Hadoop, por eso, es una de las herramientas más utilizadas últimamente. Aprende Apache Spark qué es con nuestra guía justo debajo:

Apache Spark: Guía Completa

  • Databricks: Creado por los fundadores de Spark, plataforma web en la nube para trabajar con cuadernos y clústeres.
  • Apache Pig: Plataforma que utiliza consultas tipo SQL de alto nivel para lanzar trabajos MapReduce en Hadoop.
  • Apache Cassandra: Plataforma de Base de Datos noSQL tabular.
  • AWS: Amazon Web Services. Agrupa herramientas para desplegar servicios de sistemas en la nube.
  • Azure: Microsoft. Exactamente igual que AWS pero del ecosistema de Microsoft.
  • GCP: Google Cloud Platform. Identico a AWS o Azure pero servicios dados por Google.

La gran mayoría en Big Data tienen que ver con la palabra clave que ves más repetida en la foto: Hadoop

Que es Hadoop

Propiedades del Big Data: 4V o 5Vs

Las 4 Vs del Big Data

Para aprender desde cero big data, lo primero que solemos hacer es hablar de las 4V.

  • Volumen: La cantidad de información a procesar suele ser una característica en común de estos proyectos. Muy ligado a la escabilidad.
  • Variedad: Existen diversas fuentes de datos disponibles para construir un proyecto Big Data: una página web, CSV, Documentos Internos, PDF, una Base de Datos…
  • Velocidad: Con esta V incidimos en que la velocidad en la que la información se produce es muy elevada.
  • Veracidad: Esta propiedad hace referencia a que debemos fijarnos en la fiabilidad del dato y cuestionar si su procedencia, valor, … son confiables. La Calidad del Dato tiene mucho que ver aquí.

Las 5V de Big Data

Por último, cabe destacar que lo que realmente va a importar independientemente de qué características se dan o no dentro de un proyecto Big Data será su aplicación práctica y puesta en marcha para resolver un prolema y aportar valor a la compañía.

  • Valor: Esta última V hace alusión que la solución Big Data deberá generar beneficios o ahorrar costes; o bien añadir una ventaja competitiva muy superior al resto.

La nueva escuela habla de 8, 16 Vs… Y realmente Big Data va de aportar valor. Sino, no se acaba ejecutando en la vida real.

Big Data que es: su definición

Si quieres estudiar big data desde cero, es muy probable que te preguntes cual es la definición del Big Data. Sin embargo, tengo una mala noticia, no existe una definición específica y única de lo que significa Big Data. Por eso, déjame exponerte dos palabras clave que nos ayude a entender lo que son:

Big data es Transversal: Para cualquier sector

Los proyectos de Big Data son independendientes de la industria. Lo único que nos importa es tratar de aportar valor en el desarrollo de estos proyectos.

Ejemplos y casos de uso reales de Big Data

Big Data y Tecnologías
Big Data y Tecnologías

Veamos algunos ejemplos de diferentes sectores aplicando Big Data:

  • El Sector de la Pesca para conocer el estado de las capturas y la flota en tiempo real para vender mejor
  • La Banca para determinar si te conceden una hipoteca o no
  • Comercio para dar visibilidad y explotar la venta de nuestros productos. ¡Amazon lo hace!
  • Redes Sociales para saber qué hablan de nosotros o analizar la Competencia
  • Industria y Producción de piezas para medir el rendimiento del personal
  • Grandes Consultoras para decidir si te suben el sueldo para retener talento
  • Fútbol y medidores para conocer la evolución y motivación de las futuras promesas
  • Videojuegos: Sistemas de QA y Medidores de rendimiento para ajustar la dificultad
  • Sector Público: El sistema predictivo de Hacienda para saber si alguien hace trampas
  • Smart Cities & Ciudades Inteligentes para conocer donde se recicla más y mejorar los impuestos por zona

💡 Podríamos seguir con mil y un ejemplos prácticos super específicos. Como ves, nos vale para aplicar en cualquiera de los sectores siempre que haya muchos datos. Eso significa la palabra transversal.

Escalables y crecientes

Esta palabra es muy importante también en el mundillo Big Data. Hace referencia a que en muy poco tiempo un proyecto capaz de crecer y pasar de 1.000 usuarios al día a 1.000.000. Cuando escuchamos proyectos como Uber, Netflix o HBO, AirBnb o Google… se basan en esta idea.

Evolución de Big Data

Las tecnologías Big Data han crecido a una velocidad exponencial. Fíjate, desde 2012 a 2021 todo lo que ha cambiado en sólo 9 años:

Big Data en 2012

Big Data Landscape 2021
Tecnologías Big Data en 2012.

💡Las tecnologías Big Data evolucionan. Fíjate en sólo 10 años todo lo que se ha construido alrededor en Big Data…

Big Data a día de hoy (foto de 2021)

Tecnologías Big Data 2021
Tecnologías Big Data 2021

Es importante matizar que es imposible saberse todas las tecnologías. No lo intentes. Deberías poner el foco en comprender que todo está automatizado y programado con su propio enfoque. Por ello, lo mejor que puedes hacer si no sabes nada es comenzar a entender qué es programar en informática para después saltar a por Python (Automatización) y SQL (Bases de Datos), en ese orden.

Que los árboles no te impidan ver el bosque. Nos despedimos con un documental para hacerte pensar…

Aprender Big Data desde cero: Documental de la importancia de las nuevas empresas digitales.

Salidas en el Big Data

Tal y como comentabamos en el artículo de Qué es el Big Data, tenemos múltiples salidas. De ahí que queramos profundizar en un segundo nivel por una rama u otra.

¿Qué hace un Consultor Big Data?

Si sientes curiosidad por hacer cuadros de mando, paneles, gráficas… y te interesa el lado comercial o de negocio es muy probable que te interese este mundo:

BI: ¿Qué es?

¿Qué hace un Científico de Datos?

Si quieres saber como crear IAs es fundamental que empieces por este otro apartado:

¿Qué es un Científico de Datos?

Como empezar en Big Data

Como empezar en Big Data
Big Data y Tecnologías: Como empezar

Realmente, lo que necesitas es ponerte en marcha con la programación (¿No sabes lo que es programar?) y dominar Python (¿Por qué Python? 5 razones de peso). Si quieres empezar ya a programar ponte a ello:

Ejercicios Python

Por otra parte, los datos masificados significan estar almacenados en muchas partes. Pero las empresas que apuestan por proyectos Big Data son empresas con muchos datos, normalmente, almecenados en Bases de Datos. En detalle, suelen venir de Bases de Datos SQL (aprende qué es SQL). Si quieres practicarlos, aquí tienes una batería de ejercicios para practicar SQL por tu cuenta:

Ejercicios SQL

Preguntas más frecuentes

¿Cuánto cuesta estudiar Big Data?

Para estudiar Big Data puedes hacerlo por tu cuenta. Como siempre, existen cursos gratuitos del sepe y de pago online, existen másteres y carreras de Ciencias de Datos (muy nuevos de hecho). Depende de qué camino escojas, tendrás un abanico de precios.

¿Dónde puedo aprender Big Data?

Puedes aprender por tu cuenta, puedes pagar por un curso específico e intenso estilo bootcamp o bien hacer un Máster. Normalmente en formato presencial o remoto.

¿Qué es un curso de Big Data?

Un curso de Big Data de be ser formación que te ayuda a comprender los procesos y ejemplos reales de Big Data aplicadas en diversos sectores. Además, deberías aplicar tecnologías actuales y demandadas en la industria.

¡Haz clic para puntuar esta entrada!
(Votos: 6 Promedio: 5)
Escrito por:

Ibon Reinoso

Escribo sobre Programación, Big Data e IA + recomiendo productos tecnológicos para hacer que cualquiera aprenda por su cuenta y entre al mundo digital. Actualmente Arquitecto de Soluciones y Data Scientist Senior. Ex Director del Programa Nacional Big Data en España (+2.500 alumnos +20 ciudades). Creador del blog BigBayData.com.

Ver todas las entradas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *