21 de Junio- Data Scientist
Los científicos de datos son una nueva generación de expertos de datos analíticos que cuentan con habilidades técnicas para resolver problemas complejos, además de la curiosidad de explorar qué problemas se deben resolver. Son en parte matemáticos, en parte científicos informáticos y en parte observadores de tendencias.
Introducción a Big Data
Se refiere a un proceso que se usa cuando las
técnicas tradicionales de manipulación y extracción de datos no pueden
descubrir las perspectivas y el significado de los datos subyacentes. Los
motores de bases de datos relacionales no pueden procesar los datos
desestructurados, urgentes o simplemente muy grandes. Este tipo de datos
requiere un enfoque de procesamiento diferente llamado Big Data, que utiliza un
paralelismo a gran escala en hardware fácilmente disponible.
Los grandes datos reflejan el mundo cambiante
en el que vivimos. Cuanto más cambian las cosas, más cambios se capturan y
registran como datos. Tome el tiempo como un ejemplo. Para un
meteorólogo, la cantidad de datos recopilados en todo el mundo sobre las
condiciones locales es considerable. Los datos en su forma cruda no tienen
valor. Los datos deben procesarse para que sean valiosos. Sin
embargo, aquí radica el problema inherente del big data.
Conceptos generales de Big Data
Se puede describir en términos de desafíos de
administración de datos que, debido a un aumento de volumen, velocidad y
variedad de datos, no se pueden solucionar con las bases de datos
tradicionales. Aunque hay muchas definiciones de Big Data, la mayoría de ellas
incluyen el concepto de lo que se denomina comúnmente "las tres V" de
Big Data:
- Volumen: Va desde terabytes a petabytes de datos.
- Variedad: Incluye los datos de una amplia gama de orígenes y formatos.
- Velocidad: Cada vez más, los negocios tienen requisitos rigurosos desde el momento en que se generan los datos hasta que se entrega la información procesable a los usuarios.
Arquitectura de Big Data
En cualquier entorno de datos se necesita
alinear todos los recursos de TI con los objetivos del negocio. De manera
similar a cómo el propietario de una vivienda contrata a un arquitecto para
diseñar cómo encajarán todas las piezas, también los propietarios de los
negocios emplearán a personas que comprendan la arquitectura de datos para que
cumplan un rol similar en su domino. Pero en lugar de materiales de
construcción como madera, hormigón y comerciantes, una arquitectura de datos abarca
datos, software, hardware, redes, servicios en la nube, desarrolladores,
probadores, administradores del sistema, DBA y todos los demás recursos de una
infraestructura de TI.
Big Data y HPC
Permite a los científicos y a los ingenieros
solucionar problemas complejos que requieran un uso intenso de la computación.
Las aplicaciones de HPC suelen requerir un rendimiento alto de red, un
almacenamiento rápido, grandes cantidades de memoria, capacidades de
informática muy altas o todo lo anterior. AWS le permite aumentar la velocidad
de investigación y reducir el tiempo para obtener resultados, mediante la
ejecución de HPC en la nube y el escalado a una cantidad mayor de tareas
paralelas que serían prácticas en la mayoría de los entornos locales.
Amazon EMR
Es un servicio administrado que permite ejecutar Apache Hadoop y Spark de manera rápida, fácil y rentable para procesar grandes volúmenes de datos. también es compatible con herramientas de Hadoop eficaces y confiables, como Presto, Hive, Pig, HBase, entre otras.
En este
proyecto, implementará un clúster de Hadoop completamente funcional, listo para
analizar datos de registro en tan solo unos minutos. Primero, lanzará un
clúster de Amazon EMR y, a continuación, usará un script de HiveQL para
procesar datos de registro de muestra almacenados en un bucket de Amazon S3.
Apache Hadoop
Es un proyecto de software de código abierto
que se puede utilizar para procesar de forma eficaz conjuntos de datos de gran
tamaño. En lugar de utilizar un equipo grande para procesar y almacenar los
datos, Hadoop facilita la creación de clústeres de hardware de consumo para
analizar conjuntos de datos masivos en paralelo.



Comentarios
Publicar un comentario