21 de Junio- Data Scientist

 Los científicos de datos son una nueva generación de expertos de datos analíticos que cuentan con habilidades técnicas para resolver problemas complejos, además de la curiosidad de explorar qué problemas se deben resolver. Son en parte matemáticos, en parte científicos informáticos y en parte observadores de tendencias.

Introducción a Big Data

Se refiere a un proceso que se usa cuando las técnicas tradicionales de manipulación y extracción de datos no pueden descubrir las perspectivas y el significado de los datos subyacentes. Los motores de bases de datos relacionales no pueden procesar los datos desestructurados, urgentes o simplemente muy grandes. Este tipo de datos requiere un enfoque de procesamiento diferente llamado Big Data, que utiliza un paralelismo a gran escala en hardware fácilmente disponible.


Los grandes datos reflejan el mundo cambiante en el que vivimos. Cuanto más cambian las cosas, más cambios se capturan y registran como datos. Tome el tiempo como un ejemplo. Para un meteorólogo, la cantidad de datos recopilados en todo el mundo sobre las condiciones locales es considerable. Los datos en su forma cruda no tienen valor. Los datos deben procesarse para que sean valiosos. Sin embargo, aquí radica el problema inherente del big data.

Conceptos generales de Big Data

Se puede describir en términos de desafíos de administración de datos que, debido a un aumento de volumen, velocidad y variedad de datos, no se pueden solucionar con las bases de datos tradicionales. Aunque hay muchas definiciones de Big Data, la mayoría de ellas incluyen el concepto de lo que se denomina comúnmente "las tres V" de Big Data:

  • Volumen: Va desde terabytes a petabytes de datos.
  • Variedad: Incluye los datos de una amplia gama de orígenes y formatos.
  • Velocidad: Cada vez más, los negocios tienen requisitos rigurosos desde el momento en que se generan los datos hasta que se entrega la información procesable a los usuarios. 

Arquitectura de Big Data

En cualquier entorno de datos se necesita alinear todos los recursos de TI con los objetivos del negocio. De manera similar a cómo el propietario de una vivienda contrata a un arquitecto para diseñar cómo encajarán todas las piezas, también los propietarios de los negocios emplearán a personas que comprendan la arquitectura de datos para que cumplan un rol similar en su domino. Pero en lugar de materiales de construcción como madera, hormigón y comerciantes, una arquitectura de datos abarca datos, software, hardware, redes, servicios en la nube, desarrolladores, probadores, administradores del sistema, DBA y todos los demás recursos de una infraestructura de TI.

Big Data y HPC

Permite a los científicos y a los ingenieros solucionar problemas complejos que requieran un uso intenso de la computación. Las aplicaciones de HPC suelen requerir un rendimiento alto de red, un almacenamiento rápido, grandes cantidades de memoria, capacidades de informática muy altas o todo lo anterior. AWS le permite aumentar la velocidad de investigación y reducir el tiempo para obtener resultados, mediante la ejecución de HPC en la nube y el escalado a una cantidad mayor de tareas paralelas que serían prácticas en la mayoría de los entornos locales.

Amazon EMR

Es un servicio administrado que permite ejecutar Apache Hadoop y Spark de manera rápida, fácil y rentable para procesar grandes volúmenes de datos. también es compatible con herramientas de Hadoop eficaces y confiables, como Presto, Hive, Pig, HBase, entre otras.


 En este proyecto, implementará un clúster de Hadoop completamente funcional, listo para analizar datos de registro en tan solo unos minutos. Primero, lanzará un clúster de Amazon EMR y, a continuación, usará un script de HiveQL para procesar datos de registro de muestra almacenados en un bucket de Amazon S3.

Apache Hadoop

Es un proyecto de software de código abierto que se puede utilizar para procesar de forma eficaz conjuntos de datos de gran tamaño. En lugar de utilizar un equipo grande para procesar y almacenar los datos, Hadoop facilita la creación de clústeres de hardware de consumo para analizar conjuntos de datos masivos en paralelo.

Contiene numerosas aplicaciones y motores de ejecución, lo que aporta una variedad de herramientas para satisfacer las necesidades de sus cargas de trabajo de análisis. 

Comentarios

Entradas populares de este blog

29 de Julio - Red continuación