Ir directamente a la información del producto
1 de 1

ACM Books

Una arquitectura para el procesamiento de datos rápido y general en grandes clústeres (libros ACM)

Una arquitectura para el procesamiento de datos rápido y general en grandes clústeres (libros ACM)

ISBN-13: 9781970001563
Precio habitual $64.66
Precio habitual Precio de oferta $64.66
Oferta Agotado
Los gastos de envío se calculan en la pantalla de pago.
En los últimos años se ha producido un cambio importante en los sistemas informáticos, a medida que los crecientes volúmenes de datos y las estancadas velocidades de los procesadores requieren cada vez más aplicaciones para escalar a clústeres. Hoy en día, innumerables fuentes de datos, desde Internet hasta operaciones comerciales e instrumentos científicos, producen flujos de datos grandes y valiosos. Sin embargo, las capacidades de procesamiento de las máquinas individuales no han estado a la altura del tamaño de los datos. Como resultado, las organizaciones necesitan cada vez más ampliar sus cálculos en clústeres. Al mismo tiempo, ha aumentado la velocidad y la sofisticación requeridas en el procesamiento de datos. Además de las consultas simples, se están volviendo comunes algoritmos complejos como el aprendizaje automático y el análisis de gráficos. Y además del procesamiento por lotes, se requiere un análisis de transmisión de datos en tiempo real para que las organizaciones puedan tomar medidas oportunas. Las plataformas informáticas futuras no sólo necesitarán ampliar las cargas de trabajo tradicionales, sino también admitir estas nuevas aplicaciones. Este libro, una versión revisada de la tesis ganadora del Premio de Disertación ACM 2014, propone una arquitectura para sistemas informáticos en clúster que puede abordar cargas de trabajo de procesamiento de datos emergentes a escala. Mientras que los primeros sistemas informáticos de clúster, como MapReduce, manejaban el procesamiento por lotes, nuestra arquitectura también permite la transmisión y consultas interactivas, al tiempo que mantiene la escalabilidad y la tolerancia a fallas de MapReduce. Y mientras que la mayoría de los sistemas implementados solo admiten cálculos simples de un solo paso (por ejemplo, consultas SQL), el nuestro también se extiende a los algoritmos de múltiples pasos necesarios para análisis complejos como el aprendizaje automático. Finalmente, a diferencia de los sistemas especializados propuestos para algunas de estas cargas de trabajo, nuestra arquitectura permite que estos cálculos se combinen, lo que permite nuevas aplicaciones ricas que mezclan, por ejemplo, transmisión y procesamiento por lotes. Logramos estos resultados a través de una extensión simple de MapReduce que agrega primitivas para compartir datos, llamada Conjuntos de datos distribuidos resistentes (RDD). Demostramos que esto es suficiente para capturar una amplia gama de cargas de trabajo. Implementamos RDD en el sistema Spark de código abierto, que evaluamos utilizando cargas de trabajo sintéticas y reales. Spark iguala o supera el rendimiento de los sistemas especializados en muchos dominios, al tiempo que ofrece propiedades de tolerancia a fallas más sólidas y permite combinar estas cargas de trabajo. Finalmente, examinamos la generalidad de los RDD tanto desde una perspectiva de modelado teórico como desde una perspectiva de sistemas. Esta versión de la disertación realiza correcciones a lo largo del texto y agrega una nueva sección sobre la evolución de Apache Spark en la industria desde 2014. Además, se han agregado edición, formato y enlaces para las referencias.

  • | Autor: Matei Zaharia
  • | Editorial: Libros ACM
  • | Fecha de publicación: 01 de mayo de 2016
  • | Número de páginas: 142 páginas
  • | Idioma: inglés
  • | Encuadernación: Tapa blanda
  • | ISBN-10: 1970001569
  • | ISBN-13: 9781970001563
Ver todos los detalles