Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第18页

汽车之家离线计算平台的演进之路

汽车之家是国内领先的汽车媒体,它以提供全面的汽车资讯和服务为目标,为广大用户提供了一平台,包括汽车报价、汽车图片、汽车论坛、汽车选购、汽车资讯等服务。如今,汽车之家已成为国内最大的汽车生活服务平台之一。然而,随着移动互联网、云计算和大数据等...

Kafka 阅读(269)

Apache Spark Jobs 性能调优

Apache Spark Jobs 性能调优 Apache Spark是一个强大的开源分布式计算框架,用于处理大规模数据集的计算。它可以在大量节点上运行,并且可以快速处理大量数据。但是,当你运行大规模的模型和数据集时,你可能会遇到性能瓶颈。...

Spark 阅读(349)

Apache Hadoop 基础设施容器化在 Uber 的实践

Apache Hadoop是一个开源的分布式计算框架,它通过将大规模数据分布在多个节点上,来执行并行计算任务。容器化是一种将应用程序和所需的运行环境封装在一个容器中的技术,容器化可以为应用程序提供更加轻量级的部署方式和更高的环境一致性保证。...

Hadoop 阅读(275)

Spark之Task原理分析

什么是Spark? Apache Spark是一个开源的通用内存并行计算引擎,可以用于大规模数据处理。它是Apache Hadoop生态系统中可伸缩性最好的一部分。Spark使得执行批处理、流处理和机器学习等任务更加容易。 在Spark中,...

Spark 阅读(411)

Apache Kafka 原理与架构

Apache Kafka 是一个高可扩展、分布式、基于发布订阅的消息系统。其主要原理是将所有的消息封装在一个 Record 中,然后以 Topic 为单位进行批量发送。Kafka 以可靠性、高吞吐量、性能强劲,支持在线扩展、持久化存储和高并...

Kafka 阅读(303)

Hadoop2.2.0中HDFS的高可用性实现原理

Hadoop2.2.0中HDFS的高可用性实现原理主要是通过Hadoop分布式存储技术中的NameNode节点和Secondary NameNode节点实现的。在Hadoop分布式存储技术中,NameNode节点是存储文件系统的节点,它存储...

Hadoop 阅读(301)