Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第4页

Kafka设计解析:Kafka Consumer解析

Kafka是一个高性能的分布式消息队列系统,它的消费者模型具有强大的灵活性和可扩展性,并且支持多种数据流处理模式。本文将对Kafka Consumer进行解析,探讨其设计原理、消费模式和实现方式等方面的内容。 设计原理 Kafka Cons...

Kafka 阅读(99)

大规模 Hadoop 升级在 Pinterest 的实践

Pinterest是一个社交媒体网站,用户可以通过网站或移动应用程序收集,保存和分享各种主题的图像和其他媒体。由于网站的增长,Pinterest需要一个可扩展的数据平台来满足日益增长的数据存储和处理需求。Hadoop是一个流行的开源平台,它...

Hadoop 阅读(139)

Spark SQL利器:cacheTable/uncacheTable

Spark SQL利器:cacheTable/uncacheTable 在大数据处理中,SparkSQL 是一个非常强大的工具。当处理数据时,我们需要尽可能地减少读取磁盘数据的时间,因为磁盘通常是一个系统中最慢的组件之一。 这就是为什么在S...

Spark 阅读(152)

通过编程方式获取Kafka中Topic的Metadata信息

在使用 Kafka 进行消息传递时,经常需要获取队列Topic中的元数据信息。通过编程方式获取Kafka中Topic的Metadata信息是非常重要的,这样可以帮助您更好地理解和处理消息。本文介绍了如何通过编程方式获取 Kafka 中 To...

Kafka 阅读(113)

在Shell中,我们可以使用hadoop fs命令来访问Hadoop分布式文件系统(HDFS)。要测试文件或目录是否存在,我们可以使用hadoop fs -test命令。 hadoop fs -test -d $file_path:测试目录...

Hadoop 阅读(100)

Kafka分布式集群部署手册(一)

在现代的应用程序架构中,分布式技术已经变得非常重要。随着数据量和复杂性的不断增加,分布式系统可以帮助我们分担负载,提高性能和可靠性。Kafka是一种分布式消息传递系统,它可以协助我们处理高吞吐量的消息,使得我们能够轻松地在多个应用程序之间传...

Kafka 阅读(133)

Hive0.11.0的新特性

Hive是基于Hadoop生态系统的数据仓库系统,是一个分布式的数据仓库解决方案,可以对存储在Hadoop分布式文件系统中的大规模数据进行处理和分析。Hive0.11.0是Hive的一个新版本,它新增了许多功能以提高用户的使用体验,本文将详...

Hadoop 阅读(136)

Spark常用函数讲解之Action操作 在进行 Spark 编程时,常常需要使用到 Action 操作。Action 操作是触发 Spark 作业执行的操作,当执行 Action 操作时,Spark 会根据依赖关系生成一个任务 DAG,然...

Spark 阅读(119)