Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第10页

Spark的map、flatMap、mapToPair 在Spark中,map、flatMap、mapToPair是三个非常常用的转换操作。他们都是针对RDD的操作,通过将函数应用于RDD中的每个元素来生成一个新的RDD。 map map是...

Spark 阅读(283)

Apache Kafka监控之Kafka Web Console

Kafka Web Console是一个基于Web的开源工具,用于监控和管理Apache Kafka集群。它提供了易于使用的用户界面,可让管理员查看Kafka集群的有关信息,包括主题,分区和代理以及其他关键性能指标。 以下是Kafka We...

Kafka 阅读(267)

Hadoop是一个开源的分布式系统框架,用于大规模数据的处理、存储和分析。它的核心是Hadoop Distributed File System(HDFS)和MapReduce计算模型。由于其高可靠性、并行处理、扩展性和可靠性方面的优势,它...

Hadoop 阅读(232)

Spark Streaming编程指南 什么是Spark Streaming Spark Streaming是一个流处理引擎,能够让我们快速处理实时数据流。它能够将实时数据流分成若干个小批次并分别进行处理,以达到实时处理的目的。Spark ...

Spark 阅读(228)

Apache Kafka监控之KafkaOffsetMonitor

KafkaOffsetMonitor是一个使用Scala编写的开源工具,用于监控和管理Apache Kafka集群中的消费者偏移量。它提供了一个WebUI,可以帮助管理员监控消费者群组的消费情况,并识别可能的问题点。 以下是KafkaOf...

Kafka 阅读(232)

Hive是一种数据仓库工具。它可以对大数据进行查询、分析和处理。对于处理后的结果,我们可以将它们保存到文件并指定列之间的分隔符。 保存查询结果到文件的命令是INSERT OVERWRITE LOCAL DIRECTORY 'fil...

Hadoop 阅读(233)

PageRank在Hadoop和spark下的实现以及对比

PageRank是指Google公司提出的一种基于网页链接关系的网页排名算法,通过对网页链接关系建立一个相关矩阵并迭代计算,得到每个网页的PageRank值,从而对网页进行排序。而Hadoop和Spark则是当前最为流行的分布式计算框架,提...

Spark 阅读(268)

在Kafka中使用Avro编码消息:Spark篇

Apache Kafka是一个广泛应用于大数据场景下分布式消息队列系统,而Avro是一种基于二进制格式的数据序列化方式,常用于数据存储和交换中。在Kafka中选择使用Avro编码消息,可以在数据传输中有效地减小数据大小,提高数据处理效率。本...

Kafka 阅读(221)

在分布式计算中,二次排序(Secondary Sort)是一个比较常见的问题。在之前的文章中,我们介绍了如何用Hadoop来解决二次排序问题。而在本文中,我们将讨论如何使用Spark来解决这个问题。 二次排序问题的背景 在我们深入讨论Spa...

Hadoop 阅读(231)

SparkSQL简介

SparkSQL简介 Apache Spark是一个开源的、快速的、通用的数据处理引擎,用于大规模数据处理。Spark提供了统一的数据处理API,使得开发人员能够使用不同的数据处理工具来对数据进行处理。Spark SQL是Spark中的一个...

Spark 阅读(245)