一个专注于大数据技术架构与应用分享的技术博客

admin的文章

大规模数据处理的演化历程(2003-2018)

大规模数据处理经历了从2003年到2018年的演化历程。以下是其演化历程概述: 2003年,Google发表了一篇论文,介绍了一个名为MapReduce的计算模型,用于处理大规模数据集。该模型可以将复杂的任务划分成一系列小的、可并行化的任务...

Kafka 阅读(381)

Spark Streaming实时计算框架介绍

Spark Streaming实时计算框架介绍 1、什么是Spark Streaming? Spark Streaming是Apache Spark项目的一个组件,是一种实时计算框架。它可以实现高吞吐量、可扩展性和容错性,支持处理实时数据流...

Spark 阅读(313)

Kafka如何动态增加Topic的副本(Replication)

Kafka是一种高性能、分布式、可扩展的消息队列系统,被广泛应用于数据传输、数据分析、实时计算等领域。在实际使用Kafka时,经常会遇到需要动态添加Topic的副本数的情况,以便提高消息传输的可靠性和容错能力。在这里,我们将重点讨论如何实现...

Kafka 阅读(904)

Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍

随着数据量与复杂度的不断增加,Hadoop集群越来越庞大。在Hadoop集群运行过程中,由于数据节点之间数据分布情况的不同,相应的数据节点也会出现负载不均的情况,导致一些节点空闲而另一些节点过度使用。这种情况下,需要对数据节点进行重新平衡,...

Hadoop 阅读(344)

spark 对hbase 操作

背景 随着大数据技术的不断发展,越来越多的企业和组织开始利用大数据来指导和加强决策。而在这些大数据技术中,Apache Hadoop 和 Apache Spark 两个开源框架都在数据处理领域占据了重要地位。但是,Hadoop 是一种分布式...

Spark 阅读(397)

Twitter 如何将 Kafka 当做一个存储系统

Twitter 是世界上最大的社交媒体平台之一,每天都会处理数量庞大的数据量。为了满足这种高容量,高速度的需求,Twitter 采用了 Apache Kafka 作为数据流平台,也将其作为一个可靠的存储系统来使用。 Twitter 将 K...

Kafka 阅读(394)

HDFS 2.x 升级 3.x 在车好多的实践

在车好多的实践中,HDFS 2.x 升级 3.x 是一个非常重要且必须要注意的操作。在升级过程中,我们需要遵循一些最佳实践,以确保数据的安全性和完整性。下面,我将为您介绍车好多在 HDFS 2.x 升级 3.x 过程中采用的最佳实践。 首先...

Hadoop 阅读(275)

Kafka消息时间戳及压缩消息对时间戳的处理

Kafka消息中的时间戳表示消息产生的时间,可分为消息发送时间(Producer Time)和消息接收时间(Broker Time)。Producer Time表示消息从客户端发出的时间,带有Producer Time的消息会被存储在top...

Kafka 阅读(417)