admin的文章

大规模数据处理的演化历程(2003-2018)

大规模数据处理经历了从2003年到2018年的演化历程。以下是其演化历程概述： 2003年，Google发表了一篇论文，介绍了一个名为MapReduce的计算模型，用于处理大规模数据集。该模型可以将复杂的任务划分成一系列小的、可并行化的任务...

2023-05-08Kafka 阅读(878)

Apache Hadoop is an open source framework for distributed storage and processing of large data sets, commonly referred t...

2023-05-08Hadoop 阅读(936)

Spark Streaming实时计算框架介绍 1、什么是Spark Streaming？ Spark Streaming是Apache Spark项目的一个组件，是一种实时计算框架。它可以实现高吞吐量、可扩展性和容错性，支持处理实时数据流...

2023-05-08Spark 阅读(810)

Kafka是一种高性能、分布式、可扩展的消息队列系统，被广泛应用于数据传输、数据分析、实时计算等领域。在实际使用Kafka时，经常会遇到需要动态添加Topic的副本数的情况，以便提高消息传输的可靠性和容错能力。在这里，我们将重点讨论如何实现...

2023-05-08Kafka 阅读(1885)

随着数据量与复杂度的不断增加，Hadoop集群越来越庞大。在Hadoop集群运行过程中，由于数据节点之间数据分布情况的不同，相应的数据节点也会出现负载不均的情况，导致一些节点空闲而另一些节点过度使用。这种情况下，需要对数据节点进行重新平衡，...

2023-05-07Hadoop 阅读(891)

背景随着大数据技术的不断发展，越来越多的企业和组织开始利用大数据来指导和加强决策。而在这些大数据技术中，Apache Hadoop 和 Apache Spark 两个开源框架都在数据处理领域占据了重要地位。但是，Hadoop 是一种分布式...

2023-05-07Spark 阅读(940)

Twitter 是世界上最大的社交媒体平台之一，每天都会处理数量庞大的数据量。为了满足这种高容量，高速度的需求，Twitter 采用了 Apache Kafka 作为数据流平台，也将其作为一个可靠的存储系统来使用。 Twitter 将 K...

2023-05-07Kafka 阅读(969)

在车好多的实践中，HDFS 2.x 升级 3.x 是一个非常重要且必须要注意的操作。在升级过程中，我们需要遵循一些最佳实践，以确保数据的安全性和完整性。下面，我将为您介绍车好多在 HDFS 2.x 升级 3.x 过程中采用的最佳实践。首先...

2023-04-29Hadoop 阅读(784)

Spark Shuffle原理、Shuffle操作问题解决和参数调优作为一名大数据工程师，Spark Shuffle是我们经常需要面对和处理的问题之一。在本篇博客中，我们将介绍Spark Shuffle的工作原理、Shuffle操作可能面...

2023-04-29Spark 阅读(898)

Kafka消息中的时间戳表示消息产生的时间，可分为消息发送时间（Producer Time）和消息接收时间（Broker Time）。Producer Time表示消息从客户端发出的时间，带有Producer Time的消息会被存储在top...

2023-04-29Kafka 阅读(1062)