Mac私塾---一个专注于大数据技术架构与应用分享的技术博客-最新发布-第19页

如何使用HDFS API创建和管理快照

HDFS快照是一项有用的功能，可以减少数据丢失和恢复数据的时间。在HDFS中创建快照会在指定目录中创建一个只读副本，该副本包含文件系统的文件和目录结构。在进行快照之后，用户可以安全地修改原始文件系统（也就是快照创建之前存在的文件），并在需要...

2023-05-08Hadoop 阅读(1533)

Spark三种连接Join 在大数据处理过程中，Spark是一种常用的工具。Spark中实现连接的方式有三种: Inner、Outer和Cross Join。本文将详细介绍这三种连接类型的区别以及相应的使用场景。 Inner Join In...

2023-05-08Spark 阅读(1508)

大规模数据处理经历了从2003年到2018年的演化历程。以下是其演化历程概述： 2003年，Google发表了一篇论文，介绍了一个名为MapReduce的计算模型，用于处理大规模数据集。该模型可以将复杂的任务划分成一系列小的、可并行化的任务...

2023-05-08Kafka 阅读(935)

Apache Hadoop is an open source framework for distributed storage and processing of large data sets, commonly referred t...

2023-05-08Hadoop 阅读(993)

Spark Streaming实时计算框架介绍 1、什么是Spark Streaming？ Spark Streaming是Apache Spark项目的一个组件，是一种实时计算框架。它可以实现高吞吐量、可扩展性和容错性，支持处理实时数据流...

2023-05-08Spark 阅读(862)

Kafka是一种高性能、分布式、可扩展的消息队列系统，被广泛应用于数据传输、数据分析、实时计算等领域。在实际使用Kafka时，经常会遇到需要动态添加Topic的副本数的情况，以便提高消息传输的可靠性和容错能力。在这里，我们将重点讨论如何实现...

2023-05-08Kafka 阅读(1961)

随着数据量与复杂度的不断增加，Hadoop集群越来越庞大。在Hadoop集群运行过程中，由于数据节点之间数据分布情况的不同，相应的数据节点也会出现负载不均的情况，导致一些节点空闲而另一些节点过度使用。这种情况下，需要对数据节点进行重新平衡，...

2023-05-07Hadoop 阅读(945)

背景随着大数据技术的不断发展，越来越多的企业和组织开始利用大数据来指导和加强决策。而在这些大数据技术中，Apache Hadoop 和 Apache Spark 两个开源框架都在数据处理领域占据了重要地位。但是，Hadoop 是一种分布式...

2023-05-07Spark 阅读(1012)

Twitter 是世界上最大的社交媒体平台之一，每天都会处理数量庞大的数据量。为了满足这种高容量，高速度的需求，Twitter 采用了 Apache Kafka 作为数据流平台，也将其作为一个可靠的存储系统来使用。 Twitter 将 K...

2023-05-07Kafka 阅读(1025)

在车好多的实践中，HDFS 2.x 升级 3.x 是一个非常重要且必须要注意的操作。在升级过程中，我们需要遵循一些最佳实践，以确保数据的安全性和完整性。下面，我将为您介绍车好多在 HDFS 2.x 升级 3.x 过程中采用的最佳实践。首先...

2023-04-29Hadoop 阅读(842)