admin的文章

Spark容错机制

Spark容错机制背景随着大数据技术的发展，人们处理数据量越来越大，单机处理的能力无法满足需求。在这种情况下，分布式计算系统应运而生。Apache Spark 就是这样一款流行的分布式计算系统。Spark利用内存技术大幅度提高了计算速度...

2024-04-03Spark 阅读(1519)

在Kafka中，分区被视为一个物理磁盘文件，用于存储主题中的消息。每个分区都是一个文件夹，存储在Kafka服务器所在的文件系统上。Kafka在默认情况下使用本地磁盘存储数据，因此每个分区都存储在本地磁盘上的文件夹内。当在Kafka中创建新...

2024-04-03Kafka 阅读(1337)

在Spark应用程序的开发中，通常会依赖一些外部的Jar包，这些Jar包包含了Spark中一些重要的组件和功能，例如Spark SQL、GraphX等等。在执行Spark作业时，这些依赖的Jar包需要被分发到集群的每个节点，从而可以为应用程...

2024-04-02Hadoop 阅读(1024)

Spark on Yarn 架构解析在大数据处理领域，Spark 是一个非常流行的框架。在分布式计算中，资源管理是一个重要的问题，而 Yarn 是一个高效的资源管理系统。本文将探讨 Spark on Yarn 架构及其实现细节。 Spar...

2024-04-02Spark 阅读(1046)

Kafka是一个分布式的消息队列系统，几乎可以同时支持生产环境和测试环境。在企业中部署Kafka集群时，为了更加便捷地管理Kafka集群，可以使用一些Kafka管理工具。本文将介绍几个常用的Kafka管理工具。 Confluent Cont...

2024-04-02Kafka 阅读(1827)

Kafka 是 Apache 基金会中一个流行的、高可靠性的，分布式的消息队列系统。它主要解决的是系统之间异步消息传输的问题，弥补了不同系统之间异构性的差别，实现了数据的解耦和扩展。本文将介绍如何使用 Kafka 将 RDBMS 中的数据实...

2024-04-01Hadoop 阅读(1510)