Mac私塾---一个专注于大数据技术架构与应用分享的技术博客-最新发布-第13页

 

最新文章第13页

Hive，Hive on Spark和SparkSQL区别

简介 Hive、Hive on Spark、以及SparkSQL都是处理大规模数据的常见工具。虽然这些工具都是用于数据仓库和数据分析的，但是它们之间有许多的不同点。本篇博客将比较这三种工具的异同点。 Hive Hive是一种基于Hadoop...

2024-02-27Spark 阅读(1000)

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现

Spark Streaming是处理实时数据的核心框架，而Kafka则是实时数据处理的重要数据源之一。在Spark Streaming中，可以使用Kafka Consumer API读取Kafka中的数据，并利用Zookeeper来记录已...

2024-02-27Kafka 阅读(803)

Hadoop是当前流行的大数据处理框架之一，它能够对大规模数据进行分布式存储和处理。Hadoop的性能直接影响到大数据处理的效率和速度。操作系统可以通过一系列优化措施来提高Hadoop的性能，并使其更加高效地处理数据。以下是一些操作系统级别...

2024-02-26Hadoop 阅读(747)

Spark Streaming反压机制

Spark Streaming反压机制在实时数据处理的场景下，Spark Streaming 是一个非常强大的工具。它通过将数据流分成微小的批次进行处理，实现了高效的流式计算。然而，当处理的数据量过大时，可能会导致 Spark 集群遇到许...

2024-02-26Spark 阅读(836)

Kafka日志删除源码分析

Kafka是一个分布式、可扩展、高可靠的消息系统，在使用过程中产生的数据量非常大。为了节省磁盘空间，Kafka提供了自动日志删除的功能，该功能可以根据不同的策略来删除过期的消息日志。本文将着重分析Kafka日志删除功能的源码实现原理。在K...

2024-02-26Kafka 阅读(694)

HDFS 慢节点监控及处理

Hadoop分布式文件系统(HDFS)是一个分布式存储系统，其设计目的是容错和处理大量数据。然而，由于硬件故障或其他问题，节点可能会变得不稳定或变得非常缓慢。因此，HDFS慢节点监控及处理对于保证 Hadoop 集群的健康运行至关重要。对...

2024-02-25Hadoop 阅读(1273)

监控Spark应用方法简介

一、背景介绍 Apache Spark是一个快速、优雅和能够集成多种处理方式的大规模数据处理引擎。在Spark应用的生命周期中，用户需要监控单个应用的性能、资源使用情况和错误信息等，并及时采取必要措施来保证稳定运行。本文将介绍常见的监控方...

2024-02-25Spark 阅读(1192)

Apache Kafka 2.6.0 有哪些值得关心的变化

Apache Kafka 2.6.0 是 Kafka 的最新版本，随着这个版本的发布，Kafka 又有了一些值得关注的变化。下面是一些值得关心的变化：支持KIP-595——为消息加上元数据属性（Header） Kafka 2.6.0 引入...

2024-02-25Kafka 阅读(801)

Apache Hadoop 3.1.0 正式发布，原生支持GPU和FPGA

近年来，随着大数据时代的到来，越来越多的企业和组织开始使用Hadoop作为大数据处理平台。作为一款开源的分布式计算框架，Hadoop的设计初衷就是通过将数据分片存储在集群中的多个节点，然后同时将处理任务分发到这些节点上，来实现大数据处理的目...

2024-02-24Hadoop 阅读(884)

Spark编译与部署--基础环境搭建

简介 Spark是Apache基金会的一个开源、高性能的大数据处理框架。Spark的强大性能使它成为处理大数据的首选工具。在使用Spark之前，您需要先搭建一些基础环境。本文将帮助您轻松地完成Spark的编译与部署。环境需求在开始之前，...

2024-02-24Spark 阅读(838)

上一页
1
···
10
11
12
13
14
15
16
...
下一页
共 25 页