Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章

几种常见的 Kafka 集群监控工具-Mac私塾
置顶

几种常见的 Kafka 集群监控工具

Apache Kafka 是目前比较流行的分布式消息系统之一,其设计理念就是要保持高可用性和可扩展性。为了保证 Kafka 集群的稳定性和性能,需要监控各个组件的运行状态、异常情况和负载状况。下面介绍几种常见的 Kafka 集群监控工具。 ...

Kafka 阅读(2645)

Hive连接HDFS端口错误解决方法

在使用Hive时,有时会遇到连接Hadoop分布式文件系统(HDFS)的端口错误。这种错误可能会导致Hive无法正常连接到HDFS,从而无法读取或写入数据。在本文中,将介绍如何解决这种连接HDFS端口错误的问题。 首先,需要了解一下Hado...

Hadoop 阅读(1038)

Spark Streaming消费Kafka Direct方式数据零丢失实现

Spark Streaming消费Kafka Direct方式数据零丢失实现 近年来,随着大数据技术的迅猛发展,越来越多的企业开始重视数据处理。而Spark Streaming作为一款高效的流处理框架,在数据处理领域中扮演着至关重要的角色。...

Spark 阅读(429)

Kafka分区分配策略(Partition Assignment Strategy)

Kafka是一个高吞吐量、分布式的消息系统。在Kafka中,每个主题(topic)可以被划分为多个分区(partition),每个分区可以被复制(replica)到不同的broker节点上,以提高可靠性。 Kafka分区分配策略(Parti...

Kafka 阅读(502)

Submarine是Apache Hadoop中的深度学习框架,可以让开发者在大数据平台上进行机器学习或深度学习的训练、推理等任务。它是Hadoop社区最新推出的项目,旨在解决深度学习任务在大数据平台中的难点,比如资源管理、数据共享等问题。...

Hadoop 阅读(519)

注:以下为123智能机器人回答,仅供参考,禁止抄袭。 Spark机器学习之推荐引擎 在众多机器学习算法中,推荐引擎是一个重要的应用场景。推荐引擎可以预测用户对商品或服务的偏好,并向用户推荐他们可能感兴趣的物品,这对于电子商务和在线媒体等领域...

Spark 阅读(653)

Kafka集群扩展以及重新分布分区

Kafka是一个分布式的消息队列系统,能够处理多分区分布式架构的需求,但是随着业务的增长,Kafka集群也需要不断的扩展。本文将介绍Kafka集群扩展以及重新分布分区的操作。 首先,对于新增Broker节点的扩展,通常需要进行以下操作: 添...

Kafka 阅读(812)

Hadoop安全模式详解及配置

Hadoop是一个开源的分布式计算系统,它可以运行在大规模集群上,具有高可靠性、高容错性和高扩展性等特点。但是,在生产环境下使用Hadoop时,我们需要考虑数据的安全性问题。为了保障数据的安全性,Hadoop提供了安全模式,本文将详细介绍H...

Hadoop 阅读(1161)

Spark Accumulators

Introduction Spark is a powerful distributed computing framework for processing big data. One of its key strengths is it...

Spark 阅读(934)