一个专注于大数据技术架构与应用分享的技术博客

admin的文章

Hive连接HDFS端口错误解决方法

在使用Hive时,有时会遇到连接Hadoop分布式文件系统(HDFS)的端口错误。这种错误可能会导致Hive无法正常连接到HDFS,从而无法读取或写入数据。在本文中,将介绍如何解决这种连接HDFS端口错误的问题。 首先,需要了解一下Hado...

Hadoop 阅读(277)

Spark Streaming消费Kafka Direct方式数据零丢失实现

Spark Streaming消费Kafka Direct方式数据零丢失实现 近年来,随着大数据技术的迅猛发展,越来越多的企业开始重视数据处理。而Spark Streaming作为一款高效的流处理框架,在数据处理领域中扮演着至关重要的角色。...

Spark 阅读(192)

Kafka分区分配策略(Partition Assignment Strategy)

Kafka是一个高吞吐量、分布式的消息系统。在Kafka中,每个主题(topic)可以被划分为多个分区(partition),每个分区可以被复制(replica)到不同的broker节点上,以提高可靠性。 Kafka分区分配策略(Parti...

Kafka 阅读(194)

Submarine是Apache Hadoop中的深度学习框架,可以让开发者在大数据平台上进行机器学习或深度学习的训练、推理等任务。它是Hadoop社区最新推出的项目,旨在解决深度学习任务在大数据平台中的难点,比如资源管理、数据共享等问题。...

Hadoop 阅读(157)

注:以下为123智能机器人回答,仅供参考,禁止抄袭。 Spark机器学习之推荐引擎 在众多机器学习算法中,推荐引擎是一个重要的应用场景。推荐引擎可以预测用户对商品或服务的偏好,并向用户推荐他们可能感兴趣的物品,这对于电子商务和在线媒体等领域...

Spark 阅读(287)

Kafka集群扩展以及重新分布分区

Kafka是一个分布式的消息队列系统,能够处理多分区分布式架构的需求,但是随着业务的增长,Kafka集群也需要不断的扩展。本文将介绍Kafka集群扩展以及重新分布分区的操作。 首先,对于新增Broker节点的扩展,通常需要进行以下操作: 添...

Kafka 阅读(315)

Hadoop安全模式详解及配置

Hadoop是一个开源的分布式计算系统,它可以运行在大规模集群上,具有高可靠性、高容错性和高扩展性等特点。但是,在生产环境下使用Hadoop时,我们需要考虑数据的安全性问题。为了保障数据的安全性,Hadoop提供了安全模式,本文将详细介绍H...

Hadoop 阅读(389)

Spark Accumulators

Introduction Spark is a powerful distributed computing framework for processing big data. One of its key strengths is it...

Spark 阅读(284)

图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)

Apache Kafka是一个分布式的流处理平台,其最重要的组件之一便是消息系统。在Kafka中,消息的偏移量(Offset)是非常重要的概念。它用于唯一标识每条消息,并决定了消费者读取消息的位置和顺序。下面,我们将简要介绍Kafka消息偏...

Kafka 阅读(109)

HDFS 在 B 站的探索和实践

Hadoop Distributed File System(HDFS)是一种分布式文件系统,已经被广泛用于大数据处理。B 站作为一个大型的视频分享网站,也使用了 HDFS,来储存和管理数据。在 B 站的探索和实践中,HDFS 发挥了重要的...

Hadoop 阅读(104)