一个专注于大数据技术架构与应用分享的技术博客

Kafka 第5页

Kafka日志删除源码分析

Kafka是一个分布式、可扩展、高可靠的消息系统,在使用过程中产生的数据量非常大。为了节省磁盘空间,Kafka提供了自动日志删除的功能,该功能可以根据不同的策略来删除过期的消息日志。本文将着重分析Kafka日志删除功能的源码实现原理。 在K...

阅读(198)

Apache Kafka 2.6.0 有哪些值得关心的变化

Apache Kafka 2.6.0 是 Kafka 的最新版本,随着这个版本的发布,Kafka 又有了一些值得关注的变化。下面是一些值得关心的变化: 支持KIP-595——为消息加上元数据属性(Header) Kafka 2.6.0 引入...

阅读(234)

Uber 大数据平台的演进(2014~2019)

Uber是全球最大的出行服务公司之一,拥有海量的出行数据。在这些数据的基础上,Uber搭建了一个大数据平台,来支撑公司的决策和业务发展。这个大数据平台的演进经历了多个阶段。 2014年,Uber的大数据平台处于起步阶段,主要是为了支持公司的...

阅读(234)

基于Spark的公安大数据实时运维技术实践

公安大数据实时运维技术是一种基于云计算和大数据技术的公安数据处理、存储和应用一体化解决方案,可以将信息快速转化成有价值的数据,为公安工作提供支持。其中Spark作为一个分布式计算框架,为公安大数据实时运维技术提供了强大的计算能力。本文将从以...

阅读(200)

如何给运行在YARN上的MapReduce作业配置内存

在Hadoop中,MapReduce作业是通过YARN(Yet Another Resource Negotiator)提供的资源管理器来调度和管理的。在运行MapReduce作业时,我们可以通过设置一些参数,来配置作业所需要的内存资源。本...

阅读(224)

Apache Kafka 2.3 发布,新特性讲解

Apache Kafka是一个分布式流处理平台,用于高吞吐量的发布和订阅消息。在2019年6月,Apache Kafka发布了最新的版本2.3,该版本增加了一些新的特性和改进。以下是Apache Kafka 2.3的一些新特性简要概述。 K...

阅读(252)

Kafka创建Topic时如何将分区放置到不同的Broker中

Kafka是一种高性能、可扩展的分布式消息传递系统,可以处理海量的数据,并支持消息的持久化存储和高可靠性的传递。在Kafka中,主题(Topic)是一种逻辑概念,用于将消息组织成一组相关性很高的数据流。主题包含多个分区(Partition)...

阅读(224)

如何将MapReduce程序转换为Spark程序

MapReduce和Spark是两种被广泛用于大数据处理的框架,它们各有优缺点和适用场景。一些企业会在将MapReduce程序转换为Spark程序时,以便利用Spark的更高性能和更好的可扩展性等优势。下面将介绍如何将MapReduce程序...

阅读(508)

雅虎开源的Kafka集群管理器(Kafka Manager)

Kafka Manager是一个用Scala编写的开源工具,旨在简化和管理Apache Kafka集群的操作。它通过提供用户友好的Web界面和各种实用工具来帮助管理和监视Kafka集群。 Kafka Manager具有以下显著的特点: 集...

阅读(474)