Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第20页

Kafka消息时间戳及压缩消息对时间戳的处理

Kafka消息中的时间戳表示消息产生的时间,可分为消息发送时间(Producer Time)和消息接收时间(Broker Time)。Producer Time表示消息从客户端发出的时间,带有Producer Time的消息会被存储在top...

Kafka 阅读(417)

Spark和Hadoop作业之间的区别

Hadoop和Spark都是在大数据处理领域广泛使用的工具。Hadoop是一种广泛使用的大规模数据处理工具,基于HDFS(Hadoop Distributed File System)和MapReduce编程模型进行数据处理。而Spark是...

Hadoop 阅读(394)

spark向量

Spark向量 Spark是一个快速通用的大规模数据处理引擎,它可以处理各种大数据任务。其中,Spark的机器学习库MLlib提供了一套强大的向量操作API,即Spark向量。 Spark向量是MLlib库中最常用的数据结构之一,它可以表示...

Spark 阅读(429)

Kafka设计解析:Replication工具

Kafka是一个分布式的消息队列系统,作为一款可靠的数据传输工具,Kafka的数据复制机制是非常重要的。为了保证数据传输的可靠性和数据的容错,Kafka提供了一种称为Replication的工具,用于将数据在多个节点之间进行复制。 Repl...

Kafka 阅读(291)

Java API方式调用Kafka各种协议

Kafka是一个分布式的流处理平台,其Java API是对 Kafka Producer、Kafka Consumer 和 Kafka Streams的封装,使得 Java 开发者可以轻松地使用到 Kafka。在 Java 中,分别使用 ...

Kafka 阅读(318)
快速扩容Kafka集群的几个技巧——避坑指南-Mac私塾

快速扩容Kafka集群的几个技巧——避坑指南

Kafka 是一个高性能的分布式消息队列系统,在分布式应用中得到了广泛的应用。然而,在实际使用 Kafka 集群时,可能会因为业务扩大、性能需求提升等原因需要快速扩容,这时候就需要采用一些方法来避免坑点。 下面是一些避坑指南,以帮助您快速扩...

Kafka 阅读(558)