Mac私塾---一个专注于大数据技术架构与应用分享的技术博客-最新发布-第20页

Spark Shuffle原理、Shuffle操作问题解决和参数调优

Spark Shuffle原理、Shuffle操作问题解决和参数调优作为一名大数据工程师，Spark Shuffle是我们经常需要面对和处理的问题之一。在本篇博客中，我们将介绍Spark Shuffle的工作原理、Shuffle操作可能面...

2023-04-29Spark 阅读(955)

Kafka消息中的时间戳表示消息产生的时间，可分为消息发送时间（Producer Time）和消息接收时间（Broker Time）。Producer Time表示消息从客户端发出的时间，带有Producer Time的消息会被存储在top...

2023-04-29Kafka 阅读(1118)

Hadoop和Spark都是在大数据处理领域广泛使用的工具。Hadoop是一种广泛使用的大规模数据处理工具，基于HDFS(Hadoop Distributed File System)和MapReduce编程模型进行数据处理。而Spark是...

2023-04-27Hadoop 阅读(916)

Spark向量 Spark是一个快速通用的大规模数据处理引擎，它可以处理各种大数据任务。其中，Spark的机器学习库MLlib提供了一套强大的向量操作API，即Spark向量。 Spark向量是MLlib库中最常用的数据结构之一，它可以表示...

2023-04-27Spark 阅读(974)

Apache Kafka 2.7.0 稳定版已经发布，Kafka 社区在这个版本中增加了一些有趣的功能，包括的备份和恢复工具、连接器改进、支持IPv6等。下面将会介绍其中几个值得关注的变化。备份和恢复 Apache Kafka 2.7.0...

2023-04-27Kafka 阅读(792)

什么是Spark数据倾斜？在Spark处理海量数据时，经常会遇到数据倾斜（Data Skew）的情况。数据倾斜通常指数据在分区（partition）上分布不均匀的情况，导致某些分区的处理时间远远超过其他分区，从而影响整个任务的执行效率。在...

2023-04-27Spark 阅读(987)

Kafka是一个分布式的消息队列系统，作为一款可靠的数据传输工具，Kafka的数据复制机制是非常重要的。为了保证数据传输的可靠性和数据的容错，Kafka提供了一种称为Replication的工具，用于将数据在多个节点之间进行复制。 Repl...

2023-04-27Kafka 阅读(862)

Kafka是一个分布式的流处理平台，其Java API是对 Kafka Producer、Kafka Consumer 和 Kafka Streams的封装，使得 Java 开发者可以轻松地使用到 Kafka。在 Java 中，分别使用 ...

2023-04-27Kafka 阅读(849)

1、安装textrank4zh 2、测试最后，运行结果如下：常见问题： 1、AttributeError: module 'networkx' has no attribute 'from_numpy_matrix' 由于上面第一步安装...

2023-04-16Python 阅读(2938)

Kafka 是一个高性能的分布式消息队列系统，在分布式应用中得到了广泛的应用。然而，在实际使用 Kafka 集群时，可能会因为业务扩大、性能需求提升等原因需要快速扩容，这时候就需要采用一些方法来避免坑点。下面是一些避坑指南，以帮助您快速扩...

2023-04-16Kafka 阅读(1635)