admin的文章

Kafka 是如何保证数据可靠性和一致性

Kafka是一个分布式流处理平台，它通过构建一个分布式的发布和订阅系统来实现高吞吐量的消息传递。在高并发、高负载情况下，保证消息的可靠性、一致性和有序性是Kafka的一个重要目标。本文将详细讨论Kafka是如何保证消息的可靠性和一致性的。 ...

2024-03-11Kafka 阅读(758)

Apache Hadoop是一个开源的、高度可扩展的分布式存储和计算平台。自从它最初于2006年由Yahoo!实验室创建以来，它已经成为了大数据领域的标准之一。Apache Hadoop 2.4.0是最新发布的版本，并在2014年发布。 H...

2024-03-10Hadoop 阅读(814)

Spark是一个快速通用的大规模数据处理引擎，主要用于大数据处理和机器学习。Python作为一门强大灵活的编程语言，它的开源库PySpark，提供了与Spark的Python API互动的能力。本文将介绍如何使用PySpark进行数据处理和...

2024-03-10Spark 阅读(813)

Kafka是一个分布式的流处理平台，其Java API是对 Kafka Producer、Kafka Consumer 和 Kafka Streams的封装，使得 Java 开发者可以轻松地使用到 Kafka。在 Java 中，分别使用 ...

2024-03-10Kafka 阅读(785)

Uber 是以共享出行为主业的科技公司，使用了 Hadoop Distributed File System（HDFS）来进行大规模的数据处理和存储。为了提高 HDFS I/O 利用率，Uber开发了许多优化技术，下面将介绍 Uber 的 ...

2024-03-09Hadoop 阅读(1070)

Spark应用程序部署工具Spark Submit 在大数据处理领域中，Spark 成为了最受欢迎的数据处理框架之一。Spark 提供了丰富的 API 和一系列执行器，以加速大规模数据处理的速度。Spark 提供了各种工具和组件，以便有效地...

2024-03-09Spark 阅读(765)

MapReduce是Hadoop中的一个核心技术，可用于处理大型数据集。MapReduce作业把大数据集分成多个小数据块，并通过Map和Reduce函数运行在许多节点上，最终输出结果。在MapReduce中，任务都是由多个进程来完成，包括...

2024-03-09Kafka 阅读(1066)

Hadoop YARN是一个分布式的资源管理系统，可以管理分布式计算的资源。它的web服务提供了一系列REST API，使得用户可以通过HTTP请求来管理和监控YARN集群。本篇文章将对Hadoop YARN中的web服务REST API进...

2024-03-08Hadoop 阅读(991)

Spark的map、flatMap、mapToPair 在Spark中，map、flatMap、mapToPair是三个非常常用的转换操作。他们都是针对RDD的操作，通过将函数应用于RDD中的每个元素来生成一个新的RDD。 map map是...

2024-03-08Spark 阅读(885)

Kafka Web Console是一个基于Web的开源工具，用于监控和管理Apache Kafka集群。它提供了易于使用的用户界面，可让管理员查看Kafka集群的有关信息，包括主题，分区和代理以及其他关键性能指标。以下是Kafka We...

2024-03-08Kafka 阅读(1055)