Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第9页

Apache Hadoop 3.x是最新的Hadoop版本,是在Hadoop 2.x的基础上进行升级和改进的。Hadoop 3.x 在运行效率、数据处理能力、容错性等方面进行了改进,并且添加了新功能,例如支持GPU加速计算和容器化等新特性,...

Hadoop 阅读(226)

什么是Hadoop,为什么是Spark?

什么是Hadoop,为什么是Spark? 随着数十亿个设备和应用程序记录每秒数兆字节的数据,企业变得更加依赖大数据,这为大数据工程师们提供了一个因处理海量数据而实现业务目标的机会。要处理这些数据,需要有大型分布式数据处理系统,其中两个最流行...

Spark 阅读(207)

Kafka 是如何保证数据可靠性和一致性

Kafka是一个分布式流处理平台,它通过构建一个分布式的发布和订阅系统来实现高吞吐量的消息传递。在高并发、高负载情况下,保证消息的可靠性、一致性和有序性是Kafka的一个重要目标。本文将详细讨论Kafka是如何保证消息的可靠性和一致性的。 ...

Kafka 阅读(219)

Apache Hadoop 2.4.0已经发布

Apache Hadoop是一个开源的、高度可扩展的分布式存储和计算平台。自从它最初于2006年由Yahoo!实验室创建以来,它已经成为了大数据领域的标准之一。Apache Hadoop 2.4.0是最新发布的版本,并在2014年发布。 H...

Hadoop 阅读(234)

Spark-python入门

Spark是一个快速通用的大规模数据处理引擎,主要用于大数据处理和机器学习。Python作为一门强大灵活的编程语言,它的开源库PySpark,提供了与Spark的Python API互动的能力。本文将介绍如何使用PySpark进行数据处理和...

Spark 阅读(221)

Java API方式调用Kafka各种协议

Kafka是一个分布式的流处理平台,其Java API是对 Kafka Producer、Kafka Consumer 和 Kafka Streams的封装,使得 Java 开发者可以轻松地使用到 Kafka。在 Java 中,分别使用 ...

Kafka 阅读(225)

Uber 是以共享出行为主业的科技公司,使用了 Hadoop Distributed File System(HDFS)来进行大规模的数据处理和存储。为了提高 HDFS I/O 利用率,Uber开发了许多优化技术,下面将介绍 Uber 的 ...

Hadoop 阅读(243)

Spark应用程序部署工具Spark Submit 在大数据处理领域中,Spark 成为了最受欢迎的数据处理框架之一。Spark 提供了丰富的 API 和一系列执行器,以加速大规模数据处理的速度。Spark 提供了各种工具和组件,以便有效地...

Spark 阅读(194)

MapReduce作业的map task和reduce task调度参数

MapReduce是Hadoop中的一个核心技术,可用于处理大型数据集。MapReduce作业把大数据集分成多个小数据块,并通过Map和Reduce函数运行在许多节点上,最终输出结果。 在MapReduce中,任务都是由多个进程来完成,包括...

Kafka 阅读(410)

Hadoop YARN中web服务的REST API介绍

Hadoop YARN是一个分布式的资源管理系统,可以管理分布式计算的资源。它的web服务提供了一系列REST API,使得用户可以通过HTTP请求来管理和监控YARN集群。本篇文章将对Hadoop YARN中的web服务REST API进...

Hadoop 阅读(304)