Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第12页

Apache Hadoop 3.0.0 GA版的发布是一件令人振奋的消息,因为它标志着这个开源软件的一个重大的里程碑。Hadoop最初是由Apache基金会下的Lucene项目中的Doug Cutting开发的,它是一个开源的分布式存储和处...

Hadoop 阅读(213)

SparkCore的调优之开发调优

SparkCore的调优之开发调优 Spark是一个分布式计算框架,可以轻松处理大数据,它使用内存进行计算,因此比其他批处理框架快得多。然而,Spark的性能不仅取决于硬件配置,还与Spark本身的设置以及代码开发实践有关。 在本篇文章中,...

Spark 阅读(242)

Apache Kafka编程入门指南:设置分区数和复制因子

Apache Kafka是一个分布式流式处理平台,常用于构建实时数据流管道和应用程序。在使用Kafka时,设置分区数和复制因子是非常重要的,因为它们会直接影响到数据的可用性、可靠性和性能。本文将介绍关于设置分区数和复制因子的基础知识,并提供...

Kafka 阅读(385)

MapReduce是Hadoop分布式计算的核心组件,它能够把数据分解成小块,并分发到集群中的多台计算机上进行并行处理,最终将结果合并为一个有序的输出结果。在这里,我们将演示如何编写一个简单的MapReduce程序并部署在Hadoop2.2...

Hadoop 阅读(219)

Hadoop+HBase+Spark+Hive环境搭建

Hadoop+HBase+Spark+Hive环境搭建 在本次博客中,我们将会讨论如何搭建 Hadoop、HBase、Spark 和 Hive 环境。在进行环境搭建之前,我们需要明确一些前置知识。 前置知识 1. Hadoop Apache...

Spark 阅读(229)

Spark Streaming和Kafka整合开发指南(二)

在Spark Streaming和Kafka整合开发中,有一些常见的最佳实践和技巧,可以帮助开发人员更好地实现数据流处理。以下是一些值得关注的最佳实践: 1.使用Kafka Direct流 Kafka Direct流提供了更高效的数据读取和...

Kafka 阅读(209)

HDFS 块和 Input Splits 的区别与联系

HDFS(Hadoop Distributed File System)是一个设计用于存储大规模数据的分布式文件系统。在HDFS中,数据被分成一些块(block),每个块的大小默认为128MB。而为了读取HDFS中的数据,需要将数据切分成适...

Hadoop 阅读(238)

Spark Scheduler内部原理剖析

Spark Scheduler内部原理剖析 引言 Spark作为一个流行的分布式计算框架,其高效的资源管理和任务调度能力备受行业追捧。而Spark Job的调度并不是由一些无头鸟在天上飞来飞去完成的,而是由Spark内部的一个调度器实现的。...

Spark 阅读(256)

Hbase 0.96.0分布式安装手册

HBase是一个开源、分布式、面向大数据的数据库系统,它可以处理大规模的结构化数据。在实际的生产环境中,为了支撑大规模的数据存储和处理需求,通常需要在多个节点上安装HBase。本文将介绍HBase 0.96.0的分布式安装手册。 准备工作 ...

Kafka 阅读(199)

Hadoop分布式文件系统(HDFS)是一个分布式存储系统,其的设计目的是容错和处理大量数据。归档存储即是针对这类大量数据存储需求,采用低频率访问的数据进行压缩或归档以便于存储更多的数据,减少硬件和存储成本。HDFS具有灵活的归档存储支持,...

Hadoop 阅读(212)