Mac私塾---一个专注于大数据技术架构与应用分享的技术博客-最新发布-第12页

SparkCore的调优之开发调优

SparkCore的调优之开发调优 Spark是一个分布式计算框架，可以轻松处理大数据，它使用内存进行计算，因此比其他批处理框架快得多。然而，Spark的性能不仅取决于硬件配置，还与Spark本身的设置以及代码开发实践有关。在本篇文章中，...

2024-03-01Spark 阅读(917)

Apache Kafka是一个分布式流式处理平台，常用于构建实时数据流管道和应用程序。在使用Kafka时，设置分区数和复制因子是非常重要的，因为它们会直接影响到数据的可用性、可靠性和性能。本文将介绍关于设置分区数和复制因子的基础知识，并提供...

2024-03-01Kafka 阅读(1160)

MapReduce是Hadoop分布式计算的核心组件，它能够把数据分解成小块，并分发到集群中的多台计算机上进行并行处理，最终将结果合并为一个有序的输出结果。在这里，我们将演示如何编写一个简单的MapReduce程序并部署在Hadoop2.2...

2024-02-29Hadoop 阅读(1100)

Hadoop+HBase+Spark+Hive环境搭建在本次博客中，我们将会讨论如何搭建 Hadoop、HBase、Spark 和 Hive 环境。在进行环境搭建之前，我们需要明确一些前置知识。前置知识 1. Hadoop Apache...

2024-02-29Spark 阅读(957)

在Spark Streaming和Kafka整合开发中，有一些常见的最佳实践和技巧，可以帮助开发人员更好地实现数据流处理。以下是一些值得关注的最佳实践： 1.使用Kafka Direct流 Kafka Direct流提供了更高效的数据读取和...

2024-02-29Kafka 阅读(768)

HDFS（Hadoop Distributed File System）是一个设计用于存储大规模数据的分布式文件系统。在HDFS中，数据被分成一些块（block），每个块的大小默认为128MB。而为了读取HDFS中的数据，需要将数据切分成适...

2024-02-28Hadoop 阅读(831)

Spark Scheduler内部原理剖析引言 Spark作为一个流行的分布式计算框架，其高效的资源管理和任务调度能力备受行业追捧。而Spark Job的调度并不是由一些无头鸟在天上飞来飞去完成的，而是由Spark内部的一个调度器实现的。...

2024-02-28Spark 阅读(915)

HBase是一个开源、分布式、面向大数据的数据库系统，它可以处理大规模的结构化数据。在实际的生产环境中，为了支撑大规模的数据存储和处理需求，通常需要在多个节点上安装HBase。本文将介绍HBase 0.96.0的分布式安装手册。准备工作 ...

2024-02-28Kafka 阅读(754)

Hadoop分布式文件系统(HDFS)是一个分布式存储系统，其的设计目的是容错和处理大量数据。归档存储即是针对这类大量数据存储需求，采用低频率访问的数据进行压缩或归档以便于存储更多的数据，减少硬件和存储成本。HDFS具有灵活的归档存储支持，...

2024-02-27Hadoop 阅读(922)