Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第6页

Hive:从文件中加载执行语句

在Hive中,我们可以从文件中加载执行语句,这是非常方便的一种方式,尤其是当我们有很多语句需要执行的时候。通过从文件中加载执行语句,我们可以一次性地运行多个查询,并且可以在需要时轻松地修改和调整这些查询。 首先,我们需要创建一个包含需要执行...

Hadoop 阅读(195)

Spark使用总结与分享

简介 Apache Spark是一个快速且通用的计算引擎,为大规模数据处理提供了一个统一的、高度优化的API。Spark的内存计算模型可显著提高大数据处理的效率。 本文将对Spark的使用进行总结,包括以下三个方面: Spark的优点和适用...

Spark 阅读(181)

在Kafka中使用Avro编码消息:Consumer篇

在Kafka中使用Avro编码消息需要在Producer和Consumer两端都进行相关的配置和使用。在前一篇文章中我们介绍了如何使用Avro编码消息进行生产,本篇文章中我们将介绍如何在Consumer端对Avro编码的消息进行读取和反序...

Kafka 阅读(179)

随着大数据技术的迅速发展,许多人对大数据的学习兴趣不断增高。对于初学者而言,推荐一些Hadoop等大数据学习相关的电子书,以便深入学习大数据技术。 1.《Hadoop权威指南》:由Tom White所著,是一本关于入门级别的Hadoop书籍...

Hadoop 阅读(155)

Spark RDD Persistence

简介 在进行Spark数据处理时,数据的缓存和持久化是一个非常关键的问题。Spark提供了丰富的支持,可以帮助我们在不同的场景下,利用RDD来优化我们的数据处理性能。本篇博客将围绕Spark RDD Persistence展开,分析其背景、...

Spark 阅读(188)

Spring Boot 中读写 Kafka header 信息

Spring Boot是一个非常流行的Java开发框架,它可以在很短的时间内构建高效和可扩展的Web应用程序。Kafka是另一个非常流行的消息队列系统,它经常用来在分布式系统中传输消息。Spring Boot结合Kafka可以让开发人员更加...

Kafka 阅读(304)

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

Hadoop 2.2.0是Apache Hadoop的一个版本,该版本包含了许多新的功能和改进,同时也还存在一些已知的问题和bug。在Hadoop 2.2.0中,开发者们可以使用hadoop-eclipse-plugin插件,该插件可以让他...

Hadoop 阅读(185)

Spark 通信架构、脚本解析、standalone

Spark 通信架构、脚本解析、standalone Apache Spark是目前最流行的开源大数据计算框架之一。它是一个分布式计算引擎,能够快速处理大数据集。在Spark内部,有一个非常重要的组件,即通信架构。本文将深入探究Spark的...

Spark 阅读(188)

五年总结:过往记忆大数据公众号原创精选

在过去的五年中,过往记忆大数据公众号通过深度挖掘历史文化、科学技术等领域的知识,向读者提供了大量有价值的原创精选文章。以下是笔者对部分精选文章的回顾与总结。 首先,公众号涉及的历史文化领域涵盖了从古代到现代的各个时期,包括文化名人、历史事件...

Kafka 阅读(154)

Hadoop基础知识面试题整理

什么是Hadoop? Hadoop是一个完整的分布式系统,可在大型集群上使用。它主要用于处理大量数据,以支持数据驱动的应用。 Hadoop包括两个核心部分:Hadoop分布式文件系统(HDFS)和MapReduce计算框架。 什么是HDFS...

Hadoop 阅读(193)