一个专注于大数据技术架构与应用分享的技术博客

admin的文章

在Kafka中使用Avro编码消息:Consumer篇

在Kafka中使用Avro编码消息需要在Producer和Consumer两端都进行相关的配置和使用。在前一篇文章中我们介绍了如何使用Avro编码消息进行生产,本篇文章中我们将介绍如何在Consumer端对Avro编码的消息进行读取和反序...

Kafka 阅读(179)

随着大数据技术的迅速发展,许多人对大数据的学习兴趣不断增高。对于初学者而言,推荐一些Hadoop等大数据学习相关的电子书,以便深入学习大数据技术。 1.《Hadoop权威指南》:由Tom White所著,是一本关于入门级别的Hadoop书籍...

Hadoop 阅读(155)

Spark RDD Persistence

简介 在进行Spark数据处理时,数据的缓存和持久化是一个非常关键的问题。Spark提供了丰富的支持,可以帮助我们在不同的场景下,利用RDD来优化我们的数据处理性能。本篇博客将围绕Spark RDD Persistence展开,分析其背景、...

Spark 阅读(188)

Spring Boot 中读写 Kafka header 信息

Spring Boot是一个非常流行的Java开发框架,它可以在很短的时间内构建高效和可扩展的Web应用程序。Kafka是另一个非常流行的消息队列系统,它经常用来在分布式系统中传输消息。Spring Boot结合Kafka可以让开发人员更加...

Kafka 阅读(304)

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

Hadoop 2.2.0是Apache Hadoop的一个版本,该版本包含了许多新的功能和改进,同时也还存在一些已知的问题和bug。在Hadoop 2.2.0中,开发者们可以使用hadoop-eclipse-plugin插件,该插件可以让他...

Hadoop 阅读(185)

Spark 通信架构、脚本解析、standalone

Spark 通信架构、脚本解析、standalone Apache Spark是目前最流行的开源大数据计算框架之一。它是一个分布式计算引擎,能够快速处理大数据集。在Spark内部,有一个非常重要的组件,即通信架构。本文将深入探究Spark的...

Spark 阅读(188)

五年总结:过往记忆大数据公众号原创精选

在过去的五年中,过往记忆大数据公众号通过深度挖掘历史文化、科学技术等领域的知识,向读者提供了大量有价值的原创精选文章。以下是笔者对部分精选文章的回顾与总结。 首先,公众号涉及的历史文化领域涵盖了从古代到现代的各个时期,包括文化名人、历史事件...

Kafka 阅读(154)

Hadoop基础知识面试题整理

什么是Hadoop? Hadoop是一个完整的分布式系统,可在大型集群上使用。它主要用于处理大量数据,以支持数据驱动的应用。 Hadoop包括两个核心部分:Hadoop分布式文件系统(HDFS)和MapReduce计算框架。 什么是HDFS...

Hadoop 阅读(194)

spark+kafka使用

Spark和Kafka的结合使用 在大数据领域中,Spark和Kafka是两个非常重要的组件。他们可以非常好的协同工作,实现流式数据处理和分析工作。本文将介绍在Spark中如何使用Kafka进行流式数据的处理。 Spark和Kafka组合的...

Spark 阅读(162)

Apache Kafka 2.0.0 正式发布,多项重要功能更新

Apache Kafka是一款高性能、分布式、可扩展、消息队列系统,能够处理大规模的消息流。目前,Kafka已成为业界最流行的消息流平台之一,被广泛应用于大数据、流式处理、消息队列等领域。最近,Apache Kafka发布了2.0.0版本,...

Kafka 阅读(172)