admin的文章

Apache Hadoop 2.7.1正式版发布（稳定版）

Apache Hadoop 2.7.1是一个分布式计算框架，致力于解决海量数据处理问题。它由美国阿帕奇软件基金会（Apache Software Foundation）开发和维护，是目前最流行的大数据处理框架之一。Hadoop的核心组件包括...

2024-03-17Hadoop 阅读(888)

Spark SQL学习作为一名大数据工程师，Spark是我们熟知的分布式计算框架。而Spark SQL则是Spark框架中一个非常重要的组件。在本篇博客中，我将带你深入了解Spark SQL的学习。 Spark SQL的简介 Spark ...

2024-03-17Spark 阅读(1145)

Structured Streaming是Spark Streaming的一种新的编程API，可以使发人员更轻松地编写分布式流处理代码。而Kafka是一个分布式流处理的消息队列系统，可以用于传输大量的实时数据。本文将介绍Structured...

2024-03-17Kafka 阅读(776)

Apache Hadoop是一种开源的分布式存储与计算框架，能够处理大规模数据集。随着大数据的兴起，Apache Hadoop已经成为数据存储和处理领域的重要技术。在2014年3月发布的Apache Hadoop 2.3.0版本中，有三大重...

2024-03-16Hadoop 阅读(746)

Spark SQL Migration Guide 作为一个大数据工程师，了解如何进行Spark SQL的迁移是非常重要的。在这篇博客中，我将会分享一些关于如何进行这项工作的经验和技巧。迁移前的准备在开始进行Spark SQL迁移工作之...

2024-03-16Spark 阅读(696)

在Kafka中，偏移量是指为了确保数据的顺序传递和消费，Partition中当前最新的消息的位置。Kafka所有的读写都是基于偏移量的。在一些特定的场景下，我们需要手动地更新某个Topic的偏移量。本文将探讨如何手动更新Kafka中某个To...

2024-03-16Kafka 阅读(1234)

字节跳动是一家全球领先的技术企业，随着公司规模的快速发展，数据存储和处理需求也越来越大。因此，字节跳动采取了多机房架构的方式搭建 HDFS 集群，以应对海量数据的存储和处理。在搭建 HDFS 集群的早期阶段，字节跳动采用传统的集中式单机房...

2024-03-15Hadoop 阅读(854)

Spark如何解决常见的Top N问题在大数据处理中，Top N问题是常见的需求之一。简单来说，Top N问题就是在一个数据集中，找出前 N 个满足指定条件的记录。在传统的关系型数据库中，可以通过类似于以下的 SQL 语句来实现 Top...

2024-03-15Spark 阅读(908)

在使用Spark时，我们经常会使用Spark shell模式，这种交互式方式可以让我们快速地测试和验证代码逻辑，提高开发效率。然而，在使用Spark shell时，有时会遇到一些异常，比如初始化Job时出现的异常。本文将介绍如何解决Spar...

2024-03-15Kafka 阅读(726)

Hive是一款基于Hadoop的数据仓库框架，其内置了SQL-Like查询语言——HiveQL，可将数据存储在分布式存储系统中，并提供了一套完整的查询、分析和数据处理工具，能够帮助用户快速方便地进行数据分析、数据挖掘等工作。其中，inser...

2024-03-14Hadoop 阅读(1061)