一个专注于大数据技术架构与应用分享的技术博客

admin的文章

Apache Hadoop 2.7.1正式版发布(稳定版)

Apache Hadoop 2.7.1是一个分布式计算框架,致力于解决海量数据处理问题。它由美国阿帕奇软件基金会(Apache Software Foundation)开发和维护,是目前最流行的大数据处理框架之一。Hadoop的核心组件包括...

Hadoop 阅读(216)

spark SQL学习

Spark SQL学习 作为一名大数据工程师,Spark是我们熟知的分布式计算框架。而Spark SQL则是Spark框架中一个非常重要的组件。在本篇博客中,我将带你深入了解Spark SQL的学习。 Spark SQL的简介 Spark ...

Spark 阅读(193)

Structured Streaming和Kafka 0.8�.9整合开发

Structured Streaming是Spark Streaming的一种新的编程API,可以使发人员更轻松地编写分布式流处理代码。而Kafka是一个分布式流处理的消息队列系统,可以用于传输大量的实时数据。本文将介绍Structured...

Kafka 阅读(161)

Apache Hadoop 2.3.0三大重要的提升

Apache Hadoop是一种开源的分布式存储与计算框架,能够处理大规模数据集。随着大数据的兴起,Apache Hadoop已经成为数据存储和处理领域的重要技术。在2014年3月发布的Apache Hadoop 2.3.0版本中,有三大重...

Hadoop 阅读(162)

Spark SQL Migration Guide

Spark SQL Migration Guide 作为一个大数据工程师,了解如何进行Spark SQL的迁移是非常重要的。在这篇博客中,我将会分享一些关于如何进行这项工作的经验和技巧。 迁移前的准备 在开始进行Spark SQL迁移工作之...

Spark 阅读(164)

如何手动更新Kafka中某个Topic的偏移量

在Kafka中,偏移量是指为了确保数据的顺序传递和消费,Partition中当前最新的消息的位置。Kafka所有的读写都是基于偏移量的。在一些特定的场景下,我们需要手动地更新某个Topic的偏移量。本文将探讨如何手动更新Kafka中某个To...

Kafka 阅读(268)

字节跳动十万节点 HDFS 集群多机房架构演进之路

字节跳动是一家全球领先的技术企业,随着公司规模的快速发展,数据存储和处理需求也越来越大。因此,字节跳动采取了多机房架构的方式搭建 HDFS 集群,以应对海量数据的存储和处理。 在搭建 HDFS 集群的早期阶段,字节跳动采用传统的集中式单机房...

Hadoop 阅读(176)

Spark如何解决常见的Top N问题

Spark如何解决常见的Top N问题 在大数据处理中,Top N问题是常见的需求之一。简单来说,Top N问题就是在一个数据集中,找出前 N 个满足指定条件的记录。 在传统的关系型数据库中,可以通过类似于以下的 SQL 语句来实现 Top...

Spark 阅读(195)

解决Spark shell模式下初始化Job出现的异常

在使用Spark时,我们经常会使用Spark shell模式,这种交互式方式可以让我们快速地测试和验证代码逻辑,提高开发效率。然而,在使用Spark shell时,有时会遇到一些异常,比如初始化Job时出现的异常。本文将介绍如何解决Spar...

Kafka 阅读(149)

Hive是一款基于Hadoop的数据仓库框架,其内置了SQL-Like查询语言——HiveQL,可将数据存储在分布式存储系统中,并提供了一套完整的查询、分析和数据处理工具,能够帮助用户快速方便地进行数据分析、数据挖掘等工作。其中,inser...

Hadoop 阅读(196)