一个专注于大数据技术架构与应用分享的技术博客

Hadoop

Hive连接HDFS端口错误解决方法

在使用Hive时,有时会遇到连接Hadoop分布式文件系统(HDFS)的端口错误。这种错误可能会导致Hive无法正常连接到HDFS,从而无法读取或写入数据。在本文中,将介绍如何解决这种连接HDFS端口错误的问题。 首先,需要了解一下Hado...

阅读(995)

Submarine是Apache Hadoop中的深度学习框架,可以让开发者在大数据平台上进行机器学习或深度学习的训练、推理等任务。它是Hadoop社区最新推出的项目,旨在解决深度学习任务在大数据平台中的难点,比如资源管理、数据共享等问题。...

阅读(496)

Hadoop安全模式详解及配置

Hadoop是一个开源的分布式计算系统,它可以运行在大规模集群上,具有高可靠性、高容错性和高扩展性等特点。但是,在生产环境下使用Hadoop时,我们需要考虑数据的安全性问题。为了保障数据的安全性,Hadoop提供了安全模式,本文将详细介绍H...

阅读(1124)

HDFS 在 B 站的探索和实践

Hadoop Distributed File System(HDFS)是一种分布式文件系统,已经被广泛用于大数据处理。B 站作为一个大型的视频分享网站,也使用了 HDFS,来储存和管理数据。在 B 站的探索和实践中,HDFS 发挥了重要的...

阅读(262)

Spark优化:禁止应用程序将依赖的Jar包传到HDFS

在Spark应用程序的开发中,通常会依赖一些外部的Jar包,这些Jar包包含了Spark中一些重要的组件和功能,例如Spark SQL、GraphX等等。在执行Spark作业时,这些依赖的Jar包需要被分发到集群的每个节点,从而可以为应用程...

阅读(306)

Kafka 是 Apache 基金会中一个流行的、高可靠性的,分布式的消息队列系统。它主要解决的是系统之间异步消息传输的问题,弥补了不同系统之间异构性的差别,实现了数据的解耦和扩展。本文将介绍如何使用 Kafka 将 RDBMS 中的数据实...

阅读(365)

Hadoop 2.7.0发布:不适用于生产和不支持JDK1.6

Hadoop是一种分布式计算框架,常常用于处理大规模数据。Hadoop是Apache软件基金会的开源项目,在其官方网站上可自由下载和使用。Hadoop 2.7.0是Hadoop2.x系列的一个重大版本更新,于2015年4月10日发布。 首先...

阅读(234)

基于Hadoop-2.2.0编译flume-ng 1.4.0及错误解决

Flume是一种高效的数据收集、聚合和传输应用程序,被广泛应用于大数据环境中的数据采集。 Flume-ng是Flume的升级版本,通过引入新的拓扑结构和数据处理功能,使Flume的性能更优,能够满足更多场景下的需求。在Hadoop-2.2....

阅读(249)

Hadoop源码编译与调试

Hadoop是一个开源的分布式计算平台,被广泛应用于大数据处理领域。对于开发人员而言,掌握Hadoop源码的编译与调试技能显得尤为重要。因为当我们在使用Hadoop时发现问题时,如果无法排除掉Hadoop本身的问题,我们就很难确定问题是出在...

阅读(400)

Hadoop是一个开源的分布式计算平台,用于处理海量数据。Hadoop支持各种数据存储和处理技术,其中包括LZO压缩技术。LZO是一种高速压缩算法,在大数据分析和处理中使用广泛。本文将介绍如何在Hadoop 2.2.0中安装和配置LZO。 ...

阅读(375)