 

Hadoop

Hive连接HDFS端口错误解决方法

在使用Hive时，有时会遇到连接Hadoop分布式文件系统（HDFS）的端口错误。这种错误可能会导致Hive无法正常连接到HDFS，从而无法读取或写入数据。在本文中，将介绍如何解决这种连接HDFS端口错误的问题。首先，需要了解一下Hado...

2024-04-06阅读(2649)

Submarine是Apache Hadoop中的深度学习框架，可以让开发者在大数据平台上进行机器学习或深度学习的训练、推理等任务。它是Hadoop社区最新推出的项目，旨在解决深度学习任务在大数据平台中的难点，比如资源管理、数据共享等问题。...

2024-04-05阅读(1839)

Hadoop是一个开源的分布式计算系统，它可以运行在大规模集群上，具有高可靠性、高容错性和高扩展性等特点。但是，在生产环境下使用Hadoop时，我们需要考虑数据的安全性问题。为了保障数据的安全性，Hadoop提供了安全模式，本文将详细介绍H...

2024-04-04阅读(2764)

Hadoop Distributed File System（HDFS）是一种分布式文件系统，已经被广泛用于大数据处理。B 站作为一个大型的视频分享网站，也使用了 HDFS，来储存和管理数据。在 B 站的探索和实践中，HDFS 发挥了重要的...

2024-04-03阅读(1078)

在Spark应用程序的开发中，通常会依赖一些外部的Jar包，这些Jar包包含了Spark中一些重要的组件和功能，例如Spark SQL、GraphX等等。在执行Spark作业时，这些依赖的Jar包需要被分发到集群的每个节点，从而可以为应用程...

2024-04-02阅读(1077)

Kafka 是 Apache 基金会中一个流行的、高可靠性的，分布式的消息队列系统。它主要解决的是系统之间异步消息传输的问题，弥补了不同系统之间异构性的差别，实现了数据的解耦和扩展。本文将介绍如何使用 Kafka 将 RDBMS 中的数据实...

2024-04-01阅读(1571)

Hadoop是一种分布式计算框架，常常用于处理大规模数据。Hadoop是Apache软件基金会的开源项目，在其官方网站上可自由下载和使用。Hadoop 2.7.0是Hadoop2.x系列的一个重大版本更新，于2015年4月10日发布。首先...

2024-03-31阅读(900)

Flume是一种高效的数据收集、聚合和传输应用程序，被广泛应用于大数据环境中的数据采集。 Flume-ng是Flume的升级版本，通过引入新的拓扑结构和数据处理功能，使Flume的性能更优，能够满足更多场景下的需求。在Hadoop-2.2....

2024-03-30阅读(1040)

Hadoop是一个开源的分布式计算平台，被广泛应用于大数据处理领域。对于开发人员而言，掌握Hadoop源码的编译与调试技能显得尤为重要。因为当我们在使用Hadoop时发现问题时，如果无法排除掉Hadoop本身的问题，我们就很难确定问题是出在...

2024-03-29阅读(1225)

Hadoop是一个开源的分布式计算平台，用于处理海量数据。Hadoop支持各种数据存储和处理技术，其中包括LZO压缩技术。LZO是一种高速压缩算法，在大数据分析和处理中使用广泛。本文将介绍如何在Hadoop 2.2.0中安装和配置LZO。 ...

2024-03-28阅读(1552)