admin的文章

大规模 Hadoop 升级在 Pinterest 的实践

Pinterest是一个社交媒体网站，用户可以通过网站或移动应用程序收集，保存和分享各种主题的图像和其他媒体。由于网站的增长，Pinterest需要一个可扩展的数据平台来满足日益增长的数据存储和处理需求。Hadoop是一个流行的开源平台，它...

2024-03-27Hadoop 阅读(852)

Spark SQL利器：cacheTable/uncacheTable 在大数据处理中，SparkSQL 是一个非常强大的工具。当处理数据时，我们需要尽可能地减少读取磁盘数据的时间，因为磁盘通常是一个系统中最慢的组件之一。这就是为什么在S...

2024-03-27Spark 阅读(1002)

在使用 Kafka 进行消息传递时，经常需要获取队列Topic中的元数据信息。通过编程方式获取Kafka中Topic的Metadata信息是非常重要的，这样可以帮助您更好地理解和处理消息。本文介绍了如何通过编程方式获取 Kafka 中 To...

2024-03-27Kafka 阅读(862)

在Shell中，我们可以使用hadoop fs命令来访问Hadoop分布式文件系统（HDFS）。要测试文件或目录是否存在，我们可以使用hadoop fs -test命令。 hadoop fs -test -d $file_path：测试目录...

2024-03-26Hadoop 阅读(1142)

Spark Streaming updateStateByKey案例实战和内幕源码解密前言 Spark 是当下最受欢迎的分布式计算框架之一。Spark Streaming 是 Spark 中的一个核心模块，在数据处理领域中具有非常广泛的用...

2024-03-26Spark 阅读(844)

在现代的应用程序架构中，分布式技术已经变得非常重要。随着数据量和复杂性的不断增加，分布式系统可以帮助我们分担负载，提高性能和可靠性。Kafka是一种分布式消息传递系统，它可以协助我们处理高吞吐量的消息，使得我们能够轻松地在多个应用程序之间传...

2024-03-26Kafka 阅读(892)

Hive是基于Hadoop生态系统的数据仓库系统，是一个分布式的数据仓库解决方案，可以对存储在Hadoop分布式文件系统中的大规模数据进行处理和分析。Hive0.11.0是Hive的一个新版本，它新增了许多功能以提高用户的使用体验，本文将详...

2024-03-25Hadoop 阅读(881)

Spark常用函数讲解之Action操作在进行 Spark 编程时，常常需要使用到 Action 操作。Action 操作是触发 Spark 作业执行的操作，当执行 Action 操作时，Spark 会根据依赖关系生成一个任务 DAG，然...

2024-03-25Spark 阅读(1235)

Apache Avro是一个基于二进制数据序列化格式的Apache项目，它提供了一种通用的、高性能的数据交换格式。Avro是一款轻量级、跨平台的数据序列化工具，可以用于将数据从一种格式转换为另一种格式。这篇文章将介绍如何使用Apache A...

2024-03-25Kafka 阅读(1183)

Hadoop是一个分布式系统，由多个节点组成。在Hadoop集群中，每个节点都会产生大量的日志，包括系统日志、应用程序日志和Hadoop本身的日志等。对于Hadoop管理员和开发人员来说，了解Hadoop日志存放路径非常重要，可以帮助他们快...

2024-03-24Hadoop 阅读(1161)