一个专注于大数据技术架构与应用分享的技术博客

admin的文章

Apache Spark Jobs 性能调优

Apache Spark Jobs 性能调优 Apache Spark是一个强大的开源分布式计算框架,用于处理大规模数据集的计算。它可以在大量节点上运行,并且可以快速处理大量数据。但是,当你运行大规模的模型和数据集时,你可能会遇到性能瓶颈。...

Spark 阅读(349)

Apache Hadoop 基础设施容器化在 Uber 的实践

Apache Hadoop是一个开源的分布式计算框架,它通过将大规模数据分布在多个节点上,来执行并行计算任务。容器化是一种将应用程序和所需的运行环境封装在一个容器中的技术,容器化可以为应用程序提供更加轻量级的部署方式和更高的环境一致性保证。...

Hadoop 阅读(275)

Spark之Task原理分析

什么是Spark? Apache Spark是一个开源的通用内存并行计算引擎,可以用于大规模数据处理。它是Apache Hadoop生态系统中可伸缩性最好的一部分。Spark使得执行批处理、流处理和机器学习等任务更加容易。 在Spark中,...

Spark 阅读(411)

Apache Kafka 原理与架构

Apache Kafka 是一个高可扩展、分布式、基于发布订阅的消息系统。其主要原理是将所有的消息封装在一个 Record 中,然后以 Topic 为单位进行批量发送。Kafka 以可靠性、高吞吐量、性能强劲,支持在线扩展、持久化存储和高并...

Kafka 阅读(303)

Hadoop2.2.0中HDFS的高可用性实现原理

Hadoop2.2.0中HDFS的高可用性实现原理主要是通过Hadoop分布式存储技术中的NameNode节点和Secondary NameNode节点实现的。在Hadoop分布式存储技术中,NameNode节点是存储文件系统的节点,它存储...

Hadoop 阅读(301)

如何使用HDFS API创建和管理快照

HDFS快照是一项有用的功能,可以减少数据丢失和恢复数据的时间。在HDFS中创建快照会在指定目录中创建一个只读副本,该副本包含文件系统的文件和目录结构。在进行快照之后,用户可以安全地修改原始文件系统(也就是快照创建之前存在的文件),并在需要...

Hadoop 阅读(687)

spark三种连接join

Spark三种连接Join 在大数据处理过程中,Spark是一种常用的工具。Spark中实现连接的方式有三种: Inner、Outer和Cross Join。本文将详细介绍这三种连接类型的区别以及相应的使用场景。 Inner Join In...

Spark 阅读(716)