admin的文章

Apache Spark Jobs 性能调优

Apache Spark Jobs 性能调优 Apache Spark是一个强大的开源分布式计算框架，用于处理大规模数据集的计算。它可以在大量节点上运行，并且可以快速处理大量数据。但是，当你运行大规模的模型和数据集时，你可能会遇到性能瓶颈。...

2023-05-10Spark 阅读(805)

近日，Kafka团队宣布修改KSQL的开源许可证，将其从Apache 2.0许可证变更为Confluent Community License（简称CCL）。CCL是一种新的开源许可证，它与Apache 2.0类似，但增加了一些限制。其中最...

2023-05-10Kafka 阅读(1051)

Apache Hadoop是一个开源的分布式计算框架，它通过将大规模数据分布在多个节点上，来执行并行计算任务。容器化是一种将应用程序和所需的运行环境封装在一个容器中的技术，容器化可以为应用程序提供更加轻量级的部署方式和更高的环境一致性保证。...

2023-05-09Hadoop 阅读(764)

什么是Spark？ Apache Spark是一个开源的通用内存并行计算引擎，可以用于大规模数据处理。它是Apache Hadoop生态系统中可伸缩性最好的一部分。Spark使得执行批处理、流处理和机器学习等任务更加容易。在Spark中，...

2023-05-09Spark 阅读(927)

Apache Kafka 是一个高可扩展、分布式、基于发布订阅的消息系统。其主要原理是将所有的消息封装在一个 Record 中，然后以 Topic 为单位进行批量发送。Kafka 以可靠性、高吞吐量、性能强劲，支持在线扩展、持久化存储和高并...

2023-05-09Kafka 阅读(762)

Hadoop2.2.0中HDFS的高可用性实现原理主要是通过Hadoop分布式存储技术中的NameNode节点和Secondary NameNode节点实现的。在Hadoop分布式存储技术中，NameNode节点是存储文件系统的节点，它存储...

2023-05-08Hadoop 阅读(797)

一、Spark笔记之使用UDAF（User Defined Aggregate Function）在 Spark 中，UDAF（User Defined Aggregate Function），即用户自定义聚合函数，是一种非常常见的操作。...

2023-05-08Spark 阅读(1367)

随着大数据时代的到来，企业需要运用大数据技术来处理大规模数据，以便更好地理解其业务和客户，做出更明智的决策。而在实时数据处理方面，Kafka、Spark Streaming和Cassandra是流行的选择组合。 Kafka是一个高吞吐量的分...

2023-05-08Kafka 阅读(890)

HDFS快照是一项有用的功能，可以减少数据丢失和恢复数据的时间。在HDFS中创建快照会在指定目录中创建一个只读副本，该副本包含文件系统的文件和目录结构。在进行快照之后，用户可以安全地修改原始文件系统（也就是快照创建之前存在的文件），并在需要...

2023-05-08Hadoop 阅读(1479)

Spark三种连接Join 在大数据处理过程中，Spark是一种常用的工具。Spark中实现连接的方式有三种: Inner、Outer和Cross Join。本文将详细介绍这三种连接类型的区别以及相应的使用场景。 Inner Join In...

2023-05-08Spark 阅读(1437)