Mac私塾---一个专注于大数据技术架构与应用分享的技术博客-最新发布-第18页

汽车之家离线计算平台的演进之路

汽车之家是国内领先的汽车媒体，它以提供全面的汽车资讯和服务为目标，为广大用户提供了一平台，包括汽车报价、汽车图片、汽车论坛、汽车选购、汽车资讯等服务。如今，汽车之家已成为国内最大的汽车生活服务平台之一。然而，随着移动互联网、云计算和大数据等...

2023-05-12Kafka 阅读(813)

Hive是一个基于Hadoop的数据仓库工具，它允许用户使用SQL语言来查询数据，并在Hadoop集群上的MapReduce程序中执行这些查询。在Hive中，查询分为两种类型：MapReduce查询和Fetch查询。 MapReduce查询...

2023-05-10Hadoop 阅读(844)

Apache Spark Jobs 性能调优 Apache Spark是一个强大的开源分布式计算框架，用于处理大规模数据集的计算。它可以在大量节点上运行，并且可以快速处理大量数据。但是，当你运行大规模的模型和数据集时，你可能会遇到性能瓶颈。...

2023-05-10Spark 阅读(865)

近日，Kafka团队宣布修改KSQL的开源许可证，将其从Apache 2.0许可证变更为Confluent Community License（简称CCL）。CCL是一种新的开源许可证，它与Apache 2.0类似，但增加了一些限制。其中最...

2023-05-10Kafka 阅读(1127)

Apache Hadoop是一个开源的分布式计算框架，它通过将大规模数据分布在多个节点上，来执行并行计算任务。容器化是一种将应用程序和所需的运行环境封装在一个容器中的技术，容器化可以为应用程序提供更加轻量级的部署方式和更高的环境一致性保证。...

2023-05-09Hadoop 阅读(823)

什么是Spark？ Apache Spark是一个开源的通用内存并行计算引擎，可以用于大规模数据处理。它是Apache Hadoop生态系统中可伸缩性最好的一部分。Spark使得执行批处理、流处理和机器学习等任务更加容易。在Spark中，...

2023-05-09Spark 阅读(994)

Apache Kafka 是一个高可扩展、分布式、基于发布订阅的消息系统。其主要原理是将所有的消息封装在一个 Record 中，然后以 Topic 为单位进行批量发送。Kafka 以可靠性、高吞吐量、性能强劲，支持在线扩展、持久化存储和高并...

2023-05-09Kafka 阅读(820)

Hadoop2.2.0中HDFS的高可用性实现原理主要是通过Hadoop分布式存储技术中的NameNode节点和Secondary NameNode节点实现的。在Hadoop分布式存储技术中，NameNode节点是存储文件系统的节点，它存储...

2023-05-08Hadoop 阅读(843)

一、Spark笔记之使用UDAF（User Defined Aggregate Function）在 Spark 中，UDAF（User Defined Aggregate Function），即用户自定义聚合函数，是一种非常常见的操作。...

2023-05-08Spark 阅读(1424)

随着大数据时代的到来，企业需要运用大数据技术来处理大规模数据，以便更好地理解其业务和客户，做出更明智的决策。而在实时数据处理方面，Kafka、Spark Streaming和Cassandra是流行的选择组合。 Kafka是一个高吞吐量的分...

2023-05-08Kafka 阅读(947)