Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第14页

Uber 大数据平台的演进(2014~2019)

Uber是全球最大的出行服务公司之一,拥有海量的出行数据。在这些数据的基础上,Uber搭建了一个大数据平台,来支撑公司的决策和业务发展。这个大数据平台的演进经历了多个阶段。 2014年,Uber的大数据平台处于起步阶段,主要是为了支持公司的...

Kafka 阅读(228)

SQL on Hadoop是指在Hadoop生态系统中使用SQL查询和分析大型数据集。传统上,Hadoop被视为一种适用于大数据存储和处理的非关系型数据平台,但随着企业对数据分析需求的增加,越来越多的SQL on Hadoop解决方案面世,...

Hadoop 阅读(217)

Spark SparkContext

什么是Spark和SparkContext? Apache Spark是一个分布式大数据处理和计算引擎,适用于批量处理、流处理和交互式查询。SparkContext是Spark的核心引擎,是连接Spark应用程序和集群管理器的重要接口。在S...

Spark 阅读(195)

基于Spark的公安大数据实时运维技术实践

公安大数据实时运维技术是一种基于云计算和大数据技术的公安数据处理、存储和应用一体化解决方案,可以将信息快速转化成有价值的数据,为公安工作提供支持。其中Spark作为一个分布式计算框架,为公安大数据实时运维技术提供了强大的计算能力。本文将从以...

Kafka 阅读(193)

字节跳动 EB 级 HDFS 实践

字节跳动作为一家大型互联网企业,需要处理大规模的数据,因此字节跳动使用了Hadoop分布式计算系统以及其上面的分布式文件系统HDFS来管理数据。随着数据量的不断增大,为了更好地满足公司业务的需求,字节跳动进行了一次HDFS的升级,采用了EB...

Hadoop 阅读(280)

如何给运行在YARN上的MapReduce作业配置内存

在Hadoop中,MapReduce作业是通过YARN(Yet Another Resource Negotiator)提供的资源管理器来调度和管理的。在运行MapReduce作业时,我们可以通过设置一些参数,来配置作业所需要的内存资源。本...

Kafka 阅读(215)

Spark SQL

什么是Spark SQL? Apache Spark是一个快速、通用的大规模数据处理引擎,旨在提供易于使用的基于内存的分布式计算方法。Spark SQL是Spark中一个新的模块,用于结构化数据处理。Spark SQL对于SQL语言是高度兼...

Spark 阅读(204)

Apache Kafka 2.3 发布,新特性讲解

Apache Kafka是一个分布式流处理平台,用于高吞吐量的发布和订阅消息。在2019年6月,Apache Kafka发布了最新的版本2.3,该版本增加了一些新的特性和改进。以下是Apache Kafka 2.3的一些新特性简要概述。 K...

Kafka 阅读(241)