炼数成金 大数据Spark
订阅

Spark

Spark 3.0开发近两年终于发布,流、Python、SQL重大更新详解
Spark 3.0开发近两年终于发布,流、Python、SQL重大更新详解
Spark 诞生于加州大学伯克利分校的 AMPLab 实验室,该实验室致力于数据密集型计算的研究。AMPLab 研究人员与大型互联网公司合作,研究如何解决数据和 AI 问题,然后发现那些拥有海量数据的公司也面临同样的问题。于 ...
Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析
Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析
Apache Spark 3.0 增加了很多令人兴奋的新特性,包括动态分区修剪、自适应查询执行、加速器感知调度、支持 Catalog 的数据源API、SparkR 中的向量化、支持 Hadoop 3/JDK 11/Scala 2.12 等等。这个版本一共解决了 340 ...
Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能
Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能
多年以来,社区一直在努力改进 Spark SQL 的查询优化器和规划器,以生成高质量的查询执行计划。最大的改进之一是基于成本的优化(CBO,cost-based optimization)框架,该框架收集并利用各种数据统计信息(如行数, ...
Spark+Alluxio性能调优十大技巧
Spark+Alluxio性能调优十大技巧
由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎。此外,越来越流行的计算与存储分离的架构导致计算端查询延迟增大。因此,Alluxio常被用作贴近计算端的 ...
一篇文章搞懂 PySpark MLlib
一篇文章搞懂 PySpark MLlib
我们的目标,是要设计这么一个系统,当把一张拥有很多字段的表给系统,系统自动抽取出特征,这些特征可以给机器学习算法如SVM,贝叶斯之类的,也可以适配深度学习的要求。初看起来显得野心太大,但也不是不可能,我们 ...
用Python语言写Spark
用Python语言写Spark
Spark 是目前大数据处理的事实标准。PySpark能让你使用Python语言来写Spark程序。我们先做一个最简单的字符数统计程序。这样我们就知道一个PySpark程序是什么样子,以及如何运转起来。在很多情况下,单机模式足够我 ...
如何衔接Spark 和Tensorflow?
如何衔接Spark 和Tensorflow?
我们知道,Spark 目前是大数据处理组件的王者,实现了让大数据处理更轻松的远景。Tensorflow则是深度学习当之无愧最热的框架。而在现实当中,Spark 和Tensorflow的衔接往往是脱节的。我们希望保留Spark/TF各自的优势 ...
Spark Streaming VS Flink
Spark Streaming VS Flink
Spark Streaming 是微批处理,运行的时候需要指定批处理的时间,每次运行 job 时处理一个批次的数据。Flink 是基于事件驱动的,事件可以理解为消息。事件驱动的应用程序是一种状态应用程序,它会从一个或者多个流中 ...
Spark SQL在100TB上的自适应执行实践
Spark SQL在100TB上的自适应执行实践
Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。 ...
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
自从数据处理需求超过了传统数据库能有效处理的数据量之后,Hadoop 等各种基于 MapReduce 的海量数据处理系统应运而生。从 2004 年 Google 发表 MapReduce 论文开始,经过近 10 年的发展,基于 Hadoop 开源生态或者 ...
Spark SQL 你需要知道的十件事
Spark SQL 你需要知道的十件事
本文从十个方面介绍 Spark SQL 的使用及注意事项,主要包括:Spark SQL 使用场景、数据加载:云和本地, RDDs 和 DataFrames、SQL 和 DataFrame API 比较,它们之间的区别、模式: 隐式和显示模式解释,数据类型、数据 ...
Apache Spark 统一内存管理模型详解
Apache Spark 统一内存管理模型详解
我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用 Spark,深入地理解其内存管理模型具有非常重要的意义,这有助于我们对 Spark 进行更好的调 ...
Apache Spark 2.3 重要特性介绍
Apache Spark 2.3 重要特性介绍
为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;通过改善 pa ...
Apache Spark强势崛起
Apache Spark强势崛起
Apache Spark是在2012年开源的,两年后又发布了第一个稳定版本,它很快就成为大数据领域的杰出工具。从那时起,大数据公司采用Spark就的增长速度引人注目。毫无疑问,内存的处理是Spark的一个关键特性,从技术上,处 ...
Spark Streaming笔记——技术点汇总
Spark Streaming笔记——技术点汇总
Spark Streaming支持实时数据流的可扩展(scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。Spark在接收到实时输入数据流后,将数据划分成批次(divides the data int ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2020-7-16 21:26 , Processed in 0.113462 second(s), 16 queries .