炼数成金 大数据Spark
订阅

Spark

Spark Operator 初体验
Spark Operator 初体验
目前企业级的大数据应用主流还是采用Yarn或者Mesos来进行资源分配和运行调度的,例如我行目前采用Yarn来进行作业调度,并使用HDFS作为大数据的存储平台,这是典型的计算和存储紧耦合的模式,这种方案是通过数据本地 ...
Spark SQL 物化视图技术原理与实践
Spark SQL 物化视图技术原理与实践
物化视图主要用于预先计算并保存表连接或聚合等耗时较多的操作的结果,这样,在执行查询时,就可以避免进行这些耗时的操作,从而快速的得到结果。物化视图使用查询重写(query rewrite)机制,不需要修改原有的查询 ...
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Spark 诞生于加州大学伯克利分校的 AMPLab 实验室,该实验室致力于数据密集型计算的研究。AMPLab 研究人员与大型互联网公司合作,研究如何解决数据和 AI 问题,然后发现那些拥有海量数据的公司也面临同样的问题。于 ...
Spark 3.0开发近两年终于发布,流、Python、SQL重大更新详解
Spark 3.0开发近两年终于发布,流、Python、SQL重大更新详解
Spark 诞生于加州大学伯克利分校的 AMPLab 实验室,该实验室致力于数据密集型计算的研究。AMPLab 研究人员与大型互联网公司合作,研究如何解决数据和 AI 问题,然后发现那些拥有海量数据的公司也面临同样的问题。于 ...
Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析
Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析
Apache Spark 3.0 增加了很多令人兴奋的新特性,包括动态分区修剪、自适应查询执行、加速器感知调度、支持 Catalog 的数据源API、SparkR 中的向量化、支持 Hadoop 3/JDK 11/Scala 2.12 等等。这个版本一共解决了 340 ...
Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能
Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能
多年以来,社区一直在努力改进 Spark SQL 的查询优化器和规划器,以生成高质量的查询执行计划。最大的改进之一是基于成本的优化(CBO,cost-based optimization)框架,该框架收集并利用各种数据统计信息(如行数, ...
Spark+Alluxio性能调优十大技巧
Spark+Alluxio性能调优十大技巧
由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎。此外,越来越流行的计算与存储分离的架构导致计算端查询延迟增大。因此,Alluxio常被用作贴近计算端的 ...
一篇文章搞懂 PySpark MLlib
一篇文章搞懂 PySpark MLlib
我们的目标,是要设计这么一个系统,当把一张拥有很多字段的表给系统,系统自动抽取出特征,这些特征可以给机器学习算法如SVM,贝叶斯之类的,也可以适配深度学习的要求。初看起来显得野心太大,但也不是不可能,我们 ...
用Python语言写Spark
用Python语言写Spark
Spark 是目前大数据处理的事实标准。PySpark能让你使用Python语言来写Spark程序。我们先做一个最简单的字符数统计程序。这样我们就知道一个PySpark程序是什么样子,以及如何运转起来。在很多情况下,单机模式足够我 ...
如何衔接Spark 和Tensorflow?
如何衔接Spark 和Tensorflow?
我们知道,Spark 目前是大数据处理组件的王者,实现了让大数据处理更轻松的远景。Tensorflow则是深度学习当之无愧最热的框架。而在现实当中,Spark 和Tensorflow的衔接往往是脱节的。我们希望保留Spark/TF各自的优势 ...
Spark Streaming VS Flink
Spark Streaming VS Flink
Spark Streaming 是微批处理,运行的时候需要指定批处理的时间,每次运行 job 时处理一个批次的数据。Flink 是基于事件驱动的,事件可以理解为消息。事件驱动的应用程序是一种状态应用程序,它会从一个或者多个流中 ...
Spark SQL在100TB上的自适应执行实践
Spark SQL在100TB上的自适应执行实践
Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。 ...
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
自从数据处理需求超过了传统数据库能有效处理的数据量之后,Hadoop 等各种基于 MapReduce 的海量数据处理系统应运而生。从 2004 年 Google 发表 MapReduce 论文开始,经过近 10 年的发展,基于 Hadoop 开源生态或者 ...
Spark SQL 你需要知道的十件事
Spark SQL 你需要知道的十件事
本文从十个方面介绍 Spark SQL 的使用及注意事项,主要包括:Spark SQL 使用场景、数据加载:云和本地, RDDs 和 DataFrames、SQL 和 DataFrame API 比较,它们之间的区别、模式: 隐式和显示模式解释,数据类型、数据 ...
Apache Spark 统一内存管理模型详解
Apache Spark 统一内存管理模型详解
我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用 Spark,深入地理解其内存管理模型具有非常重要的意义,这有助于我们对 Spark 进行更好的调 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

热门文章

社区热帖

     

    GMT+8, 2020-12-2 08:00 , Processed in 0.120463 second(s), 16 queries .