炼数成金 大数据Spark
订阅

Spark

Spark+Alluxio性能调优十大技巧
Spark+Alluxio性能调优十大技巧
由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎。此外,越来越流行的计算与存储分离的架构导致计算端查询延迟增大。因此,Alluxio常被用作贴近计算端的 ...
一篇文章搞懂 PySpark MLlib
一篇文章搞懂 PySpark MLlib
我们的目标,是要设计这么一个系统,当把一张拥有很多字段的表给系统,系统自动抽取出特征,这些特征可以给机器学习算法如SVM,贝叶斯之类的,也可以适配深度学习的要求。初看起来显得野心太大,但也不是不可能,我们 ...
用Python语言写Spark
用Python语言写Spark
Spark 是目前大数据处理的事实标准。PySpark能让你使用Python语言来写Spark程序。我们先做一个最简单的字符数统计程序。这样我们就知道一个PySpark程序是什么样子,以及如何运转起来。在很多情况下,单机模式足够我 ...
如何衔接Spark 和Tensorflow?
如何衔接Spark 和Tensorflow?
我们知道,Spark 目前是大数据处理组件的王者,实现了让大数据处理更轻松的远景。Tensorflow则是深度学习当之无愧最热的框架。而在现实当中,Spark 和Tensorflow的衔接往往是脱节的。我们希望保留Spark/TF各自的优势 ...
Spark Streaming VS Flink
Spark Streaming VS Flink
Spark Streaming 是微批处理,运行的时候需要指定批处理的时间,每次运行 job 时处理一个批次的数据。Flink 是基于事件驱动的,事件可以理解为消息。事件驱动的应用程序是一种状态应用程序,它会从一个或者多个流中 ...
Spark SQL在100TB上的自适应执行实践
Spark SQL在100TB上的自适应执行实践
Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。 ...
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
自从数据处理需求超过了传统数据库能有效处理的数据量之后,Hadoop 等各种基于 MapReduce 的海量数据处理系统应运而生。从 2004 年 Google 发表 MapReduce 论文开始,经过近 10 年的发展,基于 Hadoop 开源生态或者 ...
Spark SQL 你需要知道的十件事
Spark SQL 你需要知道的十件事
本文从十个方面介绍 Spark SQL 的使用及注意事项,主要包括:Spark SQL 使用场景、数据加载:云和本地, RDDs 和 DataFrames、SQL 和 DataFrame API 比较,它们之间的区别、模式: 隐式和显示模式解释,数据类型、数据 ...
Apache Spark 统一内存管理模型详解
Apache Spark 统一内存管理模型详解
我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用 Spark,深入地理解其内存管理模型具有非常重要的意义,这有助于我们对 Spark 进行更好的调 ...
Apache Spark 2.3 重要特性介绍
Apache Spark 2.3 重要特性介绍
为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;通过改善 pa ...
Apache Spark强势崛起
Apache Spark强势崛起
Apache Spark是在2012年开源的,两年后又发布了第一个稳定版本,它很快就成为大数据领域的杰出工具。从那时起,大数据公司采用Spark就的增长速度引人注目。毫无疑问,内存的处理是Spark的一个关键特性,从技术上,处 ...
Spark Streaming笔记——技术点汇总
Spark Streaming笔记——技术点汇总
Spark Streaming支持实时数据流的可扩展(scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。Spark在接收到实时输入数据流后,将数据划分成批次(divides the data int ...
基于Kafka与Spark的实时大数据质量监控平台
基于Kafka与Spark的实时大数据质量监控平台
本案例介绍了微软大数据平台团队设计和部署的基于开源技术(Kafka、Spark、ElasticsSearch、Kibana)的大数据质量监控平台,这个平台具有实时、高可用、可扩展、高度可信的特性,成为微软Bing、Office365、Skype等年 ...
Spark Streaming计算模型及监控
Spark Streaming计算模型及监控
Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用Spark Streaming方面的技术架构,并着重讲解Spark Streamin ...
Apache Spark 2.2.0 正式发布,提高可用性和稳定性
Apache Spark 2.2.0 正式发布,提高可用性和稳定性
Apache Spark 2.2.0 正式发布,这也是 2.x 系列的第三个版本。此版本移除了 Structured Streaming 的实验标记(experimental tag),意味着已可以放心在线上使用。该版本的主要更新内容主要针对的是系统的可用性、稳 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-1-18 17:37 , Processed in 0.081910 second(s), 16 queries .