炼数成金 大数据Spark
订阅

Spark

Apache Spark 统一内存管理模型详解
Apache Spark 统一内存管理模型详解
我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用 Spark,深入地理解其内存管理模型具有非常重要的意义,这有助于我们对 Spark 进行更好的调 ...
Apache Spark 2.3 重要特性介绍
Apache Spark 2.3 重要特性介绍
为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;通过改善 pa ...
Apache Spark强势崛起
Apache Spark强势崛起
Apache Spark是在2012年开源的,两年后又发布了第一个稳定版本,它很快就成为大数据领域的杰出工具。从那时起,大数据公司采用Spark就的增长速度引人注目。毫无疑问,内存的处理是Spark的一个关键特性,从技术上,处 ...
Spark Streaming笔记——技术点汇总
Spark Streaming笔记——技术点汇总
Spark Streaming支持实时数据流的可扩展(scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。Spark在接收到实时输入数据流后,将数据划分成批次(divides the data int ...
基于Kafka与Spark的实时大数据质量监控平台
基于Kafka与Spark的实时大数据质量监控平台
本案例介绍了微软大数据平台团队设计和部署的基于开源技术(Kafka、Spark、ElasticsSearch、Kibana)的大数据质量监控平台,这个平台具有实时、高可用、可扩展、高度可信的特性,成为微软Bing、Office365、Skype等年 ...
Spark Streaming计算模型及监控
Spark Streaming计算模型及监控
Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用Spark Streaming方面的技术架构,并着重讲解Spark Streamin ...
Apache Spark 2.2.0 正式发布,提高可用性和稳定性
Apache Spark 2.2.0 正式发布,提高可用性和稳定性
Apache Spark 2.2.0 正式发布,这也是 2.x 系列的第三个版本。此版本移除了 Structured Streaming 的实验标记(experimental tag),意味着已可以放心在线上使用。该版本的主要更新内容主要针对的是系统的可用性、稳 ...
扩展Spark ML来构建你自己的模型和变换器类型
扩展Spark ML来构建你自己的模型和变换器类型
尽管Spark ML管道提供了各种各样的算法,你仍可能想要额外的功能,并且不脱离管道模型。在Spark Mllib中,这算不上什么问题,你可以通过RDD的变换来实现你自己的算法,并继续下去。对于Spark ML 管道来说,同样的方 ...
Spark +深度学习:如何使用SparkNet进行分布式深度神经网络训练
Spark +深度学习:如何使用SparkNet进行分布式深度神经网络训练
现如今,深度学习是机器学习中最热门的一种方法,与此同时,它还在继续取得显著成果。深度神经网络在不断地被证实是一门既有用又具有创新性的学科技术。该技术已经证明了其在之前停滞不前的研究领域中取得重大进展的 ...
60 TB数据:Facebook 是如何大规模使用 Apache Spark 的
60 TB数据:Facebook 是如何大规模使用 Apache Spark 的
Facebook 经常使用数据驱动的分析方法来做决策。在过去的几年,用户和产品的增长已经需要我们的分析工程师一次查询就要操作数十 TB 大小的数据集。我们的一些批量分析执行在古老的 Hive 平台( Apache Hive 由 Faceb ...
Spark这是要一统江湖的节奏
Spark这是要一统江湖的节奏
Spark创始人Matei最近在spark submmit上做了一次演讲,看了内容会发现spark这是要一统江湖的架势,一起来看看都介绍了什么内容。Spark一直以来想做的一个事情就是统一整个大数据分析引擎,高层易用的API是核心竞争力 ...
Spark Streaming应用与实战全攻略
Spark Streaming应用与实战全攻略
以对于以上的架构存在一些问题,我们可以看见数据在Dubbox服务阶段处理后直接通过HBase API入库了HBase,中间并没做任何缓冲,要是HBase出现了问题整个集群都完蛋,没法写入数据,数据还丢失,HBase这边压力也相当大 ...
流式大数据处理的三种框架:Storm,Spark和Samza
流式大数据处理的三种框架:Storm,Spark和Samza
在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括s ...
在Apache Spark 2.0中使用DataFrames和SQL
在Apache Spark 2.0中使用DataFrames和SQL
Spark 2.0开发的一个动机是让它可以触及更广泛的受众,特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此,Spark 2.0现在比以往更易使用。在这部分,我将介绍如何使用Apache Spark 2.0。并将重点 ...
基于Spark的用户行为路径分析
基于Spark的用户行为路径分析
互联网行业越来越重视自家客户的一些行为偏好了,无论是电商行业还是金融行业,基于用户行为可以做出很多东西,电商行业可以归纳出用户偏好为用户推荐商品,金融行业可以把用户行为作为反欺诈的一个点,本文主要介绍 ...

热门频道

 • 大数据
 • 商业智能
 • 量化投资
 • 科学探索
 • 创业

热门文章

  社区热帖

    

   GMT+8, 2021-9-25 04:25 , Processed in 0.148554 second(s), 16 queries .