炼数成金 大数据Spark
订阅

Spark

扩展Spark ML来构建你自己的模型和变换器类型
扩展Spark ML来构建你自己的模型和变换器类型
尽管Spark ML管道提供了各种各样的算法,你仍可能想要额外的功能,并且不脱离管道模型。在Spark Mllib中,这算不上什么问题,你可以通过RDD的变换来实现你自己的算法,并继续下去。对于Spark ML 管道来说,同样的方 ...
Spark +深度学习:如何使用SparkNet进行分布式深度神经网络训练
Spark +深度学习:如何使用SparkNet进行分布式深度神经网络训练
现如今,深度学习是机器学习中最热门的一种方法,与此同时,它还在继续取得显著成果。深度神经网络在不断地被证实是一门既有用又具有创新性的学科技术。该技术已经证明了其在之前停滞不前的研究领域中取得重大进展的 ...
60 TB数据:Facebook 是如何大规模使用 Apache Spark 的
60 TB数据:Facebook 是如何大规模使用 Apache Spark 的
Facebook 经常使用数据驱动的分析方法来做决策。在过去的几年,用户和产品的增长已经需要我们的分析工程师一次查询就要操作数十 TB 大小的数据集。我们的一些批量分析执行在古老的 Hive 平台( Apache Hive 由 Faceb ...
Spark这是要一统江湖的节奏
Spark这是要一统江湖的节奏
Spark创始人Matei最近在spark submmit上做了一次演讲,看了内容会发现spark这是要一统江湖的架势,一起来看看都介绍了什么内容。Spark一直以来想做的一个事情就是统一整个大数据分析引擎,高层易用的API是核心竞争力 ...
Spark Streaming应用与实战全攻略
Spark Streaming应用与实战全攻略
以对于以上的架构存在一些问题,我们可以看见数据在Dubbox服务阶段处理后直接通过HBase API入库了HBase,中间并没做任何缓冲,要是HBase出现了问题整个集群都完蛋,没法写入数据,数据还丢失,HBase这边压力也相当大 ...
流式大数据处理的三种框架:Storm,Spark和Samza
流式大数据处理的三种框架:Storm,Spark和Samza
在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括s ...
在Apache Spark 2.0中使用DataFrames和SQL
在Apache Spark 2.0中使用DataFrames和SQL
Spark 2.0开发的一个动机是让它可以触及更广泛的受众,特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此,Spark 2.0现在比以往更易使用。在这部分,我将介绍如何使用Apache Spark 2.0。并将重点 ...
基于Spark的用户行为路径分析
基于Spark的用户行为路径分析
互联网行业越来越重视自家客户的一些行为偏好了,无论是电商行业还是金融行业,基于用户行为可以做出很多东西,电商行业可以归纳出用户偏好为用户推荐商品,金融行业可以把用户行为作为反欺诈的一个点,本文主要介绍 ...
Spark日志清洗一般流程
Spark日志清洗一般流程
对于使用spark作为查询清洗工具而言,启动spark的套路主要使用sh文件进行终端带参数启动,启动后开始调用sh传递处理参数,并且构造好sparkconf后传递提交(spark-submit) python文件,当然最主要的函数逻辑都是在pytho ...
谈谈RDD、DataFrame、Dataset的区别和各自的优势
谈谈RDD、DataFrame、Dataset的区别和各自的优势
RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利;三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算, ...
Spark知识体系完整解读
Spark知识体系完整解读
Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的 ...
Spark 2.1.1发布,建议所有 2.1.x 用户升级
Spark 2.1.1发布,建议所有 2.1.x 用户升级
今天凌晨Spark 2.1.1对外发布,该版本是基于branch-2.1的维护版本,建议所有Spark 2.1.x用户升级到该版本。据统计,相比于Spark 2.1.0,该版本:修复了179个bug;加入了33个改进;增加了4个新特性。
用Apache Spark 2.2中的结构化流处理API处理Kafka数据
用Apache Spark 2.2中的结构化流处理API处理Kafka数据
Apache Kafka是一种分布式的发布-订阅消息系统,它的流行主要因为它能事实处理数据流并且能同时让下游消费者得到数据,并且容错性好。这也使得Kafka非常合适用来构造实时流数据处理系统使数据在不同处理系统中流动。 ...
Spark Block存储管理分析
Spark Block存储管理分析
Apache Spark中,对Block的查询、存储管理,是通过唯一的Block ID来进行区分的。所以,了解Block ID的生成规则,能够帮助我们了解Block查询、存储过程中是如何定位Block以及如何处理互斥存储/读取同一个Block的。可 ...
基于Spark与ROS的分布式无人驾驶模拟平台
基于Spark与ROS的分布式无人驾驶模拟平台
无人驾驶的安全性和可靠性是通过海量的功能和性能测试来保证的。无人驾驶系统是一个复杂的系统工程,在它的整个研发流程中,测试工作至关重要同时也繁重复杂。显然将全部测试工作都集中在真车上进行是一种成本异常高 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

    社区热帖

       

      GMT+8, 2020-2-29 19:55 , Processed in 0.128568 second(s), 16 queries .