炼数成金 大数据Spark
订阅

Spark

Spark的RDD原理以及2.0特性的介绍
Spark的RDD原理以及2.0特性的介绍
Spark 是 Apache 顶级项目里面最火的大数据处理的计算引擎,它目前是负责大数据计算的工作。包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。与 Mapreduce 相比,Spark 具备 DAG 执行引擎以及基于内 ...
让数据告诉你未来:Spark Streaming+Kudu+Impala构建预测引擎
让数据告诉你未来:Spark Streaming+Kudu+Impala构建预测引擎
随着用户使用天数的增加,不管你的业务是扩大还是缩减了,为什么你的大数据中心架构保持线性增长的趋势?很明显需要一个稳定的基本架构来保障你的业务线。当你的客户处在休眠期,或者你的业务处在淡季,你增加的计算 ...
Apache Spark在SnappyData支持即时SQL分析
Apache Spark在SnappyData支持即时SQL分析
Pivotal’s GemFire的基于内存数据存储团队最近发布了一种新的数据库解决方案,叫做SnappyData,基于GemFire 和 Apache Spark。SnappyData是最近又出现的一个使用Spark作为组件的数据库解决方案。这种使用Spark的方案 ...
向Spark开炮:1.6版本问题总结与趟坑
向Spark开炮:1.6版本问题总结与趟坑
笔者使用Spark已超过一年,现在公司大部分的批处理任务和机器学习任务都运行在Spark平台之上,MapReduce已经成为历史。目前生产环境刚从Spark 1.4.1升级到最新版Spark 1.6.1,使用Yarn来调度和管理资源。本文将从升 ...
飞一般的感觉!当Spark遇到Redis~
飞一般的感觉!当Spark遇到Redis~
一些内存数据结构比其他数据结构来得更高效;如果充分利用Redis,Spark运行起来速度更快。Apache Spark已逐渐俨然成为下一代大数据处理工具的典范。通过借鉴开源算法,并将处理任务分布到计算节点集群上,无论在它们 ...
如何基于Spark进行用户画像?
如何基于Spark进行用户画像?
近期,comSysto公司分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历,为Spark等平台应用于数据科学领域提供了借鉴。主办方提供了一个包含5万个匿名驾驶员线路的数据集,竞赛的目的是根据路线研发出一个 ...
基于Spark的异构分布式深度学习平台
基于Spark的异构分布式深度学习平台
深层神经网络技术最近几年取得了巨大的突破,特别在语音和图像识别应用上有质的飞跃,已经被验证能够使用到许多业务上。如何大规模分布式地执行深度学习程序,使其更好地支持不同的业务线成为当务之急。在过去两年, ...
Spark Streaming快速状态流处理
Spark Streaming快速状态流处理
许多复杂流处理流水线程序必须将状态保持一段时间,例如,如果你想实时了解网站用户行为,你需要将网站上各“用户会话(user session)”信息保存为持久状态并根据用户的行为对这一状态进行持续更新。这种有状态的流 ...
大数据不同的瑞士军刀:对比 Spark 和 MapReduce
大数据不同的瑞士军刀:对比 Spark 和 MapReduce
Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。作为一个开源的数据处理框架,Spark ...
Spark:性能不断提升、生态系统渐趋完善、应用规模不断扩大
Spark:性能不断提升、生态系统渐趋完善、应用规模不断扩大
Spark生态系统渐趋完善。支持的外部数据源越来越多,支持的算子越来越丰富,自身的机器学习算法越来越完善。同时在API支持上也有很大进步,新增加的R语言API使得Spark能被更多的行业所接受。Spark的应用范围和规模在 ...
大数据盘点之Spark篇
大数据盘点之Spark篇
作者简介谭政,Hulu 网大数据基础平台研发。曾在新浪微博平台工作过。专注于大数据存储和处理,对 Hadoop、HBase 以及 Spark 等等均有深入的了解。Spark 最新的特性以及功能2015 年中 Spark 版本从 1.2.1 升级到当前 ...
讲个故事:一个SparkSQL作业的一生
讲个故事:一个SparkSQL作业的一生
Spark是时下很火的计算框架,由UC Berkeley AMP Lab研发,并由原班人马创建的Databricks负责商业化相关事务。而SparkSQL则是Spark之上搭建的SQL解决方案,主打交互查询场景。人人都说Spark/SparkSQL快,各种Benchma ...
基于Spark的机器学习经验
基于Spark的机器学习经验
作者简介祝威廉目前在乐视云数据部门里从事实时计算,数据平台、搜索和推荐等多个方向。曾从事基础框架,搜索研发四年,大数据平台架构、推荐三年多,个人时间现专注于集群自动化部署,服务管理,资源自动化调度等方 ...
SparkR:数据科学家的新利器
SparkR:数据科学家的新利器
是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R A ...
SparkInAction 图计算 用户关系染色分析
SparkInAction 图计算 用户关系染色分析
前言需求:如果一个用户使用了某个手机,这个手机上登录过其他的用户,那么这些用户是有关系的,同样用户关联到的用户又可以通过手机关联到其他用户这样就构成了一个强大的关系网。现在给出用户与手机登录关系表,请 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

热门文章

社区热帖

     

    GMT+8, 2020-12-2 08:27 , Processed in 0.125039 second(s), 16 queries .