炼数成金 大数据Spark
订阅

Spark

基于Spark GraphX实现微博二度关系推荐
基于Spark GraphX实现微博二度关系推荐
二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好友两种类型,二度关系则得到关注的关注、关注的好友、好友的关注、好友 ...
最全的Spark基础知识解答
最全的Spark基础知识解答
UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而 ...
四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍
四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍
腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2 ...
Spark在GrowingIO数据无埋点全量采集场景下的实践
Spark在GrowingIO数据无埋点全量采集场景下的实践
每天处理这么多数据的话,我们当然会遇到很多问题,今天主要的内容就是首先介绍我们公司,我们的业务模型和我们遇到的一些问题。第二部分我们会根据这些问题讲一下我们是如何思考和选择搭建我们自己的大数据平台。最 ...
一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统
一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统
协同过滤是一种集体智慧的推荐模型,在基于用户的协同过滤方法中,如果两个用户有相似的偏好(通过用户对物品的评分、用户查看物品的记录、用户对物品的评论),当为给定用户来推荐相关产品时,会使用其他相似偏好的 ...
IBM Spark大赛启动 10万美元悬赏最佳Spark应用
IBM Spark大赛启动 10万美元悬赏最佳Spark应用
2016年是Hadoop诞生的第十年,过去的十年中,Hadoop的开源技术生态推动了大数据产业的繁荣,见证了大数据时代的到来。未来的十年,什么技术将在持续积累的数据基础上,发挥出数据的最大价值?越来越流行的Apache Spa ...
ALS 在 Spark MLlib 中的实现
ALS 在 Spark MLlib 中的实现
深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布,MLlib 作为 Spark 负责机器学习 (ML) 的核心组件在 1.3 中添加了不少机器学习及数据挖掘的算法:研究主题分布的 latent Dirichlet allocation (LDA ...
京东基于Spark的风控系统架构实践和技术细节
京东基于Spark的风控系统架构实践和技术细节
互联网的迅速发展,为电子商务兴起提供了肥沃的土壤。2014年,中国电子商务市场交易规模达到13.4万亿元,同比增长31.4%。其中,B2B电子商务市场交易额达到10万亿元,同比增长21.9%。这一连串高速增长的数字背后,不 ...
用Spark进行大数据处理之机器学习篇
用Spark进行大数据处理之机器学习篇
spark.mllib 包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有:相关性、分类和回归、协同过滤、聚类和数据降维。 spark.ml提供建立在DataFrame的机器学习API,DataFrame是Spark SQL的核 ...
为什么在大数据处理中Cassandra与Spark如此受欢迎?
为什么在大数据处理中Cassandra与Spark如此受欢迎?
说起Cassandra的用途时,我们可以将其理解为一套理想的客户系统实现方案——其能够保证各类应用始终可用,包括产品目录、物联网、医疗系统以及移动应用。Cassandra于2010年成为Apache软件基金会的顶级项目,而且至今 ...
Spark的RDD原理以及2.0特性的介绍
Spark的RDD原理以及2.0特性的介绍
Spark 是 Apache 顶级项目里面最火的大数据处理的计算引擎,它目前是负责大数据计算的工作。包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。与 Mapreduce 相比,Spark 具备 DAG 执行引擎以及基于内 ...
让数据告诉你未来:Spark Streaming+Kudu+Impala构建预测引擎
让数据告诉你未来:Spark Streaming+Kudu+Impala构建预测引擎
随着用户使用天数的增加,不管你的业务是扩大还是缩减了,为什么你的大数据中心架构保持线性增长的趋势?很明显需要一个稳定的基本架构来保障你的业务线。当你的客户处在休眠期,或者你的业务处在淡季,你增加的计算 ...
Apache Spark在SnappyData支持即时SQL分析
Apache Spark在SnappyData支持即时SQL分析
Pivotal’s GemFire的基于内存数据存储团队最近发布了一种新的数据库解决方案,叫做SnappyData,基于GemFire 和 Apache Spark。SnappyData是最近又出现的一个使用Spark作为组件的数据库解决方案。这种使用Spark的方案 ...
向Spark开炮:1.6版本问题总结与趟坑
向Spark开炮:1.6版本问题总结与趟坑
笔者使用Spark已超过一年,现在公司大部分的批处理任务和机器学习任务都运行在Spark平台之上,MapReduce已经成为历史。目前生产环境刚从Spark 1.4.1升级到最新版Spark 1.6.1,使用Yarn来调度和管理资源。本文将从升 ...
飞一般的感觉!当Spark遇到Redis~
飞一般的感觉!当Spark遇到Redis~
一些内存数据结构比其他数据结构来得更高效;如果充分利用Redis,Spark运行起来速度更快。Apache Spark已逐渐俨然成为下一代大数据处理工具的典范。通过借鉴开源算法,并将处理任务分布到计算节点集群上,无论在它们 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2020-6-5 10:04 , Processed in 0.084624 second(s), 16 queries .