炼数成金 大数据Spark
订阅

Spark

Spark性能优化指南——高级篇
Spark性能优化指南——高级篇
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。绝大多数task执 ...
SparkSQL – 从0到1认识Catalyst
SparkSQL – 从0到1认识Catalyst
最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比 ...
为Apache Spark准备的深度学习
为Apache Spark准备的深度学习
一旦有了一个平台和团队可以让你部署机器学习的模型,很自然地你会开始探索深度学习。正如我在最近的数据秀的一集里指出的,企业正在开始应用深度学习技术到时间序列数据、事件数据、文本和图像数据上。其中的大部分 ...
Facebook官方详解:使用Apache Spark进行大型语言模型训练
Facebook官方详解:使用Apache Spark进行大型语言模型训练
Apache Spark 是用于大规模数据处理的快速和通用引擎,它运行在 Hadoop,Mesos,可以离线或云端运行,具有高速、可扩展等特点。近年来,在 IBM 等大公司和众多社区贡献者的推动下,Spark 得到了越来越多的应用。今天 ...
不同的瑞士军刀:对比 Spark 和 MapReduce
不同的瑞士军刀:对比 Spark 和 MapReduce
Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。作为一个开源的数据处理框架,Spark ...
基于Spark GraphX实现微博二度关系推荐
基于Spark GraphX实现微博二度关系推荐
二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好友两种类型,二度关系则得到关注的关注、关注的好友、好友的关注、好友 ...
最全的Spark基础知识解答
最全的Spark基础知识解答
UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而 ...
四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍
四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍
腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2 ...
Spark在GrowingIO数据无埋点全量采集场景下的实践
Spark在GrowingIO数据无埋点全量采集场景下的实践
每天处理这么多数据的话,我们当然会遇到很多问题,今天主要的内容就是首先介绍我们公司,我们的业务模型和我们遇到的一些问题。第二部分我们会根据这些问题讲一下我们是如何思考和选择搭建我们自己的大数据平台。最 ...
一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统
一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统
协同过滤是一种集体智慧的推荐模型,在基于用户的协同过滤方法中,如果两个用户有相似的偏好(通过用户对物品的评分、用户查看物品的记录、用户对物品的评论),当为给定用户来推荐相关产品时,会使用其他相似偏好的 ...
IBM Spark大赛启动 10万美元悬赏最佳Spark应用
IBM Spark大赛启动 10万美元悬赏最佳Spark应用
2016年是Hadoop诞生的第十年,过去的十年中,Hadoop的开源技术生态推动了大数据产业的繁荣,见证了大数据时代的到来。未来的十年,什么技术将在持续积累的数据基础上,发挥出数据的最大价值?越来越流行的Apache Spa ...
ALS 在 Spark MLlib 中的实现
ALS 在 Spark MLlib 中的实现
深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布,MLlib 作为 Spark 负责机器学习 (ML) 的核心组件在 1.3 中添加了不少机器学习及数据挖掘的算法:研究主题分布的 latent Dirichlet allocation (LDA ...
京东基于Spark的风控系统架构实践和技术细节
京东基于Spark的风控系统架构实践和技术细节
互联网的迅速发展,为电子商务兴起提供了肥沃的土壤。2014年,中国电子商务市场交易规模达到13.4万亿元,同比增长31.4%。其中,B2B电子商务市场交易额达到10万亿元,同比增长21.9%。这一连串高速增长的数字背后,不 ...
用Spark进行大数据处理之机器学习篇
用Spark进行大数据处理之机器学习篇
spark.mllib 包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有:相关性、分类和回归、协同过滤、聚类和数据降维。 spark.ml提供建立在DataFrame的机器学习API,DataFrame是Spark SQL的核 ...
为什么在大数据处理中Cassandra与Spark如此受欢迎?
为什么在大数据处理中Cassandra与Spark如此受欢迎?
说起Cassandra的用途时,我们可以将其理解为一套理想的客户系统实现方案——其能够保证各类应用始终可用,包括产品目录、物联网、医疗系统以及移动应用。Cassandra于2010年成为Apache软件基金会的顶级项目,而且至今 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

热门文章

社区热帖

     

    GMT+8, 2020-12-2 07:30 , Processed in 0.060539 second(s), 16 queries .