炼数成金 大数据Spark
订阅

Spark

如何基于Spark进行用户画像?
如何基于Spark进行用户画像?
近期,comSysto公司分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历,为Spark等平台应用于数据科学领域提供了借鉴。主办方提供了一个包含5万个匿名驾驶员线路的数据集,竞赛的目的是根据路线研发出一个 ...
基于Spark的异构分布式深度学习平台
基于Spark的异构分布式深度学习平台
深层神经网络技术最近几年取得了巨大的突破,特别在语音和图像识别应用上有质的飞跃,已经被验证能够使用到许多业务上。如何大规模分布式地执行深度学习程序,使其更好地支持不同的业务线成为当务之急。在过去两年, ...
Spark Streaming快速状态流处理
Spark Streaming快速状态流处理
许多复杂流处理流水线程序必须将状态保持一段时间,例如,如果你想实时了解网站用户行为,你需要将网站上各“用户会话(user session)”信息保存为持久状态并根据用户的行为对这一状态进行持续更新。这种有状态的流 ...
大数据不同的瑞士军刀:对比 Spark 和 MapReduce
大数据不同的瑞士军刀:对比 Spark 和 MapReduce
Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。作为一个开源的数据处理框架,Spark ...
Spark:性能不断提升、生态系统渐趋完善、应用规模不断扩大
Spark:性能不断提升、生态系统渐趋完善、应用规模不断扩大
Spark生态系统渐趋完善。支持的外部数据源越来越多,支持的算子越来越丰富,自身的机器学习算法越来越完善。同时在API支持上也有很大进步,新增加的R语言API使得Spark能被更多的行业所接受。Spark的应用范围和规模在 ...
大数据盘点之Spark篇
大数据盘点之Spark篇
作者简介谭政,Hulu 网大数据基础平台研发。曾在新浪微博平台工作过。专注于大数据存储和处理,对 Hadoop、HBase 以及 Spark 等等均有深入的了解。Spark 最新的特性以及功能2015 年中 Spark 版本从 1.2.1 升级到当前 ...
讲个故事:一个SparkSQL作业的一生
讲个故事:一个SparkSQL作业的一生
Spark是时下很火的计算框架,由UC Berkeley AMP Lab研发,并由原班人马创建的Databricks负责商业化相关事务。而SparkSQL则是Spark之上搭建的SQL解决方案,主打交互查询场景。人人都说Spark/SparkSQL快,各种Benchma ...
基于Spark的机器学习经验
基于Spark的机器学习经验
作者简介祝威廉目前在乐视云数据部门里从事实时计算,数据平台、搜索和推荐等多个方向。曾从事基础框架,搜索研发四年,大数据平台架构、推荐三年多,个人时间现专注于集群自动化部署,服务管理,资源自动化调度等方 ...
SparkR:数据科学家的新利器
SparkR:数据科学家的新利器
是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R A ...
SparkInAction 图计算 用户关系染色分析
SparkInAction 图计算 用户关系染色分析
前言需求:如果一个用户使用了某个手机,这个手机上登录过其他的用户,那么这些用户是有关系的,同样用户关联到的用户又可以通过手机关联到其他用户这样就构成了一个强大的关系网。现在给出用户与手机登录关系表,请 ...
SparkR:数据科学家的新利器
SparkR:数据科学家的新利器
R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R ...
Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架
Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架
因为Spark的项目比Hadoop项目更活跃大约为50%,所以Cloudera今天宣布它正努力地使Spark取代默认的Hadoop数据处理框架。Apache Spark内存计算框架更接近于Apache Hadoop,Cloudera今天宣布它正努力地使Spark取代默认 ...
Apache Spark 1.5新特性介绍
Apache Spark 1.5新特性介绍
Apache Spark社区刚刚发布了1.5版本,大家一定想知道这个版本的主要变化,这篇文章告诉你答案。DataFrame执行后端优化(Tungsten第一阶段)DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的 ...
Apache Spark在大规模分布式自然语言处理的应用
Apache Spark在大规模分布式自然语言处理的应用
TripAdvisor基于自然语言构建回归模型预测用户对每个问题回答“是”或“不是”的概率。不仅用带有标签的地点评价数据训练模型,还使用了大量未标记的数据。基于Spark技术,处理所有这些数据的过程显得简洁易懂。我们 ...
Spark大数据分析框架的核心部件
Spark大数据分析框架的核心部件
Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学 习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2020-6-5 11:39 , Processed in 0.157415 second(s), 16 queries .