炼数成金 大数据Spark
订阅

Spark

双倍提升Apache Spark排序性能
双倍提升Apache Spark排序性能
区别常见的Embarrassingly Parallel系统,类似MapReduce和Apache Spark(Apache Hadoop的下一代数据处理引擎)这样的计算引擎主要区别在于对“all-to-all” 操作的支持上。和许多分布式引擎一样,MapReduce和Spark的 ...
为大数据处理点亮一盏明灯 Spark知识系统化整理分享
为大数据处理点亮一盏明灯 Spark知识系统化整理分享
Apache Spark项目于2009年诞生于伯克利大学的AMPLab实验室,当初的目的在于将内存内分析机制引入大规模数据集当中。在那个时候,Hadoop MapReduce的关注重点仍然放在那些本质上无法迭代的大规模数据管道身上。想在20 ...
Spark vs. Pig 时间缩短8倍,计算节约45%
Spark vs. Pig 时间缩短8倍,计算节约45%
Apache Pig是在HDFS和MapReduce之上的数据流处理语言,它将数据流处理自动转换为一个DAG(有向无环图)的MapReduce作业流去执行,为数据分析人员提供了更简单的海量数据操作接口。但是在DAG的作业流中,作业之间存在 ...
内存计算技术那家强?SPARK vs HANA
内存计算技术那家强?SPARK vs HANA
最近业界有很多技术和产品都认为属于内存计算的范畴,由于我个人也从事于内存计算产品的研发,所以想借个机会,跟各位聊聊到底什么是内存计算技术,以及比较一些现在两种比较主流的内存计算技术Apache Spark和SAP HA ...
千台Spark集群对千亿量级节点的相似度计算
千台Spark集群对千亿量级节点的相似度计算
相似度计算在信息检索、数据挖掘等领域有着广泛的应用,是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长,对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进行相似度 ...
Spark:大数据的“电光石火”
Spark:大数据的“电光石火”
Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名,展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵 ...
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析
MapReduce由于其设计上的约束只适合处理离线计算,在实时查询和迭代计算上仍有较大的不足,而随着业务的发展,业界对实时查询和迭代分析有更多的需求,单纯依靠MapReduce框架已经不能满足业务的需求了。Spark由于其可 ...
继Cloudera之后,MapR宣布对Spark的完全支持
继Cloudera之后,MapR宣布对Spark的完全支持
Spark,发源于美国加州大学伯克利分校AMPLab的集群计算平台,当下已成为Apache基金会的顶级项目。而在不久前,知名Hadoop解决方案 供应商Cloudera已宣布了其发行版对Spark的支持。毫无疑问,Spark已成为流行的大数据 ...
MapReduce褪色,Spark升起!
MapReduce褪色,Spark升起!
译者注: 本文翻译自gigaom.com的一篇技术新闻,标题为“随着MapReduce的褪色,Apache Spark现在是一个顶级项目”。原文链接在:http://gigaom.com/2014/02/27/as-mapreduce-fades-apache-spark-is-now-a-top-level- ...
Spark Streaming:大规模流式数据处理的新贵
Spark Streaming:大规模流式数据处理的新贵
Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案。
对比Hadoop,Spark受多方追捧的原因
对比Hadoop,Spark受多方追捧的原因
Apache Spark现在名声大噪。为支持Spark项目成立的Databricks公司从Andereessen Horowittz那里募集了1400万美元,Cloudera也已决定全力支持Spark,还有众多其它公司也积极地加入这件大事。所以我觉得这正是我应该认真 ...
低延迟大规模并行处理架构Spark简介
低延迟大规模并行处理架构Spark简介
尽管Hadoop适合大多数批处理工作负载,而且在大数据时代成为企业的首选技术,但由于以下几个限制,它对一些工作负载并不是最优选择: 缺少对迭代的支持 需要将中间数据存在硬盘上以保持一致性,因此会有比较高的延 ...
敢为人先 优酷土豆用Spark完善大数据分析
敢为人先 优酷土豆用Spark完善大数据分析
大数据,一个似乎已经被媒体传播的过于泛滥的词汇,的的确确又在逐渐影响和改变着我们的生活。也许有人认为大数据在中国仍然只是噱头,但在 当前中国互联网领域,大数据以及大数据所催生出来的生产力正在潜移默化地推 ...
Spark:大数据的“电光石火”
Spark:大数据的“电光石火”
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。
Spark :一种可扩展的数据分析平台
Spark :一种可扩展的数据分析平台
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

热门文章

社区热帖

     

    GMT+8, 2020-12-2 08:38 , Processed in 0.123768 second(s), 16 queries .