炼数成金 大数据Spark
订阅

Spark

Spark:大数据的“电光石火”
Spark:大数据的“电光石火”
Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名,展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵 ...
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析
MapReduce由于其设计上的约束只适合处理离线计算,在实时查询和迭代计算上仍有较大的不足,而随着业务的发展,业界对实时查询和迭代分析有更多的需求,单纯依靠MapReduce框架已经不能满足业务的需求了。Spark由于其可 ...
继Cloudera之后,MapR宣布对Spark的完全支持
继Cloudera之后,MapR宣布对Spark的完全支持
Spark,发源于美国加州大学伯克利分校AMPLab的集群计算平台,当下已成为Apache基金会的顶级项目。而在不久前,知名Hadoop解决方案 供应商Cloudera已宣布了其发行版对Spark的支持。毫无疑问,Spark已成为流行的大数据 ...
MapReduce褪色,Spark升起!
MapReduce褪色,Spark升起!
译者注: 本文翻译自gigaom.com的一篇技术新闻,标题为“随着MapReduce的褪色,Apache Spark现在是一个顶级项目”。原文链接在:http://gigaom.com/2014/02/27/as-mapreduce-fades-apache-spark-is-now-a-top-level- ...
Spark Streaming:大规模流式数据处理的新贵
Spark Streaming:大规模流式数据处理的新贵
Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案。
对比Hadoop,Spark受多方追捧的原因
对比Hadoop,Spark受多方追捧的原因
Apache Spark现在名声大噪。为支持Spark项目成立的Databricks公司从Andereessen Horowittz那里募集了1400万美元,Cloudera也已决定全力支持Spark,还有众多其它公司也积极地加入这件大事。所以我觉得这正是我应该认真 ...
低延迟大规模并行处理架构Spark简介
低延迟大规模并行处理架构Spark简介
尽管Hadoop适合大多数批处理工作负载,而且在大数据时代成为企业的首选技术,但由于以下几个限制,它对一些工作负载并不是最优选择: 缺少对迭代的支持 需要将中间数据存在硬盘上以保持一致性,因此会有比较高的延 ...
敢为人先 优酷土豆用Spark完善大数据分析
敢为人先 优酷土豆用Spark完善大数据分析
大数据,一个似乎已经被媒体传播的过于泛滥的词汇,的的确确又在逐渐影响和改变着我们的生活。也许有人认为大数据在中国仍然只是噱头,但在 当前中国互联网领域,大数据以及大数据所催生出来的生产力正在潜移默化地推 ...
Spark:大数据的“电光石火”
Spark:大数据的“电光石火”
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。
Spark :一种可扩展的数据分析平台
Spark :一种可扩展的数据分析平台
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外 ...
百度Hadoop分布式系统揭秘:4000节点集群
百度Hadoop分布式系统揭秘:4000节点集群
百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点,超过10个的集群,最大的集群规模在1000个节点以上。每个节点由8核CPU以及16G内存以及12TB硬盘组成,每天的数据生成量在3PB以上。规划当中的架构将有 ...
1234567

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2020-6-5 11:54 , Processed in 0.107802 second(s), 16 queries .