炼数成金 大数据Spark
订阅

Spark

Spark 和 Hadoop 不是敌人,是朋友
Spark 和 Hadoop 不是敌人,是朋友
Spark 投资的良性循环会使 Spark 技术发展更加成熟,并且可以从整个大数据环境中获益。然而,Spark 的快速增长给人们一个奇怪且固执的误解:Spark 将取代 Hadoop,而不是作为 Hadoop 的补充。这样的误解可以从类似“ ...
新手福利:Apache Spark入门攻略
新手福利:Apache Spark入门攻略
本文聚焦Apache Spark入门,了解其在大数据领域的地位,覆盖Apache Spark的安装及应用程序的建立,并解释一些常见的行为和操作。【编者按】时至今日,Spark已成为大数据领域最火的一个开源项目,具备高性能、易于使 ...
详解Spark衍生的Tachyon分布式内存文件系统在互联网巨头实战应用
详解Spark衍生的Tachyon分布式内存文件系统在互联网巨头实战应用
Tachyon是Spark生态系统内快速崛起的一个新项目。本质上,Tachyon是个分布式的内存文件系统,它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, ...
Databircks连城:Spark SQL结构化数据分析
Databircks连城:Spark SQL结构化数据分析
在Spark 1.3.0以Spark SQL原有的SchemaRDD为蓝本,引入了Spark DataFrame API,不仅为Scala、Python、Java三种语言环境提供了形如R和Pandas的API,并且继承了Spark SQL的分布式处理能力。
Storm vs Spark:谁才是我们的大数据实时处理利器
Storm vs Spark:谁才是我们的大数据实时处理利器
作为一套专门用于事件流处理的分布式计算框架,Storm有时候也被人们称为实时处理领域的Hadoop。作为另一个专门面向实时分布式计算任务的项目,Spark与Storm类似,Spark也支持面向流的处理机制,不过这是一套更具泛用 ...
ALS 在 Spark MLlib 中的实现
ALS 在 Spark MLlib 中的实现
深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布,MLlib 作为 Spark 负责机器学习 (ML) 的核心组件在 1.3 中添加了不少机器学习及数据挖掘的算法:研究主题分布的 latent Dirichlet allocation (LDA ...
Spark生态系统解析及基于Redis的开源分布式服务Codis
Spark生态系统解析及基于Redis的开源分布式服务Codis
1月24日,一场基于Spark和Redis组成的分布式系统实践分享由Spark资深布道者陈超和豌豆荚资深系统架构师刘奇联手打造。陈超:Spark Ecosystem Internals陈超(@CrazyJvm),Spark布道者在分享中,陈超首先简短的介绍 ...
Spark新年福音:一个用于大规模数据科学的API——DataFrame
Spark新年福音:一个用于大规模数据科学的API——DataFrame
文章翻译自Introducing DataFrames in Spark for Large Scale Data Science,作者Reynold Xin(辛湜,@hashjoin),Michael Armbrust,Davies Liu。以下为译文今天,我们正式宣布Spark新的API——DataFrame 。作为20 ...
大数据计算平台Spark内核全面解读
大数据计算平台Spark内核全面解读
1、Spark介绍Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着 Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,S ...
双倍提升Apache Spark排序性能
双倍提升Apache Spark排序性能
区别常见的Embarrassingly Parallel系统,类似MapReduce和Apache Spark(Apache Hadoop的下一代数据处理引擎)这样的计算引擎主要区别在于对“all-to-all” 操作的支持上。和许多分布式引擎一样,MapReduce和Spark的 ...
为大数据处理点亮一盏明灯 Spark知识系统化整理分享
为大数据处理点亮一盏明灯 Spark知识系统化整理分享
Apache Spark项目于2009年诞生于伯克利大学的AMPLab实验室,当初的目的在于将内存内分析机制引入大规模数据集当中。在那个时候,Hadoop MapReduce的关注重点仍然放在那些本质上无法迭代的大规模数据管道身上。想在20 ...
Spark vs. Pig 时间缩短8倍,计算节约45%
Spark vs. Pig 时间缩短8倍,计算节约45%
Apache Pig是在HDFS和MapReduce之上的数据流处理语言,它将数据流处理自动转换为一个DAG(有向无环图)的MapReduce作业流去执行,为数据分析人员提供了更简单的海量数据操作接口。但是在DAG的作业流中,作业之间存在 ...
内存计算技术那家强?SPARK vs HANA
内存计算技术那家强?SPARK vs HANA
最近业界有很多技术和产品都认为属于内存计算的范畴,由于我个人也从事于内存计算产品的研发,所以想借个机会,跟各位聊聊到底什么是内存计算技术,以及比较一些现在两种比较主流的内存计算技术Apache Spark和SAP HA ...
千台Spark集群对千亿量级节点的相似度计算
千台Spark集群对千亿量级节点的相似度计算
相似度计算在信息检索、数据挖掘等领域有着广泛的应用,是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长,对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进行相似度 ...
Spark:大数据的“电光石火”
Spark:大数据的“电光石火”
Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名,展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

    社区热帖

       

      GMT+8, 2020-2-29 20:11 , Processed in 0.207445 second(s), 16 queries .