炼数成金 大数据Spark
订阅

Spark

SparkR:数据科学家的新利器
SparkR:数据科学家的新利器
R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R ...
Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架
Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架
因为Spark的项目比Hadoop项目更活跃大约为50%,所以Cloudera今天宣布它正努力地使Spark取代默认的Hadoop数据处理框架。Apache Spark内存计算框架更接近于Apache Hadoop,Cloudera今天宣布它正努力地使Spark取代默认 ...
Apache Spark 1.5新特性介绍
Apache Spark 1.5新特性介绍
Apache Spark社区刚刚发布了1.5版本,大家一定想知道这个版本的主要变化,这篇文章告诉你答案。DataFrame执行后端优化(Tungsten第一阶段)DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的 ...
Apache Spark在大规模分布式自然语言处理的应用
Apache Spark在大规模分布式自然语言处理的应用
TripAdvisor基于自然语言构建回归模型预测用户对每个问题回答“是”或“不是”的概率。不仅用带有标签的地点评价数据训练模型,还使用了大量未标记的数据。基于Spark技术,处理所有这些数据的过程显得简洁易懂。我们 ...
Spark大数据分析框架的核心部件
Spark大数据分析框架的核心部件
Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学 习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个 ...
Spark与Flink:对比与分析
Spark与Flink:对比与分析
Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行操作。用户也可以让Spark保留一个RDD在内存中,使其能在并行操作 ...
Spark 和 Hadoop 不是敌人,是朋友
Spark 和 Hadoop 不是敌人,是朋友
Spark 投资的良性循环会使 Spark 技术发展更加成熟,并且可以从整个大数据环境中获益。然而,Spark 的快速增长给人们一个奇怪且固执的误解:Spark 将取代 Hadoop,而不是作为 Hadoop 的补充。这样的误解可以从类似“ ...
新手福利:Apache Spark入门攻略
新手福利:Apache Spark入门攻略
本文聚焦Apache Spark入门,了解其在大数据领域的地位,覆盖Apache Spark的安装及应用程序的建立,并解释一些常见的行为和操作。【编者按】时至今日,Spark已成为大数据领域最火的一个开源项目,具备高性能、易于使 ...
详解Spark衍生的Tachyon分布式内存文件系统在互联网巨头实战应用
详解Spark衍生的Tachyon分布式内存文件系统在互联网巨头实战应用
Tachyon是Spark生态系统内快速崛起的一个新项目。本质上,Tachyon是个分布式的内存文件系统,它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, ...
Databircks连城:Spark SQL结构化数据分析
Databircks连城:Spark SQL结构化数据分析
在Spark 1.3.0以Spark SQL原有的SchemaRDD为蓝本,引入了Spark DataFrame API,不仅为Scala、Python、Java三种语言环境提供了形如R和Pandas的API,并且继承了Spark SQL的分布式处理能力。
Storm vs Spark:谁才是我们的大数据实时处理利器
Storm vs Spark:谁才是我们的大数据实时处理利器
作为一套专门用于事件流处理的分布式计算框架,Storm有时候也被人们称为实时处理领域的Hadoop。作为另一个专门面向实时分布式计算任务的项目,Spark与Storm类似,Spark也支持面向流的处理机制,不过这是一套更具泛用 ...
ALS 在 Spark MLlib 中的实现
ALS 在 Spark MLlib 中的实现
深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布,MLlib 作为 Spark 负责机器学习 (ML) 的核心组件在 1.3 中添加了不少机器学习及数据挖掘的算法:研究主题分布的 latent Dirichlet allocation (LDA ...
Spark生态系统解析及基于Redis的开源分布式服务Codis
Spark生态系统解析及基于Redis的开源分布式服务Codis
1月24日,一场基于Spark和Redis组成的分布式系统实践分享由Spark资深布道者陈超和豌豆荚资深系统架构师刘奇联手打造。陈超:Spark Ecosystem Internals陈超(@CrazyJvm),Spark布道者在分享中,陈超首先简短的介绍 ...
Spark新年福音:一个用于大规模数据科学的API——DataFrame
Spark新年福音:一个用于大规模数据科学的API——DataFrame
文章翻译自Introducing DataFrames in Spark for Large Scale Data Science,作者Reynold Xin(辛湜,@hashjoin),Michael Armbrust,Davies Liu。以下为译文今天,我们正式宣布Spark新的API——DataFrame 。作为20 ...
大数据计算平台Spark内核全面解读
大数据计算平台Spark内核全面解读
1、Spark介绍Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着 Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,S ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

热门文章

社区热帖

     

    GMT+8, 2020-12-2 07:34 , Processed in 0.130808 second(s), 16 queries .