炼数成金 大数据Spark
订阅

Spark

谈谈RDD、DataFrame、Dataset的区别和各自的优势
谈谈RDD、DataFrame、Dataset的区别和各自的优势
RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利;三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算, ...
Spark知识体系完整解读
Spark知识体系完整解读
Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的 ...
Spark 2.1.1发布,建议所有 2.1.x 用户升级
Spark 2.1.1发布,建议所有 2.1.x 用户升级
今天凌晨Spark 2.1.1对外发布,该版本是基于branch-2.1的维护版本,建议所有Spark 2.1.x用户升级到该版本。据统计,相比于Spark 2.1.0,该版本:修复了179个bug;加入了33个改进;增加了4个新特性。
用Apache Spark 2.2中的结构化流处理API处理Kafka数据
用Apache Spark 2.2中的结构化流处理API处理Kafka数据
Apache Kafka是一种分布式的发布-订阅消息系统,它的流行主要因为它能事实处理数据流并且能同时让下游消费者得到数据,并且容错性好。这也使得Kafka非常合适用来构造实时流数据处理系统使数据在不同处理系统中流动。 ...
Spark Block存储管理分析
Spark Block存储管理分析
Apache Spark中,对Block的查询、存储管理,是通过唯一的Block ID来进行区分的。所以,了解Block ID的生成规则,能够帮助我们了解Block查询、存储过程中是如何定位Block以及如何处理互斥存储/读取同一个Block的。可 ...
基于Spark与ROS的分布式无人驾驶模拟平台
基于Spark与ROS的分布式无人驾驶模拟平台
无人驾驶的安全性和可靠性是通过海量的功能和性能测试来保证的。无人驾驶系统是一个复杂的系统工程,在它的整个研发流程中,测试工作至关重要同时也繁重复杂。显然将全部测试工作都集中在真车上进行是一种成本异常高 ...
Spark for python developers —Spark流式数据处理
Spark for python developers —Spark流式数据处理
数据流可以来自股票市场的时序分析,企业交易,各种交互,事件,web流量,点击流,和传感器数据等,都是及时且带有时间戳的数据。用例有欺诈检测和防伪,移动的交叉销售和销售提升,或者交通预警。这些数据流需要及 ...
关于Spark的mllib学习总结(Java版)
关于Spark的mllib学习总结(Java版)
对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper methods to load,save and pre-process data used in MLLib.博客中的数据是采用spark中提供的数据sample_libsvm_data.txt,其有一百个数据样本,658个 ...
Spark踩坑记——Spark Streaming+Kafka
Spark踩坑记——Spark Streaming+Kafka
在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。 ...
Spark搜狗日志数据分析实战
Spark搜狗日志数据分析实战
获得搜索结果排名和点击结果排名都是第一的数据。搜索结果排名对应的是改文件中URL在返回结果中的排名,点击结果排名指的是用户点击的顺序号。经过上面第三步过滤的有效数据的操作,已经把每行数据切分成一个长度为6 ...
当MongoDB遇见Spark
当MongoDB遇见Spark
为什么要用MongoDB替换HDFS?存储方式上, HDFS以文件为单位,每个文件64MB~128MB不等, 而MongoDB作为文档数据库则表现得更加细颗粒化。MongoDB支持HDFS所没有的索引的概念, 所以在读取上更加快。MongoDB支持的增删改 ...
Spark MLlib之协同过滤
Spark MLlib之协同过滤
协同过滤ALS算法推荐过程如下:加载数据到 ratings RDD,每行记录包括:user, product, rate。从 ratings 得到用户商品的数据集:(user, product)。。使用ALS对 ratings 进行训练。通过 model 对用户商品进行预测评 ...
Spark性能优化
Spark性能优化
以前写过一篇文章,比较了几种不同场景的性能优化,包括portal的性能优化,web service的性能优化,还有Spark job的性能优化。Spark的性能优化有一些特殊的地方,比如实时性一般不在考虑范围之内,通常我们用Spark来 ...
Spark性能优化指南——基础篇
Spark性能优化指南——基础篇
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常 ...
如何安装Spark & TensorflowOnSpark
如何安装Spark & TensorflowOnSpark
spark从master发送命令的时候好像是按照路径寻找文件,因此你一定一定要把集群上所有的计算机的用户名都配置成一样的,比如我的都叫ubuntu,而文中的都叫hadoop,这里你要注意,如果你不跟着教程也叫hadoop的话,注 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

热门文章

社区热帖

     

    GMT+8, 2020-12-2 08:16 , Processed in 0.124325 second(s), 16 queries .