炼数成金 大数据Spark
订阅

Spark

Spark for python developers —Spark流式数据处理
Spark for python developers —Spark流式数据处理
数据流可以来自股票市场的时序分析,企业交易,各种交互,事件,web流量,点击流,和传感器数据等,都是及时且带有时间戳的数据。用例有欺诈检测和防伪,移动的交叉销售和销售提升,或者交通预警。这些数据流需要及 ...
关于Spark的mllib学习总结(Java版)
关于Spark的mllib学习总结(Java版)
对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper methods to load,save and pre-process data used in MLLib.博客中的数据是采用spark中提供的数据sample_libsvm_data.txt,其有一百个数据样本,658个 ...
Spark踩坑记——Spark Streaming+Kafka
Spark踩坑记——Spark Streaming+Kafka
在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。 ...
Spark搜狗日志数据分析实战
Spark搜狗日志数据分析实战
获得搜索结果排名和点击结果排名都是第一的数据。搜索结果排名对应的是改文件中URL在返回结果中的排名,点击结果排名指的是用户点击的顺序号。经过上面第三步过滤的有效数据的操作,已经把每行数据切分成一个长度为6 ...
当MongoDB遇见Spark
当MongoDB遇见Spark
为什么要用MongoDB替换HDFS?存储方式上, HDFS以文件为单位,每个文件64MB~128MB不等, 而MongoDB作为文档数据库则表现得更加细颗粒化。MongoDB支持HDFS所没有的索引的概念, 所以在读取上更加快。MongoDB支持的增删改 ...
Spark MLlib之协同过滤
Spark MLlib之协同过滤
协同过滤ALS算法推荐过程如下:加载数据到 ratings RDD,每行记录包括:user, product, rate。从 ratings 得到用户商品的数据集:(user, product)。。使用ALS对 ratings 进行训练。通过 model 对用户商品进行预测评 ...
Spark性能优化
Spark性能优化
以前写过一篇文章,比较了几种不同场景的性能优化,包括portal的性能优化,web service的性能优化,还有Spark job的性能优化。Spark的性能优化有一些特殊的地方,比如实时性一般不在考虑范围之内,通常我们用Spark来 ...
Spark性能优化指南——基础篇
Spark性能优化指南——基础篇
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常 ...
如何安装Spark & TensorflowOnSpark
如何安装Spark & TensorflowOnSpark
spark从master发送命令的时候好像是按照路径寻找文件,因此你一定一定要把集群上所有的计算机的用户名都配置成一样的,比如我的都叫ubuntu,而文中的都叫hadoop,这里你要注意,如果你不跟着教程也叫hadoop的话,注 ...
Spark性能优化指南——高级篇
Spark性能优化指南——高级篇
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。绝大多数task执 ...
SparkSQL – 从0到1认识Catalyst
SparkSQL – 从0到1认识Catalyst
最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比 ...
为Apache Spark准备的深度学习
为Apache Spark准备的深度学习
一旦有了一个平台和团队可以让你部署机器学习的模型,很自然地你会开始探索深度学习。正如我在最近的数据秀的一集里指出的,企业正在开始应用深度学习技术到时间序列数据、事件数据、文本和图像数据上。其中的大部分 ...
Facebook官方详解:使用Apache Spark进行大型语言模型训练
Facebook官方详解:使用Apache Spark进行大型语言模型训练
Apache Spark 是用于大规模数据处理的快速和通用引擎,它运行在 Hadoop,Mesos,可以离线或云端运行,具有高速、可扩展等特点。近年来,在 IBM 等大公司和众多社区贡献者的推动下,Spark 得到了越来越多的应用。今天 ...
不同的瑞士军刀:对比 Spark 和 MapReduce
不同的瑞士军刀:对比 Spark 和 MapReduce
Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。作为一个开源的数据处理框架,Spark ...
基于Spark GraphX实现微博二度关系推荐
基于Spark GraphX实现微博二度关系推荐
二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好友两种类型,二度关系则得到关注的关注、关注的好友、好友的关注、好友 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

    社区热帖

       

      GMT+8, 2020-2-29 21:04 , Processed in 0.122269 second(s), 16 queries .