忘记密码
免费注册
全部
课程
文章
帖子
用户
快捷导航
徽章
好友
帖子
收藏
道具
任务
充值
提现
课程
奖学金
抵价券
企业
学习中心
|- 我的课程
|- 我的专才计划
|- 我的普班
|- 我的快班
|- 我的关注
|- 我的专业
|- 我的求职
|- 我的招聘
|- 我的云实验室
首页
业界
培训
专才计划
特训营
课程
专业
企业服务
入职特训
创想基地
论坛
产品廊
大数据
商业智能
专家团
关于我们
入职特训计划
黄校长前沿人才培养计划
王文峰计算机视觉精英培训计划
郭一军“新DBA”精英培养计划
葛一鸣JAVA精英培养计划
人工智能专业
数据分析师专业
大数据攻城狮专业
Hadoop大数据攻城狮专业
Python数据分析师专业
全栈程序猿专业
DBA专业
企业菁英小团队培养计划
企业内训
炼数成金
›
大数据
›
Spark
订阅
Spark
Spark 迁移到 K8S 在有赞的实践与经验
随着近几年业务快速发展与迭代,大数据的成本也水涨船高,如何优化成本,建设低成本高效率的底层服务成为了有赞数据基础平台2020年的主旋律。本文主要介绍了随着云原生时代的到来,经历7年发展的有赞离线计算平台如 ...
Spark Operator 初体验
目前企业级的大数据应用主流还是采用Yarn或者Mesos来进行资源分配和运行调度的,例如我行目前采用Yarn来进行作业调度,并使用HDFS作为大数据的存储平台,这是典型的计算和存储紧耦合的模式,这种方案是通过数据本地 ...
Spark SQL 物化视图技术原理与实践
物化视图主要用于预先计算并保存表连接或聚合等耗时较多的操作的结果,这样,在执行查询时,就可以避免进行这些耗时的操作,从而快速的得到结果。物化视图使用查询重写(query rewrite)机制,不需要修改原有的查询 ...
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Spark 诞生于加州大学伯克利分校的 AMPLab 实验室,该实验室致力于数据密集型计算的研究。AMPLab 研究人员与大型互联网公司合作,研究如何解决数据和 AI 问题,然后发现那些拥有海量数据的公司也面临同样的问题。于 ...
Spark 3.0开发近两年终于发布,流、Python、SQL重大更新详解
Spark 诞生于加州大学伯克利分校的 AMPLab 实验室,该实验室致力于数据密集型计算的研究。AMPLab 研究人员与大型互联网公司合作,研究如何解决数据和 AI 问题,然后发现那些拥有海量数据的公司也面临同样的问题。于 ...
Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析
Apache Spark 3.0 增加了很多令人兴奋的新特性,包括动态分区修剪、自适应查询执行、加速器感知调度、支持 Catalog 的数据源API、SparkR 中的向量化、支持 Hadoop 3/JDK 11/Scala 2.12 等等。这个版本一共解决了 340 ...
Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能
多年以来,社区一直在努力改进 Spark SQL 的查询优化器和规划器,以生成高质量的查询执行计划。最大的改进之一是基于成本的优化(CBO,cost-based optimization)框架,该框架收集并利用各种数据统计信息(如行数, ...
Spark+Alluxio性能调优十大技巧
由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎。此外,越来越流行的计算与存储分离的架构导致计算端查询延迟增大。因此,Alluxio常被用作贴近计算端的 ...
一篇文章搞懂 PySpark MLlib
我们的目标,是要设计这么一个系统,当把一张拥有很多字段的表给系统,系统自动抽取出特征,这些特征可以给机器学习算法如SVM,贝叶斯之类的,也可以适配深度学习的要求。初看起来显得野心太大,但也不是不可能,我们 ...
用Python语言写Spark
Spark 是目前大数据处理的事实标准。PySpark能让你使用Python语言来写Spark程序。我们先做一个最简单的字符数统计程序。这样我们就知道一个PySpark程序是什么样子,以及如何运转起来。在很多情况下,单机模式足够我 ...
如何衔接Spark 和Tensorflow?
我们知道,Spark 目前是大数据处理组件的王者,实现了让大数据处理更轻松的远景。Tensorflow则是深度学习当之无愧最热的框架。而在现实当中,Spark 和Tensorflow的衔接往往是脱节的。我们希望保留Spark/TF各自的优势 ...
Spark Streaming VS Flink
Spark Streaming 是微批处理,运行的时候需要指定批处理的时间,每次运行 job 时处理一个批次的数据。Flink 是基于事件驱动的,事件可以理解为消息。事件驱动的应用程序是一种状态应用程序,它会从一个或者多个流中 ...
Spark SQL在100TB上的自适应执行实践
Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。 ...
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
自从数据处理需求超过了传统数据库能有效处理的数据量之后,Hadoop 等各种基于 MapReduce 的海量数据处理系统应运而生。从 2004 年 Google 发表 MapReduce 论文开始,经过近 10 年的发展,基于 Hadoop 开源生态或者 ...
Spark SQL 你需要知道的十件事
本文从十个方面介绍 Spark SQL 的使用及注意事项,主要包括:Spark SQL 使用场景、数据加载:云和本地, RDDs 和 DataFrames、SQL 和 DataFrame API 比较,它们之间的区别、模式: 隐式和显示模式解释,数据类型、数据 ...
1
2
3
4
5
6
7
8
/ 8 页
下一页
热门频道
大数据
商业智能
量化投资
科学探索
创业
即将开课
•
Architecting on AWS架构与实践(第六期)
•
并行化计算与CUDA编程(第三期)
•
企业级大中台从设计到实现(下)(第二期)
•
基于Flink流处理的动态实时亿级电商全端用户画像系统(第二期)
•
股票投资基础之技术分析(第15期)
•
大话流式处理系统 Flink 核心原理(第九期)
•
Python金融业数据化运营实战(第11期)
•
Java Web开发精讲(第十期)
•
Python金融投资分析实践(第16期)
•
反内卷神器之RPA特训(第一期)
•
目标检测模型YOLOV3原理及实战(第七期)
•
敏捷Agile快速入门(第八期)
•
Oracle特殊恢复原理与实战(DSI系列)(第14期)
•
Python数据可视化实战(第11期)
•
DL4CV实战——构建基于深度学习的智能图像识别系统(第14期)
•
让服务飞起来:实时计算及其应用(第16期)
•
基于Flink+Hudi构建企业亿级云上实时数据湖教程(第一期)
•
高性能高扩展的千亿级实时数据仓库全实现(第六期)
•
Cloudera Hadoop管理认证实战(第七期)
•
Tensorflow工程师职场实战技(第13期)
•
PyTorch – 深度学习全栈工程师进阶案例实战(第六期)
•
突击pyspark:数据挖掘的力量倍增器(第16期)
•
知识图谱实战(第16期)
•
股票投资高手武器系列之缠论系统(第13期)
•
locust性能测试实战(第十期)
•
JAVA极客特训(第12期)
•
模型压缩知多少(第1期)
•
人人都是数据分析师——基于SAS Viya的机器学习与深度学习案例分析(第1期)
•
用AIOps打造你的智能工作伙伴(第1期)
热门文章
•
Spark 迁移到 K8S 在有赞的实践与经验
社区热帖
GMT+8, 2021-3-4 08:03
, Processed in 0.127229 second(s), 16 queries .
关于我们
新手指南
企业合作
联系我们
订阅号
服务号
关于我们
教育模式
企业会员
电话:4008-010-006
讲师招募
选课流程
内训合作
邮箱:kefu@dataguru.cn
校园大使
学费返还
媒体合作
客服QQ:
版权声明
奖学金激励
代理合作
售后QQ:
关于我们
手机版
友情链接
站点统计
文本模式
小游戏