行业资讯

HOME-华润2娱乐-「星光熠熠」

2022-12-28 11:00:52 heminbo888 9

HOME-华润2娱乐-「星光熠熠」

报道,随着欧加集团大数据业务的发展,现阶段公司大数据平台20+个组件,1EB+级别数据量,平台1000人均日活,服务已经有相当大的规模。在这样的业务背景下,越来越多的用户在使用大数据平台时,发现难以定位问题。基于此,我们设计大数据诊断平台,旨在提升用户解决问题效率,降低用户异常成本。代号“罗盘”,意为用户定位问题,给出优化方案。


此前业务存在问题现状总结如下:


1、问题定位效率相对低。平台组件多,从上层调度器、Livy客户端到中层计算引擎Spark,最后底层Hadoop系统;用户作业日志量大,没法串联一起,问题上下文关联难;用户人员角色非单一研发角色人员,自行分析能力有限,需平台方提供协助解决,沟通与定位让双方工作量只增不减;缺乏自动化工具定位问题等等。各种因素说明,海量作业调度,多种类型运行环境,TB级别日志量,依靠人力盘查作业问题是非常耗的。


2、异常问题类型多,缺乏有效知识库,高效重复利用已有的解决方案。从作业调度任务系统到计算引擎层,常见的业务问题常见如:晚点溯源、高频失败、运行耗时长、数据倾斜、暴力扫描、shuffle失败、CPU浪费、内存浪费、内存溢出等,需将问题数量降低收敛。


3、异常任务、不合理任务成本多。用户任务在执行周期内发生异常或者配置不合理,将导致任务浪费资源,产生许多额外的成本,需将此类问题成本损失降至最低。

图片关键词


总体上希望,从问题出发、经过快速定位、优化方案、问题收敛环节,最后达到降本增效目的。


02 业界产品


基于以上问题,我们调研了业界有关大数据诊断系统,目前比较类似的是Dr. Elephant开源系统,Dr. Elephant一个Hadoop和Spark的性能监控调优工具。它能自动采集Airflow、Azkaban、Oozie等调度系统作业流及计算引擎Spark和Hadoop MR的运行指标,分析作业的异常和性能结果,指导开发者进行作业调优,从而提升开发者工作效率和集群资源利用率。

图片关键词


工作原理:


Dr. Elephant定期从Yarn资源管理中心拉取近期成功和失败的作业列表。每个作业会实时从历史服务器中获取到元数据、配置及调度器作业信息以及监控数据。一旦获取到所有的元数据信息,Dr. Elephant就基于这些元数据运行启发式算法,并生成一份该作业的诊断报告。对该作业报告,进行标记和评级,分为五个级别来评定作业存在新能问题严重程度。


核心功能:


  • 集成多个调度器框架如Azkaban、Airflow、Oozie等;

  • 统计历史作业和工作流的性能指标;

  • Job级别工作流对比;

  • 支持多个计算引擎框架性能诊断(Spark、Tez、MapReduce、TonY);

  • 基于自定义规则的可配置启发式插件,用户诊断作业;

  • 提供REST API, 用户能通过API获取所有信息;


欠缺功能:


  • 支持Spark, Hadoop系统版本比较低,对于新版本Spark, Hadoop兼容性不友好;

  • 不支持Spark, Hadoop新版本的特性的诊断;

  • 诊断指标比较少,其中Spark相关指标仅4个,对于高度依赖Spark引擎是非常欠缺的;

  • 不支持日志级别问题诊断,不能够诊断调度器运行任务或者App应用程序的出现的异常;

  • 调度器和作业App元数据的关联在一些场景下不支持;

  • 不支持异常资源的管理,达到降本增效指引目的;

  • 对Spark History服务接口频繁调用影响History服务的稳定性;

  • 缺乏有效的降本增效流程辅组工具;


综上所述,结合我们有大规模Spark集群调度特点,业界产品对我们解决业务痛点效果不佳, 我们决定自研诊断系统来解决业务带来的挑战。


平台注册
平台登录
平台注册