0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

指标监控体系如何建设

数据分析与开发 来源:一个数据分析人的自留地 作者: 图图 2021-09-26 10:39 次阅读

对于数据人尤其是数据产品和分析师,最难排查(头疼)的问题就是指标为什么升/降/没数,一旦业务方提出这种问题就意味着有大半天的时间要花在确认指标口径+计算逻辑+埋点采集上,而且要同时跟业务方、分析师、数据产品、数仓甚至是负责埋点的开发沟通,所以对于业务达到一定复杂度和指标达到一定量级的情况下,采用人肉运维的方式显然是事倍功半的,搭建一套指标监控体系来保证产出数据的时效性和数据质量才是正解。

由于搭建指标监控体系要做的工作实在太多,本文我们重点讨论几个场景,在这些场景下我们数据产品经理能够发挥哪些作用。

以一个实际场景case举例,聊聊当数据出现异常波动时监控体系是如何发挥其作用的。

业务小李同学发现,昨天App首页的人均停留时长日环比上涨了40%,于是小李找到分析师和数据产品询问指标下降的原因。

此类问题相信各位数据人都不陌生,大家的反应都是先和业务确认最近是否产品有过升级或者策略调整,如果没有的话就要排查数据流转的各个环节是否有问题,以下图为路线,我们分析在这些环节是否能前置的做些监控和定位工作。

01

数据同步

不管是埋点数据和还是业务数据,最终都是以一张张日志表的形式同步到数仓ODS层,如果是数据同步有缺失,可以查看数据拉取服务、埋点日志解析、ETL等过程是否异常,可以将上述注意点整理一个checklist,做成任务每天例行检查,能做到对以上异常情况的定位也就初步完成了数据同步环节的监控。数仓同学经排查并未看到执行失败的任务,可以确定数据同步环节是正常的。

02

调度监控

其实调度监控和任务管理有着很密切的联系,最终目的都是为了把这些任务有序的运行起来,调度系统的设计可以重点考虑以下几个特性:

98debede-1245-11ec-8fb8-12bb97331649.jpg

那么如何通过产品化的形式展示当前任务的调度状态呢?一般大家都会选择用血脉图来展示,数据产品在设计血脉图的展现形式时,可以考虑不仅能展示作业组、节点、表名、字段名、运行状态等,还要考虑能将业务实体,也就是指标与调度信息进行关联。 当然能做到这个粒度依托与数仓治理的程度,如果数仓规范和治理做的没那么精细,我们可以抓重点来做:比如梳理一些重要指标的调度关系,先把这些重要指标的调度监控做起来,这样也是比较容易看到成效的。

此时我们查看血脉图可以看到总停留时长这个指标是执行成功状态,且依赖的作业也是执行成功的状态,而我们要排查的人均停留时长指标是总停留时长指标的派生指标,这样我们可以得出结论并非是调度任务出现问题,接下来可以排查是否是运行指标的任务出了问题。

03

任务管理

看到这儿会发现我们越来越接近指标层了,而随着指标数量越来越多、指标口径越来越复杂,就会出现下面令人头疼的问题:

----任务不能在计划时间内完成

----下游依赖的任务已经执行了但上游任务还没跑完,这时候没有数据下游任务报错

----两个任务并行执行影响数据结果

排查任务错误原因越来越麻烦、各种依赖关系越来越复杂、最后排查问题就要从一团团乱麻中理出已跟麻绳。

而为了保证指标产出的准确性,就必须要求生成这些指标的任务按照上下游依赖有序进行,最终能确保按时生成指标。

为了保证指标产出的监控性,要做到对导入任务的监控,具体有支持查看导入任务的执行纪录、执行状态、失败原因等,这样当指标数据未产出时可以通过导入任务的执行状态来分析问题。

而为了保证指标的时效性我们可以配置指标负责人、运维人员、SLA来保证,当任务执行时间超过SLA触发报警机制。

接下来回到我们排查人均停留时长这个问题,已知他的原子指标总停留时长的作业是没问题的,那么我们分析这个指标的计算逻辑:

人均停留时长=总停留时长/DAU

我们看到上游产出DAU的任务失败了,后经开发排查,是因为DAU的表里有个小时表执行失败了,导致DAU算的数据偏少,进而人均停留时长数据异常增长。

04

指标检验

最后就是对指标数据进行检验,在导入任务执行完产出数据后,如何验证产出的数据符合预期呢?我们可以给指标的波动范围设计阈值(一般是日环比和周同比的形式),关于阈值如何设定,有的团队可能采用业务方提供的波动值来作为阈值,但这种判断容易受主观思维影响,从数据的角度出发可以考虑取以往的指标波动均值作为参考阈值,这样我们在阈值的设定上是比较科学的。

如果是业务调整带来的波动,那在计划调整的时候肯定是有个预期的波动值,我们只需要在调整后及时在报表展示平台添加好提示,同时也检查下数据波动和业务的预期是否一致,这样也会降低一些因业务调整带来的口径波动解释成本

在指标校验环节我们发现人均停留时长这个指标已经超过了设置的20%的阈值,所以业务同学收到了报警,然后就开始了我们文章一开始出现的那一幕。

指标监控体系看似是对指标的监控,实际上是对整个数据生产流程的监控,但本文只是简单的讲了这几个环节,排查实际问题中并不只是这些环节会有问题,比如数据同步环节发现解析到的埋点日志很少,那么我们要排查是否埋点出现异常;调度监控除了血脉图还有元数据管理平台等等。。。

总之数据采集到数据可视化是个漫长且复杂的链路,对于企业级的指标监控系统,这些事还远远不够,不同公司面临的困难不一样,方法也不一样,思考如何制定适合自己业务和威廉希尔官方网站 现状的监控方案,这样才能更好的落地实施。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7010

    浏览量

    88976
  • APP
    APP
    +关注

    关注

    33

    文章

    1573

    浏览量

    72465
  • SLA
    SLA
    +关注

    关注

    1

    文章

    54

    浏览量

    18267

原文标题:浅谈如何建设指标监控体系

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    东软集团助力药品智慧监管体系建设

    近日,东软与国家药品监督管理局信息中心达成合作,双方将基于“人工智能+药品智慧监管”研发应用平台,共同开展人工智能在药品智慧监管领域的深度研究、创新应用和实践探索。此次合作将推动人工智能威廉希尔官方网站 与药品监管业务的深度融合,提升药品监管的智能化水平,助力药品智慧监管体系建设,赋能
    的头像 发表于 12-06 15:51 213次阅读

    测试右移之——监控告警中心优化与建设策略

    ,不仅承担着全面、精准捕捉系统运行动态的重任,更需在问题初露端倪时,迅速吹响警报,引领团队实施有效干预。然而,当前大部分关于测试右移中监控部分的讨论,多聚焦于监控威廉希尔官方网站 的选择与实现,以及如何构建全面的监控
    的头像 发表于 11-26 11:11 143次阅读

    智慧园区建设,构建智能监控和安防体系

    智慧楼宇是智慧园区建设的核心要素之一。通过引入智能化设备和系统,如智能门禁、智能电表、智能照明等,实现对楼宇内部各项设施和资源的智能化管理和控制。智慧楼宇利用物联网威廉希尔官方网站 和大数据分析,可以实现对楼宇
    的头像 发表于 09-27 15:25 268次阅读

    助力企业数字化转型,数势科技发布行业首部指标管理专著!

    的行业首部指标体系指标平台专业书籍《指标体系指标平台:方法论与实践》,引来各界高度关注。 《指标体系
    的头像 发表于 07-19 17:42 272次阅读

    上位监控程序如何实现

    之前,需要对目标系统进行需求分析,明确监控对象、监控指标、用户需求和系统性能要求。以下是一些关键需求: 1.1 监控对象:确定需要监控的设备
    的头像 发表于 06-07 09:12 510次阅读

    浅谈电气火灾监控系统在智慧消防建设中的应用与产品选型

    浅谈电气火灾监控系统在智慧消防建设中的应用与产品选型 张颖姣 安科瑞电气股份有限公司 上海嘉定201801 摘要:针对电气火灾事故进行预先测算与报警,并在出现问题时及时开展救助。目前在电气系统中已
    的头像 发表于 04-11 16:40 282次阅读
    浅谈电气火灾<b class='flag-5'>监控</b>系统在智慧消防<b class='flag-5'>建设</b>中的应用与产品选型

    基于讯维威廉希尔官方网站 的城市治安监控系统分布式智慧终端建设

    基于讯维威廉希尔官方网站 的城市治安监控系统分布式智慧终端建设,为现代城市的治安管理带来了革命性的改变。这种创新的应用不仅提升了治安管理的效率和准确性,还进一步保障了市民的安全和城市的稳定。 首先,讯维威廉希尔官方网站
    的头像 发表于 04-08 15:31 476次阅读

    分布式智慧终端在水利工程建设中的实时监控解决方案

    讯维分布式智慧终端在水利工程建设中的实时监控解决方案,旨在通过集成先进的监控威廉希尔官方网站 和智能化管理手段,实现对水利工程建设过程的全面、实时、高效监控
    的头像 发表于 04-08 15:16 352次阅读

    讯维融合处理器助力智慧城市建设:综合监控系统工程案例

    随着城市化进程的加速推进,智慧城市建设已成为提升城市管理效能、增强城市综合竞争力的重要手段。综合监控系统作为智慧城市的重要组成部分,对于提高城市安全、保障市民生活具有至关重要的作用。在这一背景下,讯
    的头像 发表于 04-01 16:33 389次阅读

    国能局发布煤矿智能化标准体系建设指南,设定2025年目标

    建设指南》进一步指出,预计至2030年,该标准体系将更为完善,在煤矿各环节如设计、建井、生产、管理、运维、评价等环节都形成完善的制度标准。
    的头像 发表于 03-25 13:45 524次阅读

    什么是智慧监控

    THEIntelligentMonitoring什么是智慧监控?成都华江信息威廉希尔官方网站 有限公司随着社会的进步,科技不断发展、监控体系也在迭代升级,如今的监控威廉希尔官方网站 已今非昔比,能独自完成智能化操
    的头像 发表于 02-19 12:43 1049次阅读
    什么是智慧<b class='flag-5'>监控</b>?

    工信部印发《国家汽车芯片标准体系建设指南》

    工业和信息化部近日印发的《国家汽车芯片标准体系建设指南》(以下简称《指南》)提出,将根据汽车芯片威廉希尔官方网站 现状、产业应用需要及未来发展趋势,分阶段建立健全标准体系,加大力量优先制定基础、共性及重点产品等
    的头像 发表于 01-17 17:59 327次阅读

    工信部:50余项云计算标准化体系建设指南发布,推进云计算行业发展

    根据《云计算综合标准化体系建设指南》所述,有关部门计划在明年继续完善云计算标准体系,包括修订参考架构和术语等基础标准,优先制定云计算创新型威廉希尔官方网站 及产品、新式服务应用以及部分关键领域的标准。
    的头像 发表于 01-10 15:00 778次阅读

    某市配网配电室环境智能监控系统建设探索与实践分析

    摘要: 配电室内温湿度等环境因素直接影响到室内设备的安全可靠运行,结合某市配网配电室管理现状介绍了环境智能监控系统建设的可行性,详细闸述了系统试点建设方案。实践证明该方案实现了配电室运行环境实时监测
    发表于 01-09 16:30

    《国家汽车芯片标准体系建设指南》发布,推动芯片研发与应用

     该指南表示,计划按阶段建设完整的汽车芯片标准体系,优先制定急需的基础、共性及重点产品标准,随后依据威廉希尔官方网站 成熟度,逐渐制定产品应用和匹配实验标准。预计截至2025年,完成超过30项重要的汽车芯片标准制定
    的头像 发表于 01-09 11:42 483次阅读