转转B2C一站式服务告警治理的背后

转转B2C技术部主要负责商详、商列等BFF层核心页面业务,单接口甚至需要开线程池并行调用二十多个依赖服务,因此依赖的服务以及执行线程池的稳定性也就成为了B2C关注的重点。,那么站在技术视角看调用链路,会发现几个特点:,本文就针对如何快速定位常见问题,以及后续日志的进一步治理计划来进行讲解。,目前转转各个排查问题的工具是统一开放给公司的所有业务使用的,因此每次告警,都需借助统一的平台如服务治理平台、Grafana、Log日志平台等工具进行排查,不完全贴合B2C常见问题排查场景,比如上游调用异常、超时等问题。,B2C技术部告警定位问题会遇到如下几个问题:,线上内置告警无法一眼定位出问题,需要根据业务新增新的Promtheus PromQL展示调用服务超时、异常榜单。,发生紧急问题时,只能从收藏夹中选中公司各个公用平台,然后手动输入服务名称、时间范围、粘贴查询语句等,效率较低。,办公设备不在身边时,一旦发生告警,无法像在公司一样方便的打开各个平台进行问题定位。,上面提出了几个问题,那怎么进行监控治理呢。比如,怎么快速识别出问题的类型?怎么快捷跳转对应的平台?以及在户外如何进行问题定位呢?针对这些问题提出了如下解决方案。,总架构设计图如下,图片,图片,日志收集,图片,日志告警及定位,其中快捷跳转工具箱设计原理如下,图片,图片,告警感知,图片,企业微信机器人告警,图片,点击告警后跳转页面,图片,总的来说,这里是从怎么快速定位异常入手,通过自定义Promtheus的PromQL来聚焦当前业务需关注的异常,另外实现了H5监控大盘页面,提升了在非工作日户外无办公设备问题定位的能力。,

文章版权声明

 1 原创文章作者:cmcc,如若转载,请注明出处: https://www.52hwl.com/27046.html

 2 温馨提示:软件侵权请联系469472785#qq.com(三天内删除相关链接)资源失效请留言反馈

 3 下载提示:如遇蓝奏云无法访问,请修改lanzous(把s修改成x)

 免责声明:本站为个人博客,所有软件信息均来自网络 修改版软件,加群广告提示为修改者自留,非本站信息,注意鉴别

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年6月23日
下一篇 2023年7月15日