从Log中分解出相应的URL,分时间/URL Count 数量即可获得业务量 metrics, 业务量的监控有阈值监控、同环比、动态阈值监控等。
成功率表示的是成功请求量占总请求量百分比,从Log中很容易区分出异常返回码,从而计算出成功率。一般采用阈值监控 。
耗时监控表示的是业务整体耗时,每一笔耗时在日志中均有记载,可采用平均值或p95耗时监控,一般采用阈值、无阈值监控等方法进行监控。
常用的日志处理手段有ElasticSearch / 腾讯云CLS等。
3)用户体验可观测
我们在健康码项目中使用的监控工具是腾讯云RUM监控(Real User Monitoring), RUM监控的便捷之处在于对业务代码的侵入性较少,只需新增数行代码。能够监控到前端JS错误、白屏、首屏打开速度、API成功率、API耗时等。
1 import Aegis from 'aegis-mp-sdk';
2
3 const aegis = new Aegis({
4 id: "pGUVFTCZyewxxxxx", // 项目key