监控告警

约 1412 字大约 5 分钟

2025-03-03

在生产过程中,服务的稳定是非常重要的,而保证服务的稳定,一个是需要保证代码质量的稳定,一个是需要有完善的服务监控和告警,这里带大家搭建一套联犀监控告警体系.联犀在调研了数款监控平台之后,选用了夜莺来作为联犀官方支持的监控告警平台,当然,大家也可以只只使用Prometheus来进行监控,都是Prometheus生态的,这里带大家搭建起夜莺的监控体系.

安装

联犀直接通过docker的方式集成进来,大家只需要docker运行即可使用.

我们先进入到 things/deploy/docker/run-all

打开联犀服务链路追踪和Prometheus上报:
启动监控服务: docker compose -f docker-compose-monitor.yml up -d
打开夜莺: http://localhost:17000 默认账号:root 密码: root.2020

注:如果是win或本地运行,则需要修改下面两个文件中的地址为物理机地址才可以访问,如果新增其他服务,同样在这里新增个文件即可
deploy/docker/conf/nightingale/etc-categraf/input.prometheus/core.toml
deploy/docker/conf/nightingale/etc-categraf/input.prometheus/things.toml

夜莺配置

基础配置

数据源配置

在url中填入: http://victoriametrics:8428/

然后确认即可

服务状态查看

在时序指标-即时查询中输入up 可以看到三个服务,右边的参数都为1则为配置OK,如果为0,则需要看下是不是联犀的上报配置未打开或 deploy/docker/conf/nightingale/etc-categraf/input.prometheus/ 下的服务ip访问不到需要检查.

接口耗时查看

联犀会上报三个指标:

http_server_ur_requests_duration_ms_bucket

这是一个直方图（Histogram）指标的桶（bucket）部分。它记录了 HTTP 请求处理时间的分布情况。具体来说：

它将请求处理时间划分为多个区间（桶），每个桶对应一个时间范围。
每个桶的值表示处理时间小于或等于该桶上限的请求数量。
例如，http_server_ur_requests_duration_ms_bucket{le="100"} 的值为 100，表示处理时间小于或等于 100 毫秒的请求数量为 100。