监控媒介:prometheus
注意:grafana的的图形化界面显示效果很好,但是报警功能有待加强,
-
只支持显示类型为Graph图表的报警,不支持其他图表的报警。
-
不支持zabbix数据源的报警功能;
-
不支持prometheus变量模板的报警;支持prometheus中没有变量的Graph图表的报警功能(邮件、钉钉等)
基于以上的情况,本文将以prometheus作为数据源,分享一下本人的一些操作中遇到的问题及处理。上篇文章已经介绍过了如何部署prometheus。
一、钉钉报警源添加
-
首先需要登录电脑端的钉钉(移动端没有权限),然后在群组里面添加一个自定义的机器人。具体步骤如下: 【电脑钉钉 】-【群聊】-【群设置】-【智能群助手】-【添加更多】-【添加机器人】-【自定义】-【添加】,编辑机器人名称和选择添加的群组。完成必要的安全设置(至少选择一种),勾选 我已阅读并同意《自定义机器人服务及免责条款》,点击“完成”即可。
-
开启成功后,会生成一个Webhook的地址,先把这个链接地址复制下来,然后到grafana中进行配置,如下图:
-
在grafana中打开监控模块,进行配置。
-
然后把钉钉的Webhook地址添加到里面,进行保存,并且测试。
-
接着钉钉客户端会收到测试的报警消息。但是详情无法打开,不知是不是我配置的原因。
二、钉钉报警具体配置
-
开头已经介绍过了,zabbix数据源不支持报警,不支持prometheus变量模板的报警;支持prometheus中没有变量的Graph图表的报警功能。下面简单介绍一下。
-
选择一个prometheus数据源,没有变量模板的,并且是Graph图片的显示项进行测试。
-
因为我是直接导入的prometheus的模板,带有变量,所以先把模板中的变量简单修改一下。原来的是变量,这边改变成了主机的实体ip,如下图:
-
然后 ,我们添加并定义报警指标。
-
配置一下定义的报警条件,简单如下。
-
然后,保存,可以使用stress命令简单压力测试一下,到达条件,就会自动实现钉钉报警。
三、邮件报警
-
如果要使用邮件报警,需要先在grafana中配置邮箱信息。具体如下:
-
首先进入/etc/grafana/grafana.ini文件中,配置邮箱信息。本文使用qq邮箱为例,需要先在QQ邮箱中开通邮箱客户端,获得授权码,填写到密码区域。
-
然后重启grafana服务。
-
测试邮箱发送,出现以下提醒,证明成功,如果没有收到邮件,请检查配置文件及日志,分析错误。
-
登录qq邮箱,查看收件箱有没有测试邮件产生。
大家可以根据自己的监控项,配置报警条件,选择自己习惯的报警方式进行监控报警。
以上为本人实际操作心得体会,欢迎大家一起留言讨论,指正。
系统环境系统版本:centos7服务端ip:192.168.0.226grafana版本:6.7.2监控媒介:prometheus注意:grafana的的图形化界面显示效果很好,但是报警功能有待加强,只支持显示类型为Graph图表的报警,不支持其他图表的报警。 不支持zabbix数据源的报警功能; 不支持prometheus变量模板的报警;支持prometheus中没有变量的Graph图表的报警功能(邮件、钉钉等)基于以上的情况,本文将以prometheus作为数据源,分享一下
一、Docker 容器
监控
报警
方式
接着上篇文章的记录,看到
grafana
的版本已经更新到4.2了,并且在4.0以后的版本中,加入了Alert Notifications 功能,这样在对容器
监控
完,可以加入
报警
规则。根据官网介绍,
报警
方式也有很多种,常见的Email、Slack即时通讯、webhook等。
本篇记录的是
邮件
的
报警
设置。环境和上篇基本一致,都是在Docker 平台测试环境下,另外本篇使用的
grafana
容器的版本是用的 dockerhub上最新版本,该版本为
grafana
/
grafana
:latest; 还有一点需要说明,由于该容器是使用了docker file 生成
docker部署的
grafana
容器。主要是
监控
kolla部署下OpenStack的虚拟机和宿主机的状态警告。
设置相应的
监控
dashboard
https://blog.csdn.net/dandanfengyun/article/details/114540296
一、配置
grafana
配置文件。
多个
grafana
宿主机。。。这个情况。。。需要为每个
grafana
设置notification以及dashboard和alert rules。
不过这样一个警告时会发送多个通知。。。所以配置文件都修改,
本文主要介绍
grafana
的告警是如何配置的,以及在触发告警时通过
邮件
和企业微信消息将告警通知给用户,最后介绍了如何在告警内容中添加告警时刻的panel图片。
grafana
的告警触发以panel为基础,即每个panel单独配置告警信息,包括告警规则、触发条件、告警通知通道及内容,例:
grafana
官方最新版本7.0.5支持的告警通道 :
使用
钉钉
的小伙伴还是有福的,可以直接通知到
钉钉
。
本文主要介绍了笔者在开发中用到的两种:
邮件
和企业微信
修改
grafana
配置文件:
cat简介:
CAT是基于Java开发的实时分布式应用
监控
平台,主要体现在
监控
报表Transaction、event、problem、heartbeat等,cat系统定制的
监控
模型以及定制的实时分析报表也是cat系统核心优势。这里强调了CAT相比于其他系统的二开优势。
logview是cat原始的log采集方式,cat的logview使用的技术是threadlocal,将一个thread里面的打点聚合上报,有一点弱化版本的链路功能,但是cat并不是一个标准的全链路系统,全链路系统参考dapper的论文,
当设计一个Prometheus+
Grafana
实现
钉钉
报警
项目时,可以按照以下步骤进行:
1. 确定
监控
目标:首先确定需要
监控
的目标应用程序,并了解其提供的指标数据接口。
2. 配置Prometheus:在Prometheus的配置文件中,定义目标应用程序的地址和采集频率等参数。确保Prometheus能够定期从目标应用程序中采集到指标数据。
3. 配置
Grafana
:在
Grafana
中创建一个仪表盘,并将Prometheus作为数据源。配置仪表盘中的图表和面板,以展示和可视化Prometheus采集到的指标数据。
4. 设置
报警
规则:在Prometheus的配置文件中,设置
报警
规则和触发条件。定义哪些指标数据超过阈值时会触发
报警
,并
指定
报警
的级别和通知方式。
5. 集成
钉钉
报警
:在
Grafana
中配置
钉钉
作为
报警
通知渠道。提供
钉钉
机器人的Webhook地址和其他必要参数,以便
Grafana
能够发送
报警
通知给
钉钉
。
6. 测试
报警
流程:通过模拟一些触发
报警
的情况,测试
报警
流程是否正常工作。确保当指标数据超过阈值时,Prometheus能够触发
报警
,并且
Grafana
能够通过
钉钉
发送
报警
通知。
7. 优化和调优:根据实际情况,优化Prometheus和
Grafana
的配置参数,以及
报警
规则和触发条件。确保系统的性能和扩展性满足需求。
8. 定期维护和更新:
监控
系统是一个持续的工作,需要定期进行维护和更新。及时更新Prometheus、
Grafana
和
钉钉
机器人的版本,以获取最新的功能和安全补丁。
以上是一个基本的设计和实施流程,具体的实现细节和配置参数会根据实际情况而有所不同。在设计过程中,还需考虑安全性、可靠性和可扩展性等方面的因素,以确保整个
监控
和
报警
系统的有效运行。