01-15,收到测试同学反馈,操作库存后,库存扩展数据没有变化。库存扩展数据是通过kafka消息异步更新的
查看消息处理
通过kafka做消息分发,producer和consumer均是同一个应用,消息发送正常,但consumer一直未获取到消息。
应用所有topic的消息均没有被消费。
重启应用后,消息消费正常。运行一段时间,又重现该问题场景
找运维同事了解了下,1-14号下午kafka挂过一次,服务器硬盘满了。
自己从kafka自带的consumer,找了一个topic订阅,可以正常消费。
看了下consumer对应的线程,线程没有挂。
topic本身的状态查了下,ok (之前碰到过topic leader挂掉了)
topic本身状态查询
https://blog.csdn.net/LG772EF/article/details/65633359
查看这个group的consumer,发现没有消费者
[yanfa3@hositvm01 bin]$ ./kafka-consumer-groups.sh --new-consumer --bootstrap-server 192.168.6.65:9092 --group resourcecenteGroup --describe | grep "BUSINESS_LOG"
Note: This will only show information about consumers that use the Java consumer API (non-ZooKeeper-based consumers).
Consumer group 'resourcecenteGroup' has no active members.
BUSINESS_LOG 0 62798 62894 96 - - -
BUSINESS_LOG 1 63100 63189 89 - - -
BUSINESS_LOG 2 62583 62685 102 - - -
重启下应用,查看启动日志,consumer, 应用一直在更新kafka的元信息(等待coordinator准备)
一直在重复做这几个动作 (请求coordinate). 接收到的group coordinator response, error_code=15 (一直是这个反馈)
GROUP_COORDINATOR_NOT_AVAILABLE(15, new GroupCoordinatorNotAvailableException(“The group coordinator is not available.”))
查询到的ELK日志,一直在重复输出下面内容
应该是对应以下代码块
猜测是kafka挂掉导致异常 ?? 这个没有找到,有清楚的同学麻烦告知,多谢
最终把应用所使用的group修改掉了
下面列出的idea是找到的一些其他思路
清理所有的offset_topics or 重建所有资源的topic or 修改资源所使用的group
https://stackoverflow.com/questions/40316862/the-group-coordinator-is-not-available-kafka
https://www.cnblogs.com/benfly/p/9605976.html
https://stackoverflow.com/questions/51952398/kafka-connect-distributed-mode-the-group-coordinator-is-not-available
要么消费很缓慢
Group coordinator ip:9092 (id: 2147483647 rack: null) is unavailable or invalid, will attempt rediscovery
重启节点也没用
单节点情况下coordinator 压力太大了
__consumer_offsets这个元主题的历史消息量分配不均衡
有分区kb、M级别正常,有几个分区直接几十G,如果消费的主题在这些压力大的分区,就会消费阻塞
因为这个元主
kafka报错,但是这个环境,从监控上看一切正常。9092端口正常,zk正常,服务正常,查看topic正常,但是控制台消费异常。代码消费异常。kafka 相应的hostname 和ip 对应关系没有配置Kafka 消息无法接收(group coordinator is not available)
SpringKafka无法提交offset问题:Group coordinator not available
在使用SpringKafka时,无法提交offset,提交时报错:
2022-05-28 17:24:32.078 INFO 14584 --- [umer_numb-0-C-1] o.a.k.c.c.internals.AbstractCoordinator : [Consumer clientId=consumer-consumer_numb-1, groupId=consumer_num
删除zk上存储的信息
但是重建后,发现,消费者无法消费数据了,但是生成者仍然可以生成数据,并且在shell命令中,kafka-console-consumer.sh 是可以生产和消费的。
就算是写了一个最普通的消费者都无法正常的消费。日志有如下错误,或者没有错误。
Caused by: org.apache.kafka.common.errors.DisconnectE.
使用管理员权限手动在C:\Windows\System32\drivers\etc\hosts文件中添加映射,手动让自己的电脑认识这个IP。我们可以注意一下控制台给出的域名地址,这个域名可能是因为解析问题或者限于远程服务器的安全策略做了转换。验证这个问题的办法,在windows开启telnet命令,在cmd中。kafka服务器的ip和kafka服务器对应的域名。
触发rebalance的条件:
1. 有新的消费者加入消费者组
2. 有消费者宕机下线。例如长时间的GC。网络延迟导致消费者长时间没有向GroupCoordinator发送心跳请求。
3. 消费者退出消费者组
4. 消费者组订阅的任意一个topic发生了分区数量的变化
5. 消费者调用unsubscribe()取消订阅。
rebalance的操作分为三个阶段,下面分别介绍:
1. 查找G...
输出大致是这样的:
[ Thread-27] o.a.k.c.c.internals.AbstractCoordinator : [Consumer clientId=consumer-1, groupId=111] Group coordinator xxxxx:9092 (id: 2147483647 rack: null) is unavailable or invalid, wil...