前话:本次问题较为棘手,同主机部分VM通信中断,虽有物理网卡关闭告警信息,但无硬件报错,且有较多业务受影响。

处理问题时,需要顶住多部门的压力,优先恢复重要业务,冷静处理问题。最后再做问题追踪,溯源。

运维心态:遇到问题不要慌,冷静思考下,逻辑不能乱。

一、环境介绍

ESXI6.5

二、问题描述

2.1、 Vmware平台物理机(2台)陆续发生3次上联业务平面网卡(万兆物理双上联,其中1块网卡)无法通信的情况,影响部份在此网卡上回源的虚拟机通信中断,

2.2 硬件表现:VC平台有物理网卡自动关闭告警信息,但主机硬件显示正常,无硬件告警信息,主机健康状态正常,系统正常(Hypervisor),网卡连接状态正常。系统及硬件层面无异常。

2.3、VM迁移至其他主机,VM正常访问,通信恢复

三、解决过程

1、ssh到主机,输入 esxtop 命令,按 n 显示网络界面,查看 TEAM-PNIC DNAME 下的网卡名称。确认无法通信的VM所在那个P-NIC上

2、 确认所有受影响的VM是否在同一个P-NIC上。(本次所有受影响VM全在同一P-NIC上)可使用命令手动关闭该物理网卡,这样VM所使用的上行链路会进行切换。

localcli network nic down -n vmnic1

待网络修复之后,您可以再使用下面的命令重启启用该网卡

localcli network nic up -n vmnic1

也可使用ESXCLI命令。

esxcli network nic list

esxcli  network nic down -n vmnic0

esxcli network nic up -n vmnic0

3、使用命令手动切换网卡后,所有受影响的VM,恢复正常通信。

4、受影响业务恢复正常。收集日志,报修厂家CASE,查找问题原因,如下为引用“

根据日志,结合官方KB中类似问题的结论, 确认当Intel x710/X722 网卡接收到 OS 层应用执行特定的数据包时(已知的 12 种数据包中中有 4 种会导致此问题), x722 网卡无法处理这些数据包,会尝试关闭并重置网卡 ,如果这些数据包在业务环境中持续存在,网卡将持续发生重置。”

5、最终处理结果为,升级网卡的驱动和固件版本,运行,观察一个月,如上问题未再出现。(后续有专门讲怎样查看网卡的驱动和固件,并结合厂家的兼容性列表进入升级)

四、问题总结

优先恢复受影响的VM机器。再后续追踪,查找问题根源,彻底解决问题。

网络 故障排查命令一些用于 网络 故障排查的常用命令包括:net-dvs,Esxcli network,vicfg-route,vicfg- vm knic,vicfg-dns,vicfg-nics,和vicfg-vswitch。您可以使用net-dvs命令对 VMware 分布式dvSwitch进行故障排除。该命令显示有关 VMware 分布式dvSwtich配置的所有信息。net-dvs命令从/etc/ vm wa... VMware 的算法保证了即使vSwitch的两个uplink连接至同一个交换机或成为一个环路的连接桥梁,也不会产生环路 网络 。在 VMware 网络 中,所有的数据包不会从一个 vm nic进人vSwitch而从另一个 vm nic出去,即使这两个 vm nic可能被配置成了负载均衡模式。也就是说进入vSwitch的流量或者广播不会再从与之相连的 物理 网卡 上发送回原有 网络 ,对待BPDU数据包也是... 4、通过vi/etc/ vmware /esx.conf进行文件编辑,/device/00002.0/owner="passthru"修改为。3、通过cat查看/etc/ vmware /esx.conf,找出/device/00002.0/owner="passthru"的字样。小结 vmware 平台现在基本上都成为了企业平台的标配,在运行的过程中会有各式各样的需求,本次就是维护升级中禁用 网卡 直通模式。5、更改后,保存,然后关闭 ESXI HOST上的虚拟机,然后重启该Host 主机 。... 1.解决Windows Server 2012 在 VMware ESXi 中经常自动断网 问题 2. ESXi 5.x with E1000e adapter fails with purple diagnostic screen (2059053) 问题 描述: Windows server2012 R2 虚拟机过段时间就远程连接不上了,ping也不通,通过vpsphere界面进入... 遇到了上面的 问题 。想到可能要重新安装 vmware esxi 6.5  系统,这样界面就能够访问了。 重装系统之后,仍然无法访问web管理界面。想到这可能是 网络 问题 。开始搜集 网络 配置方面的文章。 配置了 Configure Management Network 这个 网络 选项后,仍然无法访问web管理界面。想到这是否是 网络 硬件的 问题 。 于是在wmware esxi 的开机界面  按F2进入自定... Esxi 虚拟机无法上网的 问题 解决记录 问题 介绍解决方法有待学习研究的 部分 问题 介绍 最近使用 vmware Esxi 搭建一个虚拟平台,然后在这个平台上创建各种虚拟机,我最先创建的是Centos 7.6的虚拟机,选择的默认的“ VM Network”端口组,创建整个虚拟机的过程比较顺利,但是当我设置好静态IP的时候 问题 出现了,死活上不去网.大概情况如下: 可以看到虚拟机的除了上不了网之外, 网络 状态都是... 使用直接控制台用户界面 (DCUI)重启管理代理:连接到您的 ESXi 主机 的控制台。按 F2 自定义系统。以 root 身份登录。使用上下箭头导航至故障排除选项>重新启动管理代理。按 Enter 键。按 F11 重新启动服务。服务重新启动时,按 **Enter**键。按 Esc 注销。注意:还可以使用 Host Client 重启服务。在 Host Client 中,选择 主机 >&... 我之前在 vmware station 上安装了 ESXI 虚拟服务器,然后又将 vmware station的一 部分 linux虚拟机迁移到了 ESXI 平台上。    今天打开 VM 的后台服务,启动 vmware 然后启动 ESXI ,却发现怎么都连不上去。我怀疑是之前 ESXI 系统没关,我就关闭了windows系统引起的错误,重启了 ESXI ,重新连接远程链接,还是提示连接超时。    排除:1.先是查看了 VM 的 图1-1 报警界面 2、200的 ESXi 主机 断开了连接,其上运行的虚拟机全部显示已断开(例如CA服务器,WSUS服务器等),还好有HA功能、DRS规则及群集故障转移,使得任一一台 ESXi 主机 挂了,都会留一组虚拟服务器(AD+SQL+Fileshare)运行,保证管理服务器持续运行,闲话不多说,首先查看该 主机 ... VMware ESX Server 上特有的命令很多,以下分享一下常见的命令行的使用方法。 1:看你的esx版本。 vmware -v 2:列出esx里知道的服务 esxcfg-firewall -s 3:查看具体服务的情况 esxcfg-firewall -q sshclinet 4:重新启动 vmware 服务 service mgmt- vmware restart 5: 修改root的密码 pa