交換機一般部署位置為接入層和核心層。在企業(yè)網(wǎng)或園區(qū)網(wǎng)絡(luò)環(huán)境中。個人而言,運維常見的均與接入有關(guān)。如線路質(zhì)量或配置問題造成的生成樹震蕩。鏈路聚合問題。ARP攻擊或ARP欺騙。私接路由器造成的dhcp沖突。生成樹問題之前是通過各種參數(shù),如bpdu guard,bpdu filter,root guard等技術(shù)解決。目前隨著堆疊技術(shù)的普及。接入到核心的生成樹徹底得到解決。ARP欺騙和攻擊是常見問題。在沒有做二層安全的時候比較考驗網(wǎng)關(guān)經(jīng)驗。通常是找出可疑mac,在接入層做mac地址列表。最笨的方式就是逐個拔線,順藤摸瓜的方式找到問題點。dhcp問題就是做dhcp snooping。它也可做防護ARP攻擊。但貌似效果不理想。目前主流的是通過部署準(zhǔn)入系統(tǒng)進行防護。如H3C的imc+ead或者Cisco的ise系統(tǒng)。都可對準(zhǔn)入進行多種策略的控制。
網(wǎng)絡(luò)運維丨故障診斷應(yīng)該實現(xiàn)的三個目的:
1. 確定網(wǎng)絡(luò)的故障點,恢復(fù)網(wǎng)絡(luò)的正常運行
2. 發(fā)現(xiàn)網(wǎng)絡(luò)規(guī)劃和配置中欠佳之處,改善和優(yōu)化網(wǎng)絡(luò)的性能
3. 觀察網(wǎng)絡(luò)的運行狀況,及時預(yù)測網(wǎng)絡(luò)通信質(zhì)量
網(wǎng)絡(luò)故障診斷以網(wǎng)絡(luò)原理、網(wǎng)絡(luò)配置和網(wǎng)絡(luò)運行的知識為基礎(chǔ)。從故障現(xiàn)象出發(fā),以網(wǎng)絡(luò)診斷工具為手段獲取診斷信息,確定網(wǎng)絡(luò)故障點,查找問題的根源,排除故障,恢復(fù)網(wǎng)絡(luò)正常運行。
網(wǎng)絡(luò)故障通常有以下幾種可能:
1. 物理層中物理設(shè)備相互連接失敗或者硬件及線路本身的問題;
2. 數(shù)據(jù)鏈路層的網(wǎng)絡(luò)設(shè)備的接口配置問題;
3. 網(wǎng)絡(luò)層網(wǎng)絡(luò)協(xié)議配置或操作錯誤;
4. 傳輸層的設(shè)備性能或通信擁塞問題;
網(wǎng)絡(luò)故障診斷的過程應(yīng)該沿著OSI七層模型從物理層開始向上進行。首先檢查物理層,然后檢查數(shù)據(jù)鏈路層,以此類推,設(shè)法確定通信失敗的故障點,直到系統(tǒng)通信正常為止。
網(wǎng)絡(luò)診斷可以使用包括局域網(wǎng)或廣域網(wǎng)分析儀在內(nèi)的多種工具:
路由器診斷命令;網(wǎng)絡(luò)管理工具和其它故障診斷工具。查看路由表,是解決網(wǎng)絡(luò)故障診斷開始的好地方。ICMP的ping、trace命令、debug命令是獲取故障診斷有用信息的網(wǎng)絡(luò)工具。
我們通常使用一個或多個命令收集相應(yīng)的信息,在給定情況下,確定使用什么命令獲取所需要的信息。譬如,通過IP協(xié)議來測定設(shè)備是否可達到的常用方法是使用ping命令。ping從源點向目標(biāo)發(fā)出ICMP信息包,如果成功的話,返回的ping信息包就證實從源點到目標(biāo)之間所有物理層、數(shù)據(jù)鏈路層和網(wǎng)絡(luò)層的功能都運行正常。
如何在互聯(lián)網(wǎng)絡(luò)運行后了解它的信息,了解網(wǎng)絡(luò)是否正常運行,監(jiān)視和了解網(wǎng)絡(luò)在正常條件下運行細節(jié),了解出現(xiàn)故障的情況。監(jiān)視那些內(nèi)容呢?利用 show interface命令可以非常容易地獲得待檢查的每個接口的信息。
另外show buffer命令提供定期顯示緩沖區(qū)大小、用途及使用狀況等。Show proc命令和 show proc mem命令可用于跟蹤處理器和內(nèi)存的使用情況,可以定期收集這些數(shù)據(jù),在故障出現(xiàn)時,用于診斷參考。
網(wǎng)絡(luò)故障診斷以某種癥狀表現(xiàn)出來,故障癥狀包括一般性的(象用戶不能接入某個服務(wù)器)和較特殊的(如路由器不在路由表中)。對每一個癥狀使用特定的故障診斷工具和方法都能查找出一個或多個故障原因。一般故障排除模式如下:
1. 當(dāng)分析網(wǎng)絡(luò)故障診斷時,首先要清楚故障現(xiàn)象。應(yīng)該詳細說明故障的癥侯和潛在的原因。為此,要確定故障的具體現(xiàn)象,然后確定造成這種故障現(xiàn)象的原因的類型。例如,主機不響應(yīng)客戶請求服務(wù)。可能的故障原因是主機配置問題、接口卡故障或路由器配置命令丟失等。
2. 收集需要的用于幫助隔離可能故障原因的信息。向用戶、網(wǎng)絡(luò)管理員、管理者和其他關(guān)鍵人物提一些和故障有關(guān)的問題。廣泛的從網(wǎng)絡(luò)管理系統(tǒng)、協(xié)議分析跟蹤、路由器診斷命令的輸出報告或軟件說明書中收集有用的信息。
3. 根據(jù)收集到的情況考慮可能的故障原因。可以根據(jù)有關(guān)情況排除某些故障原因。例如,根據(jù)某些資料可以排除硬件故障,把注意力放軟件原因上。對于任何機會都應(yīng)該設(shè)法減少可能的故障原因,以至于盡快的策劃出有效的故障診斷計劃。
4. 根據(jù)最后的可能的故障原因,建立一個診斷計劃。開始僅用一個最可能的故障原因進行診斷活動,這樣可以容易恢復(fù)到故障的原始狀態(tài)。如果一次同時考慮一個以上的故障原因,試圖返回故障原始狀態(tài)就困難的多了。
5. 執(zhí)行診斷計劃,認真做好每一步測試和觀察,直到故障癥狀消失。
6. 每改變一個參數(shù)都要確認其結(jié)果。分析結(jié)果確定問題是否解決,如果沒有解決,繼續(xù)下去,直到解決。
網(wǎng)絡(luò)故障分層診斷技術(shù)
1. 物理層及其診斷
物理層是OSI分層結(jié)構(gòu)體系中最基礎(chǔ)的一層,它建立在通信媒體的基礎(chǔ)上,實現(xiàn)系統(tǒng)和通信媒體的物理接口,為數(shù)據(jù)鏈路實體之間進行透明傳輸,為建立、保持和拆除計算機和網(wǎng)絡(luò)之間的物理連接提供服務(wù)。
物理層的故障主要表現(xiàn)在設(shè)備的物理連接方式是否恰當(dāng);連接電纜是否正確;MODEM、CSU/DSU等設(shè)備的配置及操作是否正確。
2. 數(shù)據(jù)鏈路層及其網(wǎng)絡(luò)故障診斷
數(shù)據(jù)鏈路層的主要任務(wù)是使網(wǎng)絡(luò)層無須了解物理層的特征而獲得可靠的傳輸。數(shù)據(jù)鏈路層為通過鏈路層的數(shù)據(jù)進行打包和解包、差錯檢測和一定的校正能力,并協(xié)調(diào)共享介質(zhì)。在數(shù)據(jù)鏈路層交換數(shù)據(jù)之前,協(xié)議關(guān)注的是形成幀和同步設(shè)備。
查找和排除數(shù)據(jù)鏈路層的故障,需要查看路由器的配置,檢查連接端口的共享同一數(shù)據(jù)鏈路層的封裝情況。每對接口要和與其通信的其他設(shè)備有相同的封裝。
3. 網(wǎng)絡(luò)層及其網(wǎng)絡(luò)故障診斷
網(wǎng)絡(luò)層提供建立、保持和釋放網(wǎng)絡(luò)層連接的手段,包括路由選擇、流量控制、傳輸確認、中斷、差錯及故障恢復(fù)等。排除網(wǎng)絡(luò)層故障的基本方法是:沿著從源到目標(biāo)的路徑,查看路由器路由表,同時檢查路由器接口的IP地址。
如果路由沒有在路由表中出現(xiàn),應(yīng)該通過檢查來確定是否已經(jīng)輸入適當(dāng)?shù)撵o態(tài)路由、默認路由或者動態(tài)路由。然后手工配置一些丟失的路由,或者排除一些動態(tài)路由選擇過程的故障,包括RIP或者IGRP路由協(xié)議出現(xiàn)的故障。
例如,對于IGRP路由選擇信息只在同一自治系統(tǒng)號(AS)的系統(tǒng)之間交換數(shù)據(jù),查看路由器配置的自治系統(tǒng)號的匹配情況。
您好,這個問題有ys0202來為您回答,點擊上方關(guān)注,查看更多相關(guān)問題哦!~
關(guān)于運維中交換機的常見問題,常見故障如下:
如下:
第一種:交換機電源故障
①、故障現(xiàn)象描述
某接入交換機(IP:X.X.X.X)電源模塊故障。查看設(shè)備狀態(tài),電源fail等亮紅燈,命令行顯示bad。
②、故障處理過程
1、通過命令行查看,設(shè)備電源模塊1顯示bad,無電流輸入。查看該電源模塊SN號,并給思科打電話開RMA CASE。(case:XXXXXXXXX)
2、更換新電源
3、跟蹤設(shè)備狀態(tài),檢查設(shè)備運行情況,一切正常,設(shè)備運行正常穩(wěn)定。
③、后續(xù)工作計劃
1、定期查看交換機運行狀態(tài)。
2、及時對交換機配置進行備份,和異地備份,嚴(yán)防出現(xiàn)不可恢復(fù)性故障,可以在最短時間內(nèi)進行業(yè)務(wù)和數(shù)據(jù)的恢復(fù),保證交換機正常運行。
第二種:交換機引擎故障
①、故障現(xiàn)象描述
故障設(shè)備信息如下:
l 節(jié)點型號:WS-C4507R+E
l 軟件版本:cat4500e-entservicesk9-mz.150-2.SG4.bin
Case號:XXXXXXXX 統(tǒng)一服務(wù)平臺事件單號:INC-20161128-00049
2016年11月25日04:00分網(wǎng)絡(luò)團隊發(fā)現(xiàn)某DMZ交換機01出現(xiàn)告警,故障信息:%C4K_SUPERVISOR-2-SOFTERROR: memory inconsistency detected: 0x2000。
show log看到相關(guān)信息遂向思科開CASE并上報。
②、故障處理過程
1、 2016年11月25日04:00分網(wǎng)絡(luò)團隊發(fā)現(xiàn)某DMZ交換機01出現(xiàn)告警,故障信息:%C4K_SUPERVISOR-2-SOFTERROR: memory inconsistency detected: 0x2000;
2、 Show log 信息顯示外聯(lián)DMZ交換機1告警:內(nèi)存存在奇偶校驗錯誤,每小時告警一次;
3、 聯(lián)系ciscoTAC 確認問題原因,告知“% C4K_SUPERVISOR-2-SOFTERROR:內(nèi)存不一致性檢測”表示,檢測出一種矛盾中所指的內(nèi)存信息。這通常表示一個柔軟的奇偶校驗錯誤,瞬態(tài)問題,如果你是第一次看到這個,可以忽略;
與TAC進行溝通后,cisco確認做RMA處理,備件已寄至行內(nèi),由于DMZ交換機連接某外聯(lián)區(qū)所有前置服務(wù)器,需聯(lián)系相關(guān)人員配合測試,待非業(yè)務(wù)時間段進行更換。
③、后續(xù)工作計劃
1、經(jīng)過運維處領(lǐng)導(dǎo)同意后在2016年11月25日20:00分左右,進行引擎更換以保證網(wǎng)絡(luò)正常運行。并持續(xù)關(guān)注該設(shè)備引擎運行狀態(tài)。
第三種:交換機板卡poe故障
①、故障現(xiàn)象描述
故障時間:2016年8月13日15:52
故障現(xiàn)象:值班工程師通過網(wǎng)管監(jiān)控發(fā)現(xiàn)四層樓層交換機第三、四塊板卡報警。工程師登陸設(shè)備查看后發(fā)現(xiàn)第三塊板卡poe健康檢查失敗,第四塊板卡poe健康檢查失敗,poe功能不斷重啟,發(fā)生讀寫錯誤。
②、故障處理過程
2016年8月13日 15:52
值班工程師通過網(wǎng)管監(jiān)控發(fā)現(xiàn)四層樓層交換機第三、四塊板卡報警。同時領(lǐng)導(dǎo)反應(yīng)網(wǎng)絡(luò)無法訪問,電話不停注冊。要求網(wǎng)絡(luò)工程師前去查看,工程師立即上樓查看故障現(xiàn)象。
2016年8月13日 16:20
工程師登陸設(shè)備查看交換機日志,設(shè)備poe狀態(tài),發(fā)現(xiàn)第四塊板卡poe告警,提示板卡讀寫錯誤,poe服務(wù)不停重啟。
Aug 13 15:52:33: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:09:41: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:12:26: %C4K_SWITCHMANAGER-4-S2WERRORREPORT: (Suppressed 15 times)PimEthAutoNeg: S2w Read/Write Error for port Fa4/2.
Aug 13 16:31:23: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=7)
Aug 13 16:31:23: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:31:26: %C4K_SWITCHMANAGER-4-S2WERRORREPORT: (Suppressed 15 times)PimEthAutoNeg: S2w Read/Write Error for port Fa4/34.
Aug 13 16:35:33: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=17)
Aug 13 16:35:33: %C4K_CHASSIS-5-PORTSPOERESTARTED: Poe restarted for interfaces on slot 4 (count=1)
Aug 13 16:35:49: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:36:26: %C4K_SWITCHMANAGER-4-S2WERRORREPORT: (Suppressed 15 times)PimEthAutoNeg: S2w Read/Write Error for port Fa4/18.
catalyst4507#show env status
Power Fan Inline
Supply Model No Type Status Sensor Status
------ ---------------- --------- ----------- ------- -------
PS1 PWR-C45-2800AC AC 2800W good good good
PS2 PWR-C45-2800AC AC 2800W good good good
Power supplies needed by system : 1
Power supplies currently available : 2
Chassis Type : WS-C4507R
Power consumed by backplane : 40 Watts
Switch Bandwidth Utilization : 0%
Supervisor Led Color : Green
Module 1 Status Led Color : Green
Module 3 Status Led Color : Green PoE Led Color : Green
Module 4 Status Led Color : Green PoE Led Color : Green
Module 5 Status Led Color : Green PoE Led Color : Green
Module 6 Status Led Color : Green PoE Led Color : Green
Module 7 Status Led Color : Green
Fantray : Good
Fantray removal timeout : 240
Power consumed by Fantray : 50 Watts
同時,第3塊板卡提示poe健康檢查失敗
Aug 12 11:30:02: %C4K_CHASSIS-5-POEHEALTHCHECKFAILED: Poe Health Check failed on slot 3 (count = 95)
2016年8月13日 16:40
工程師和領(lǐng)導(dǎo)及行領(lǐng)導(dǎo)溝通,考慮到故障發(fā)生在周末臨近下班,下聯(lián)影響用戶較少,同意直接更換板卡,工程師立即聯(lián)系資產(chǎn)負責(zé)人拿到備件更換板卡。
2016年8月13日16:50
工程師取到板卡后立即前往更換板卡
2016年8月13日17:20
第4塊板卡更換完成,查看下聯(lián)用戶網(wǎng)絡(luò)恢復(fù)正常。
第3塊板卡雖然沒有影響下聯(lián)用戶,為保證不在工作時間出現(xiàn)問題,領(lǐng)導(dǎo)決定一并更換。
2016年8月13日18:00
第3塊板卡更換完成,查看下聯(lián)用戶網(wǎng)絡(luò)恢復(fù)正常,設(shè)備狀態(tài)正常。
③、后續(xù)工作計劃
1、后續(xù)將通過網(wǎng)管實時監(jiān)控和提高對四層樓層交換機的巡檢頻率來及時發(fā)現(xiàn)可能存在的問題與隱患,確保網(wǎng)絡(luò)正常運行。
第四種:交換機板卡故障
①、故障現(xiàn)象描述
故障時間:2016年8月3日 8點 35分
故障現(xiàn)象:工程師在日常巡檢中通過show log發(fā)現(xiàn)某樓層十層豎井交換機日志提示交換機第六塊板卡出現(xiàn)讀寫錯誤,show env第六塊板卡燈正常,show module第六塊板卡的狀態(tài)正常。
②、故障處理過程
2016年8月3日8:35
工程師在日常巡檢中通過show log發(fā)現(xiàn)某樓層十層豎井交換機日志提示交換機第六塊板卡出現(xiàn)讀寫錯誤,show env第六塊板卡燈正常,show module第六塊板卡的狀態(tài)正常。
2016年8月3日:8:45
立即向領(lǐng)導(dǎo)報告,經(jīng)過領(lǐng)導(dǎo)再次查看確認是交換機板卡故障。
2016年8月3日8:55
工程師通過領(lǐng)導(dǎo)審批決定更換板卡。
2016年8月3日9:00
立即從庫房拿出備件,由于正是上班時間,領(lǐng)導(dǎo)考慮到可能有用戶在辦公,為了不影響用戶的正常辦公,決定在17:30分下班以后再進行板卡更換。
2016年8月3日17:30
去十層豎井現(xiàn)場為交換機更換板卡
2016年8月3日 17:55
更換板卡完畢,交換機第六塊板卡提示燈恢復(fù)正常。
2016年8月3日 18:00
網(wǎng)絡(luò)恢復(fù)正常,用戶均可連接網(wǎng)絡(luò)。觀察日志第六塊板卡沒有再提示讀寫錯誤。
③、后續(xù)工作計劃
1、后續(xù)將通過網(wǎng)管實時監(jiān)控和提高對某大廈十層豎井樓層交換機的巡檢頻率來及時發(fā)現(xiàn)可能存在的問題與隱患,確保網(wǎng)絡(luò)正常運行。
結(jié)語感謝閱讀,以上是我總結(jié)的交換機常見故障以及處理過程,如果您有不同意見,歡迎在評論區(qū)中發(fā)表自己不同的觀點,若有其他問題請在評論區(qū)留言,喜歡的朋友請多多關(guān)注轉(zhuǎn)發(fā)支持一下。
頭條號:ys0202
-------------------END-------------------