網路除錯需要靈活性,而靈活性需要觀念與經驗累積,為了避免漫無目的的猜測而延遲網路修復,所以有套嚴謹有組織的除錯概念才能建立紮實的入門,才能迅速從將來的除錯中,更有效率解決、更多成長。
根據《HPE Aruba Networking Certified Professional – Switching Official Certification Study Guide》第16章的《Troubleshooting》,此章節提到步驟、原則、流程、工具,我認為很適合作為除錯能力的啟蒙,樹立一個有組織的方法。
每當不知道下一步如何調查時,可以想想原則。
平時多探索工具,可以幫助你有其他的切入角度,多了一份觀察可以分析,也許就會有頭緒。
流程只要經驗夠多就會習慣,初期可以讓自己充滿意識,一步步來直到熟悉這樣的思考模式。
除錯能力與效率,往往取決於知識儲量與經驗儲量,多聽別人的遭遇與解決過程也是一種累積經驗與知識的捷徑。瞭解正確概念,可以幫助快速積累。
簡述
一個好的除錯流程,是在過程中靈活,不刻板印象,在收斂與探索更多狀況中推翻假設與創造假設,在一開始瞭解問題與相關知識。過程中,善用各種工具獲取資訊,為此平時就需要練習工具,然後看結果依據結果推論。
耐心地仔細地閱讀錯誤訊息,這會是最好的第一步開始。
然後再從流程開始,辨識、分析(搭配五個方向原則)、假設、驗證假說、制定部署、確認是否有修正。如果過程有新發現可以回上一步(小迭代),如果有大發現從可以從頭來過(大迭代)。
五個方向原則
如果不知道從哪裡起手,可以試著從這五個方向原則開始:
Top-down/Bottom-up:
根據OSI七層,從上到下或下到上,確認是哪一層有狀況。
Divide and conquer:
切割多區域並且替換區域或設備,直到縮小至有問題的區域或設備。
Follow the path:
利用traceroute或是show等,確認流量到哪個地方出問題。
Spot the difference:
如果建置或是調整過程中有樣板,將有狀況的與正常的設備設定相比較,確認不同之處。
Replace configuration:
如果是重大網路狀況急需恢復,將設定倒回至正常時候的備份。
流程

Identification—Understand and document the problem
瞭解問題,查閱文件。這一步往往很多人沒有耐心,錯誤提示可以慢慢看。
Analysis—Evaluate the situation
分析資料,得到更多資訊去分析。能基於結果更佳。
Hypothesis—Develop possible resolutions
假設可能根因,可以假設很多個,先從最可能的開始調查,逐一排除。
Validation—Run a validation process to prove or disprove the hypothesis
驗證根因。透過方向原則可以讓範圍縮小到一個層次或是設備。
Implementation—Develop an implementation plan
如果根因驗證完成,需要定義一個改善計劃,並且規劃如何部署。
Verification— Verify the success or failure of the implementation
解決方案完成後,都需要再次檢驗是否有解決狀況,或是設定與表現有如預期。
工具
CLI
一般來說會以CLI為主,因為設備可以遠端連線,對於人員執行除錯的便利性是最高的。
- L1:cable-test
- L2:mac address table
- L3:arp、ping、tracert
- packet sniffer:mirror、ERSPAN
- Log
- LLDP
- SNMP
Software
- wireshark
- ipscan
- gping
- inssider
- wifiinfoview
- (android)WiFiman
Hardware
- fluke
- cable-tester
範例
Aruba WiFi無法使用 => AP 綠燈閃爍
收到「Aruba WiFi無法使用」報修特別多,首先會繼續詢問更多細節。
如何不通?連接得上?連上沒網路?還是連不上?有無IP?有IP是多少?設備MAC?
然後ping得到gateway ip?nslookup解析成功?dns server ping得到?
此案例在詢問之下,得到狀況現場的AP綠燈閃爍,無法變成綠燈恆亮。
Identification
查詢AP失聯原因得到太多回答,換個角度,查詢AP報到條件:AP報到需要具有IP,知道Controller IP位置,並且能夠路由到Controller。如果缺少任一條件,AP無法報到會持續重新開機。
AP很有可能是缺少其中一個條件。
Analysis
從其他同場域的AP來看,DHCP Server正常。
從Edge Switch使用CLI查詢LLDP,AP不存在。(Follow the path)
檢查AP是否L2通,透過連線edge switch,查看mac table,發現AP MAC不在MAC table。(Follow the path)
「分析」AP綠燈閃爍即AP有電,但是MAC Table查不到 => 即可能為L1或L2狀況
Hypothesis
AP可能遇到L1或L2狀況導致無法上線。
Analysis
透過Config,查看VLAN設定正常。查看Spanning Tree正常。
=> 不是L2狀況。
Hypothesis
AP可能遇到L1狀況導致無法上線。
Analysis
透過CLI使用cable-test,發現線路第1對與第2對的測試為open,並且異常發生距離為1m
=> 確認L1狀況。
Validation
驗證為L1狀況。
Implementation
更換patch panel到Switch的短線。
Verification
再次使用cable-test測試為正常,同時AP也重新與Controller報到。
無線網路除錯(2025/07/01新增)
無線網路除錯時,很容易接收到「無法連線」之類的訊息。
但這樣的資訊不足以判斷!!!!!(不過用戶卻很容易只給出這樣的訊息
「人事時地物」都要問一輪,取得充足資訊,再去辨識問題。無法連線有太多可能性原因,找錯方向除了浪費時間,還有可能被錯誤認知帶著走,因此基於專業,我們要確認狀況以及辨識清楚才能進行有效排查!
深刻明白Why之後,下次遇到處理辨識無線狀況時,才會下意識地調查。不明白的,多試幾次就會慢慢感覺到了。
為了讓之後的處理更加有效率,關於無線狀況的詢問是制式的,可以作成問卷讓人填寫。
人:每個人都會嘛?每台裝置都會嘛?人能協助做進一步排查嘛?
事:無法連接?有看到憑證警示畫面?無網際網路?有IP嘛?
時:經常發生?偶爾發生?持續發生?從何時發生?
地:只有一個區域?全部區域?
物:使用什麼裝置?版本?如何設定?

這步驟重要性是給與後續判斷更多資訊,唯有問得足夠,辨識問題才會準確,進而提升自己的除錯能力。