HPE Networking User Experience Insight(UXI)簡介與感想

User Experience Insight(UXI)是一種以使用者角度出發的服務品質偵測,相比一般網管系統是著重在設備面,從使用者面反而比較能貼近一般使用情況。

舉個例,設備都沒有故障,但是使用者回報說網路不能用。

透過UXI從使用者角度發現是Gateway不通等等,其他內部(Internal)有通。

這能給與更直觀的服務品質的偵測,資料放在雲端保存也能幫助除錯,回顧三十天內任一時刻的偵測狀況。

網管人員通常只在狀況被發現的當下才使用工具偵測,一是不及時,二是可能狀況已經恢復了,測試未必能有所發現。

而UXI在服務測試失敗時,透過不斷錄包,可以將狀況當下流量經過都上傳,讓管理人員可以察看狀況當下的封包流量情況。

這一兩週取得UXI Sensor,把很多功能都測試一遍,本文會簡單介紹UXI與感想。

UXI分為兩種

UXI Sensor

圖片來源:HPE官方網站

一個白色長條的實體設備,後面有壁掛架可以偽裝成裝飾。

支援PoE供電或是變壓器。

有兩種版本:Cellucar與無Cellucar

Cellucar可使用行動網路回傳資料,,需要硬體支援與Cellucar授權才可使用。

UXI Agent

https://help.capenetworks.com/en/articles/9176908-uxi-agent-for-windows-macos

安裝軟體可以在HPE Networking Support Portal上下載。

UXI Agent安裝在電腦或手機上進行服務偵測,相比Sensor,更容易大量部署。

UXI Agent需要有WiFi功能才能正常運作,所以虛擬機通常無法正常啟用。

目前在HyperV上的Windows是無法順利安裝完成。

UXI 偵測模式

Round,即設備依照自己所在的Group把所有服務測試一輪,然後,上傳資料,再重新一次Round。

因此,如果測試服務項目越多,每一Round的時間就會越長,上傳資料的間隔也會拉長,因此就需要靠數目來讓偵測可以達到每分鐘一測試。

Sensor與Agent的差異

Sensor可以支援全面的服務偵測,Agent在實測時會有服務無法測試。

Sensor可以完整模擬連線過程,例如接線、連上Wi-Fi,而連上Wi-Fi可以使用802.1X,又可以檢查網路驗證服務是否正常。

Sensor與Agent在相同服務偵測時,速度在體感上沒太大差異。若服務只有四個的情況之下,只有單一一個是無法做到分鐘等級的服務偵測,即各服務每分鐘測試次數無法達到一次。建議要部署四個。

資料上傳

偵測是以Round為主體,資料上傳也是其中一個環節,如果資料上傳時網路異常,資料不會上傳,也不會在恢復後補傳。

如果使用Cellucar版本,就可以不用擔心網路狀況造成資料無法上傳。

外網中斷狀況

偵測服務有分Internal與External,差異是在Gateway無法達到之下,Internal類型的Service會繼續偵測,External類型的Service將不會進行偵測。

至於Gateway好壞是如何偵測?就是設備能連上特定外部網站即可,並不是ping設備網段預設閘道、自家的Public IP等。

UXI的優點

面對許多競爭對手,可能免費,偵測效率好(達到每鐘級別的測試),反應快速等。

偵測服務品質效率並不是UXI的強項。

然而那些產品,基本上無法像UXI Sensor可以從連接網路開始測試,完整測試整個連線過程。

而User Experience是要從User角度出發,UXI Sensor或是Agnet都可以達到這一點。

對比網管軟體處在伺服器上去偵測,從User角度測試才是最貼切的。

有線VLAN測試

UXI Sensor可以偵測有線網路品質,可以帶VLAN Tag,即一台就可以測試多個VLAN情況。

探索過程,我因故要移動UXI Sensor在其它介面上,然後就發現特定VLAN介面不通,才意識到我忘記把VLAN打通了。

換地方擺也是很容易的,實際模擬一個User在跑,對於檢驗設定是否完善是有幫助的。

狀況分析與自動封包抓取

如果啟用PCAP的話,在偵測服務狀況時,可以上傳過程的錄包。

本情境為偵測特定網站,這個錄包會從偵測過程的開始,因此可以看到DNS查詢的封包。

如圖可以看到一步步的過程,並且可以檢查每一步的情況,可以明確看到錯誤在什麼環節。

筆者弄ADGuard時,意外把網址擋掉了,所以可以看到DNS解析到錯誤的IP。

路徑分析

條件:服務啟用路徑分析

情境:偵測特定目的,如果出現無法,可以查看路徑分析,確認路徑是否有更改。

這邊手動調整了DNS A Record,因此造成特定目的的路徑變化。

以下兩圖是狀況前、狀況中的路徑分析,由於錯誤的A Record解析出127.0.0.1,因此造成路徑變化。

如果只關心路徑,像是調整路由或是DNS等,這功能可以幫助檢視。
(User蠻少關心路徑是什麼,我認為在TroubleShooting時比較適合使用)

UXI的缺點

UXI Sensor貴,這可能是我的缺點。

偵測速度慢,每Round都要數分鐘起跳,導致無法馬上反應狀況。

要有一定數目去彌補偵測速度慢,所以要達到一定涵蓋率,奢華方案。

因此Agent方案會比較經濟實惠的方案。

Agent最好裝的通常是VM,但是VM沒有Wi-Fi功能,除非透過一些手段,導致無法正常啟用。

在POC中,Agent最適合大量安裝的通常是VM,但是VM沒有Wi-Fi功能,除非透過一些手段,導致無法正常啟用。

然而POC時若是想要看到即時偵測的好效果,需要安裝一定UXI設備。

建議至少要部署「四台Sensor或Agent」,才能達到分鐘級別的服務偵測。

UXI帶給我的幫助

探索並非真的生產環境,加上UXI本身運作限制,只有單顆Sensor並不能做到我想像中的服務偵測。

但是裡面的指標是蠻有趣的,像是DNS Delay,預設標準是50ms以下,但是蠻容易觸發這閾值。

為什麼?因為我Client DNS Server指向外部168.95.1.1,然後通常得到100ms級別的回應速度。

而且UXI會一次問所有設定的DNS Server,並不是第一個問不到才問第二個。

要提升速度,DNS Cache是很重要的,因此指到ADGuard時,透過Cache保存,就能把DNS Delay壓在50ms以下。

如果問第二層DNS Server(其上流問ADGuard),通常回應速度又會更慢一點。

因為有數值呈現,因此調整,藉此來達到更好的網路服務。

於是經常觸發DNS Delay閾值而被關掉的擾人告警,又可以再打開來。

此外,還有DHCP IP取得時間,如果是有線+DHCP Relay,可以穩定壓在1ms。但如果是無線,就會變成20ms。

要用來當做提升服務品質的數據提供,UXI蠻適合的。

UXI建議偵測服務

網路正常可以分為四步:連接、驗證、DHCP、DNS。
只要UXI網路有設定好,這些項目都會被偵測到。

內部重要服務:如Email Server、Web Server或是重要的路由節點:DHCP、DNS、Public IP、Public IP Gateway。

外部服務:放企業關心的項目即可,即Teams語音不穩的話,則啟用Teams語音偵測。

服務在UXI規模小時,盡量精簡。

服務在UXI規模大時,設定每分鐘檢測次數限制。

UXI擺放位置

可以放置在高階主管的空間,確保能盡早發覺狀況。

也可以放置在狀況發生的空間,確保能用UXI收集更多資料。

用變壓器供電或是PoE供電都可,能用無線連線也讓可能擺放位置自由許多。

後記:跑去要求新功能

看到一些有意思的要求如

Introduce a “Boost Test” mode in HPE UXI to enable near real-time testing during troubleshooting situations.

Show LLDP/CDP details on wired tab.

我也發了一個新的請求就是希望能安裝在VM上,如果做不到分鐘級的偵測,我覺得客戶不太會買單。