原文:《高校智慧校園建設 一體化運維平臺方案》

1 高校智慧校園建設目標

提高高校智慧校園設備現代化、科學化管理水平,用新的、帶有超前意識的智能運維管理方式來取代傳統(tǒng)的、滯后的管理方式,變被動維修改為主動、智能監(jiān)控,變無序管理為流程化高效管理,為高校智慧校園設施運維提供一個智能化、流程化、可視化的集中、統(tǒng)一、高效、個性化的管理門戶平臺。

1)對省內高校內外網設備實行統(tǒng)一智能管理,系統(tǒng)自動了解各設備的實時運行狀態(tài),及時發(fā)現設備的故障,完成運維流程化記錄;

2)及時了解IT設施的運行趨勢,故障處理效率有待提高,故障處理的預見及趨勢分析;

3)對業(yè)務系統(tǒng)整體健康狀況和運行趨勢的監(jiān)測,判定業(yè)務系統(tǒng)是否存在運行瓶頸及潛在運行風險,從而確定是否需要調優(yōu)或采取主動防范風險的措施;


2 詳細方案描述

2.1 運維管理中心

2.1.1 系統(tǒng)邏輯架構

  運維管理中心采用模塊化設計,有著最優(yōu)的數據處理性能及用戶體驗,得益于平臺采用了最前沿的技術及科學的系統(tǒng)架構。平臺主要分為四層結構,分別是數據源接入層、采集層、數據處理層以及應用管理層。

                                             

圖表:技術運營中心邏輯架構圖

2.1.2 數據接入

數據接入層負責將機房環(huán)控系統(tǒng)、運維監(jiān)控系統(tǒng)、及其他業(yè)務系統(tǒng)的告警數據整合,此外還提供更提供強大的 REST API 以及方便的 Email、短信集成方式,可將任何系統(tǒng)的告警數據快速接入到技術運行中心。

2.1.3 采集層

運維管理中心主要以被動接收和主動采集兩種方式,針對內網中的數據可以通過運維監(jiān)控工具進行采集,并上傳給運維管理中心;針對其他工具的告警及郵件、短信告警數據主要采取主動抓取數據。

2.1.4 數據處理層

數據通過被動接收或主動采集到達運維管理中心后,數據進行閥值比較、告警觸發(fā)、通知觸發(fā)、以及性能數據存儲等一系列處理。

2.1.5 應用層

數據經過一系列處理后,運維管理中心以項目的角度進行數據集中展現、數據分析,并提供告警、通知、權限等的管理。

 

2.2 運維監(jiān)控系統(tǒng)

2.2.1 對基礎IT架構的全面監(jiān)控

2.2.1.1 對主機操作系統(tǒng)的監(jiān)測

對各種操作系統(tǒng)(Windows、Linux、Solaris、HP-UX、AIX、中標麒麟、浪潮天梭K1)基本性能指標的監(jiān)測。如 CPU 性能相關參數,系統(tǒng)邏輯及物理磁盤性能相關管理參數,系統(tǒng)內存性能相關管理參數。對基礎應用服務監(jiān)測。可以監(jiān)測的指標有:HTTP/HTTPS,SMTP/ POP3,FTP,DNS服務,DHCP服務,LDAP。

主要監(jiān)測指標如下:

?  CPU利用率:顯示系統(tǒng)、用戶、空閑時間的百分比

?  虛擬內存(Virtual memory)利用率

?  文件系統(tǒng)使用情況:顯示監(jiān)測UNIX分區(qū)、Windows邏輯盤的剩余空間及使用率

?  物理內存使用率:監(jiān)測內存的使用率及剩余空間

?  監(jiān)視重要的文件:如發(fā)現文件被修改或文件大小迅速增長時,向系統(tǒng)管理員報警和產生相應的動作

?  端口監(jiān)測:能夠定期監(jiān)測主機上TCP/UDP端口的狀態(tài)和占用進程,監(jiān)測的端口可由用戶指定,并可以顯示系統(tǒng)所有的端口占有情況

?  進程監(jiān)測:能夠定期監(jiān)測進程多個實例、子進程、進程對CPU/內存的占用情況等等。當重要進程因意外原因終止時,可根據需要自動重啟,并將報警信息寫入事件日志

?  遠程Ping監(jiān)測:能夠指定遠程IP設備,定期監(jiān)測主機和指定遠程設備的ping響應速度,丟包率等

?  對于UNIX操作系統(tǒng):可以監(jiān)測系統(tǒng)平均負載、IO讀寫情況以及虛擬內存、交換空間、Paging Space等的使用情況。對于Windows操作系統(tǒng),可以監(jiān)測操作系統(tǒng)Event Log、NT服務

圖表:操作系統(tǒng)狀態(tài)監(jiān)控視圖

2.2.1.2 對網絡設備的監(jiān)控

運維監(jiān)控系統(tǒng) 對網絡設備狀態(tài)監(jiān)測主要通過SNMP方式為主,能夠監(jiān)控國內外主流廠商的網絡設備,可以監(jiān)測的相關參數有:CPU使用率、內存使用率、端口管理和運行狀態(tài)以及流入流出量、流入和流出使用率、單播接收和發(fā)送包數量、網絡流量(平均流量和最大最小值等)和帶寬、網絡鏈路聯通性等。還可以通過Syslog、Trap協議被動接收網絡設備發(fā)送的告警,如安全設備一般都會主動將其受到攻擊的信息通過Trap向管理平臺發(fā)送。還可以通過ICMP協議檢測線路的性能。監(jiān)控系統(tǒng)對網絡設備狀態(tài)監(jiān)測和管理包括以下重要的指標:

?  網絡設備 CPU 的使用率、網絡設備的內存使用率、網絡設備接口的丟包率和誤包率、廣播包、非廣播包、網絡設備接口到對端設備接口的丟包率和網絡延遲。

?  提供網絡設備相關硬件信息及運行狀態(tài)的數據報表

?  流入、流出廣域網、局域網的網絡流量監(jiān)測。

?  支持基于設備端口的實時性能分析,支持鏈路的實時性能分析。

?  為管理員提供Ping、Tracert、Nslookup、snmp 掃描、Ping掃描、MIB瀏覽器及MIB編譯器等檢測工具。

?  提供網絡歷史性能數據的記錄與分析管理,以按每分鐘、每五分鐘,每十分鐘、每天、每周、每月等間隔時間生成歷史數據分析報表,報表樣式分為柱形圖、線形圖、面積圖、儀表圖等,為用戶分析網絡運行情況做出有力依據。

?  VLAN 的監(jiān)測,如 VLAN 端口的狀態(tài)和流量等。

?  支持端口的95值計費功能;

 

圖表:網絡狀態(tài)監(jiān)控視圖

2.2.1.3 對數據庫的監(jiān)測

運維監(jiān)控系統(tǒng) 通過JDBC,對主流數據庫進行監(jiān)測,包括Oracle、Oracle RAC、DB2、SQL Server、Mysql、達夢數據庫等,能夠監(jiān)控數據庫關鍵性能指標,如表空間、鎖狀態(tài)、會話狀態(tài),并且能夠把占用數據庫資源較多的SQL語句進行排序,方便管理員查找數據庫瓶頸。

監(jiān)控系統(tǒng)對于數據庫可以監(jiān)測以下重要性能指標:

?  數據庫可用性監(jiān)控:能夠監(jiān)控數據庫引擎的關鍵參數、數據庫系統(tǒng)設計的文件存儲空間、系統(tǒng)資源的使用率、配置情況、數據庫當前的各種鎖資源情況、監(jiān)控數據庫進程的狀態(tài)、進程所占內存空間等

?  用戶表空間和系統(tǒng)表空間使用率

?  數據庫事務日志空間的使用情況監(jiān)控

?  數據庫關鍵進程的內存使用以及關鍵進程的狀態(tài)

?  能夠監(jiān)控可用的鎖資源狀態(tài)

?  對于Oracle RAC,能夠監(jiān)測到RAC狀態(tài)、集群的狀態(tài)、表決磁盤信息、TNS狀態(tài)、ASM狀態(tài)等,并通過一體化視圖進行全局狀態(tài)展現

 

圖表:Oracle 數據庫狀態(tài)一體化視圖

 

圖表:Oracle Rac 集群環(huán)境狀態(tài)一體化視圖

2.2.1.4 對中間件的監(jiān)測

對于中間系統(tǒng)可以支持對于主流中間件的性能指標監(jiān)測,包括:Weblogic、Websphere、Tuxedo、Tomcat、Apache、IIS、東方通等。監(jiān)控指標包括Thread Pools的狀態(tài)和監(jiān)測WebLogic服務器應答時間,所有web應用的指標,用戶會話等,主要性能指標如下:

?  對所有web應用的指標的監(jiān)控

?  對日志文件的分析

?  對Jms目標、會話,連接進行監(jiān)控

?  JDBC Pool、等待連接的時間 、正在使用的數據庫連接所占比例

?  JTA事務錯誤情況

?  JMS消息服務狀況

?  自定義應用Mbean (JMX) 屬性等

?  服務器線程池工作狀態(tài)

 

圖表:中間件狀態(tài)監(jiān)控

2.2.1.5 對存儲設備的監(jiān)測

運維監(jiān)控系統(tǒng) 可以通過Agent、SNMP 、SMI-S或 Trap,對用戶架構中核心智能存儲等進行監(jiān)測,如EMC系列存儲(VNX、DMX、CLARiion)、QuanTum 、HDS、IBM_DS、IBM_V系列、HP系列存儲(3PAR、EVA)、華為,浪潮AS系列等。

監(jiān)控系統(tǒng)對存儲設備狀態(tài)監(jiān)測和管理包括以下重要的內容:

?  存儲 IOPS;

?  磁盤空間,可用率,運行狀態(tài);

?  電源,風扇狀態(tài);

?  控制器狀態(tài);

?  對性能數據的采集支持自動化調度的方式,支持Cluster、Array、Volume等不同級別的性能監(jiān)控,能展示設備歷史和實時的磁盤性能狀況以及Write I/O Rate、Read I/O Rate、Read Cache Hits、Write Cache Hits、Read Data Rate等性能指標;

?  支持存儲性能及磁盤、主機、盤籠之間的架構圖展現,如下圖:

 

圖表:HP 3PAR存儲性能視圖展現

2.2.1.6 對云計算的監(jiān)控

   云計算所屬的虛擬化環(huán)境相對于傳統(tǒng)的物理環(huán)境,變得“看不見、摸不著”,對于管理也是一種新的挑戰(zhàn)。運維監(jiān)控系統(tǒng) 云計算監(jiān)控管理通過圖形化方式構建出宿主機、虛擬機、虛擬網絡、數據存儲間資源使用情況,從全局到局部的一體化視圖,便于用戶直觀全面了解當前虛擬化環(huán)境的健康狀況。

運維監(jiān)控系統(tǒng) 對于云計算架構從物理層到虛擬層實現全面的監(jiān)控,將每個虛擬主機操作系統(tǒng)當作獨立服務器,實時監(jiān)控虛擬機的資源性能,并在資源性能不足時發(fā)出警告,提醒管理員關注并及時從物理機資源池中分配更多的虛擬資源。對于Hyper-v虛擬化平臺的監(jiān)控,能夠實現在虛機發(fā)生漂移后產生告警,提示用戶當前虛機漂移的目的IP信息。

運維監(jiān)控系統(tǒng) 能夠實時監(jiān)控到不同物理機的整體資源性能,并在資源性能不足時發(fā)出警告,提醒管理員技術擴容硬件資源。

運維監(jiān)控系統(tǒng) 能夠動態(tài)監(jiān)控物理機與虛擬機之間的動態(tài)漂移,實時展現每一臺物理機上正在運行哪些虛擬主機系統(tǒng),并以圖形化界面展現和查詢物理機IP與虛擬機IP的對應關系,能夠監(jiān)控主流的虛擬平臺,包括Vcenter、Vsphere ESX、KVM、XenServer、Hyper-V、OpenStack、Docker、FusionCompute。

?  宿主機的基礎信息

?  物理資源狀態(tài)及使用情況(CPU、內存、存儲、網卡流量)

?  虛擬機一覽表

?  磁盤讀寫、網卡流量曲線圖

?  虛機漂移等,如下圖:

圖表:虛擬化平臺一體化視圖展現

2.2.1.7 服務器底層硬件監(jiān)控

運維監(jiān)控系統(tǒng)通過帶內、帶外方式兩種方式對PC服務器、小機及刀箱底層硬件狀態(tài)進行全面的監(jiān)控,包括電源、風扇、物理硬盤、Raid卡、插槽等硬件信息,代替管理員的日常機房巡檢工作,使管理員實時了解到服務器底層硬件的運行情況,此種監(jiān)控方式不通過操作系統(tǒng),即使系統(tǒng)關機的狀態(tài)下仍可監(jiān)控服務器的基本硬件健康狀況。

對于X86服務器,運維監(jiān)控系統(tǒng)能夠自動采集到服務器的品牌、型號、SN、PN等資產配置信息,并且支持和CMDB對接,實現配置信息同步。

 

圖表:服務器硬件狀態(tài)一體化視圖展現

 

圖表:服務器資產配置信息采集

此外還能夠對服務器的Errorlog、Eventlog硬件報錯日志進行監(jiān)控,從多個維度實現對服務器硬件信息的全面監(jiān)控。

 

圖表:對AIX服務器硬件errorlog監(jiān)控信息

能夠監(jiān)控到的服務器類型包括:IBM、DELL、HP、ThinkServer、AIX、虛擬化宿主機服務器及其他支持IPMI協議的服務器。能夠監(jiān)控到的指標如下圖所示:

 

圖表:服務器底層硬件監(jiān)控信息

2.2.1.8 資源的監(jiān)控添加方式

運維監(jiān)控系統(tǒng) 產品對被管資源的數據采集支持“自動發(fā)現”和手工輸入兩種方式配置被監(jiān)測對象的配置參數,并通過主動輪巡機制,使用SNMP、Agent等多種采集方式來實現性能數據的采集。對于Agent采集,運維監(jiān)控系統(tǒng)可以實現批量部署,節(jié)約部署時間成本。并且可以通過多種方式來集成和接收第三方管理工具和用戶私有系統(tǒng)的告警信息和數據。

圖例:自動發(fā)現

2.2.1.9 數據獲取方式

支持的部分采集協議如下:

SNMP get (polling),SNMPtrap,Syslog,TCP,POP3,JDBC,ODBC,WMI,Shell,HTTP,HTTPS,ICMP,DNS,FTP,JMX,SMI-S等協議類型。

系統(tǒng)能夠依據管理的需要,定時向需要監(jiān)測的管理對象(可以是一個設備或者一項服務)發(fā)出監(jiān)測請求,運維監(jiān)控系統(tǒng) 監(jiān)測系統(tǒng)的數據采集間隔可以靈活配置,支持最小5秒的輪巡間隔;并將記錄返回數據作為告警和性能診斷的依據。可以支持SNMP輪巡的數據采集,SNMP協議支持V1、V2c和V3多種版本;可以支持在被管主機服務器上使用代理程序Agent的采集方式;系統(tǒng)可以提供兩種Agent分別用于Unix/Linux和Windows服務器平臺;支持單一的Agent模式,即當主機服務器上的被監(jiān)測應用項目發(fā)生變更或增加時,無需更換或添加額外Agent程序。使用Agent數據采集方式,可以對被管服務器進行文件掃描、目錄檢測、接口調用等方法來擴展監(jiān)測的范圍。監(jiān)測系統(tǒng)管理平臺支持對業(yè)務應用系統(tǒng)自身關鍵性能點的自定義監(jiān)控;運維監(jiān)控系統(tǒng) 提供界面配置的簡易方式來擴展自定義的個性化監(jiān)控器。如圖所示:系統(tǒng)支持用戶可以通過自定義Shell腳本、WMI腳本擴展個性化的數據采集能力。同時個性化的數據采集能力能支持單位的換算以及比率或變化率能的計算。

圖例:自定義腳本指標

可以支持其他多種協議進行主動式的數據采集,包括:

TCP端口探測、POP3、JDBC、ODBC、WMI、Shell、PerfMon、HTTP/HTTPS、Ping、DNS、FTP、JMX等。

2.2.2 資產管理

資產管理是IT運維管理的核心樞紐,一個準確的資產管理能幫助運維人員更高效地管理IT基礎設施。從以往經驗來看,要想建設好資產管理,首先要降低數據錄入繁瑣性,其次是保證數據的準確性,再者是提高易用性,可以靈活的為IT服務管理提供支撐。

 

2.2.2.1 精細化的資產分類

資產分類極大程度決定數據管理的顆粒度,科學的分類有利于維護資產管理的后續(xù)關系。運維監(jiān)控系統(tǒng) 依據多年的運維經驗, 默認的分類和現有的監(jiān)控分類無縫吻合,極大的方便了后續(xù)的數據自動采集,定期更新等

圖表:資源分類及顯示參數

 

2.2.2.2 全面化的資產檔案

資產檔案管理數據不僅僅需要分類明確,對于每類資產信息的展現也需要深入全面,運維監(jiān)控系統(tǒng)提供自動發(fā)現配置信息功能,可以發(fā)現絕大部分的資產配置信息,包括網絡設備、服務器、操作系統(tǒng)、PC機等。

對于服務器硬件,系統(tǒng)可自動發(fā)現制造廠商、型號、SN、PN等關鍵信息,并且可以自動同步到相應的資產記錄當中;對于維保時間,可通過手動自定義維保時間,當維保到期,出現高亮或者告警提示,代替資產管理人員維護資產生命周期。

圖表:精細化的資產檔案

2.2.2.3 簡易化的資產維護

當在系統(tǒng)添加設備監(jiān)控時,系統(tǒng)會自動發(fā)現配置信息,根據關鍵字自動創(chuàng)建每條資產數據,后續(xù)會在間隔時間內自動檢查配置信息是否變更,如果出現變更,可及時發(fā)出告警;另外,還提供手動輸入及資產導入功能,方便的初始化資產數據信息,降低初始化成本。

圖表:資產記錄詳細信息

 

2.2.3 對監(jiān)測數據的分析展現

運維監(jiān)控系統(tǒng)提供統(tǒng)一的管理和展現頁面,同時支持靈活定義的管理視圖配置,為不同角度和層面的管理者提供不同的管理視圖。其中包括自定義Portal視圖、資源狀態(tài)視圖、業(yè)務關聯視圖、以及自動拓撲展現、走馬燈展現等。在各種類型的視圖中,可以方便地查看到被管資源的狀態(tài)、主要性能信息以及告警信息等。

2.2.3.1 我的關注Portal展現

運維監(jiān)控系統(tǒng)對于我的關注頁面的顯示模塊、顯示位置、顯示內容都能完全自定義,如下圖:

運維監(jiān)控系統(tǒng) 首頁我的關注Portal展現

2.2.3.2 基礎數據大屏展現

運維監(jiān)控系統(tǒng)大屏展現視圖以動態(tài)模式為管理者提供全局業(yè)務狀態(tài)一覽。業(yè)務健康度視圖以動態(tài)掃描的方式清晰的呈現業(yè)務的層級結構以及健康度、故障信息,掃描到的業(yè)務區(qū)域能夠提供健康度信息、業(yè)務依賴的資源信息以及告警信息。業(yè)務狀態(tài)矩陣圖可以批量顯示多個業(yè)務的基本狀態(tài)信息。趨勢對比圖則很好的展現了核心關注指標的歷史運行信息。從整體到局部,運維監(jiān)控系統(tǒng)的大屏展現無疑通過管理者的視角為業(yè)務進行了一次健康體檢!

動態(tài)可視化業(yè)務大屏展現視圖

運維監(jiān)控系統(tǒng)不僅支持對業(yè)務健康度的大屏展現,而且提供了資源的全局狀態(tài)展現。資源狀態(tài)統(tǒng)計能匯總監(jiān)控系統(tǒng)中全部的資源情況,并且可以通過餅圖統(tǒng)計出各類告警級別的資源占比。運維監(jiān)控系統(tǒng)特有的資源狀態(tài)散點圖,能以動態(tài)方式呈現海量資源健康狀態(tài)分布,方便運維人員從全局觀看資源健康情況。

動態(tài)可視化資源大屏展現視圖

 

2.2.3.3 資源狀態(tài)視圖

運維監(jiān)控系統(tǒng)通過儀表盤、曲線圖等可視化的方式展現被監(jiān)控資源的主要指標狀態(tài),如主機系統(tǒng)、云計算、weblogic中間件、數據庫、服務器硬件等等,如下圖所示。

資源視圖展現

2.2.3.4 業(yè)務拓撲展現

運維監(jiān)控系統(tǒng)提供了業(yè)務的管理視圖,業(yè)務的管理視圖以一個CIO的視角來查看和管理整個業(yè)務和基礎IT元素之間的關系。在一張業(yè)務視圖中就可以看到組成這個業(yè)務的各個基礎IT元素的運行情況;

運維監(jiān)控系統(tǒng)定義了IT架構的四個層級,通過監(jiān)控平臺梳理業(yè)務的層級關系,從用戶的視角展現出真實的業(yè)務流向及層級之間的依賴關系,實時了解到該業(yè)務系統(tǒng)包含有哪些資源,有故障的資源在哪個層級,快速定位故障點。

底層的設備故障直接影響到上層業(yè)務的運行,通過業(yè)務拓撲視圖,解決了故障定位不清晰,層級依賴不清晰的問題,為“自上而下”排查故障提供依據;

能夠實現以下主要功能,包括:

·         在全面采集IT基礎架構的基礎上,建立核心業(yè)務應用系統(tǒng)與IT資源和指標之間的邏輯拓撲關聯視圖

·         業(yè)務拓撲視圖支持同一個IT設備或指標關聯多個業(yè)務對象,指標的狀態(tài)能夠依據所定義的關聯關系,傳遞到多個業(yè)務拓撲分支中。

·         業(yè)務拓撲視圖中實時刷新業(yè)務和相關IT資源的健康狀態(tài),以不同顏色顯示;可靈活定義刷新時間;

·         業(yè)務拓撲視圖支持靈活縮放比例顯示。

·         拓撲圖可以JPEG文件格式導出為圖片文件。

·         支持背景圖、圖標文件的自定義設置。

·         業(yè)務拓撲視圖提供定義多個層次,比如一個復雜的業(yè)務可以定義多個子業(yè)務系統(tǒng)。

·         與管理員權限結合,可以實現不同管理權限的用戶登錄后查看到不同業(yè)務的邏輯拓撲監(jiān)控視圖。如下圖:

圖表:業(yè)務關聯拓撲視圖

2.2.3.5 自動拓撲展現

運維監(jiān)控系統(tǒng)提供了自動發(fā)現拓撲功能,能夠發(fā)現全網拓撲、指定網段拓撲、路由拓撲,能夠自動關聯系統(tǒng)已經監(jiān)控的設備的狀態(tài)在拓撲圖上實時顯示。系統(tǒng)還支持自定義拓撲功能,管理員可以自行增加各種管理視圖,并以可視化圖形的方式展現各種管理視圖。每個管理視圖都將展現不同資源之間的關系、資源的當前狀態(tài)和告警報警情況。每個管理視圖也可以設置不同的標題和背景圖。在自定義拓撲頁面能夠顯示拓撲元素的告警信息和資產信息等數據。

自定義拓撲增加和編輯的方式也非常方便,只需要將資源樹中的資源或指標拖拉的方式就可以加入視圖中,所有的操作都是可見即可得,如下圖:

圖表:自動發(fā)現拓撲

圖表:自定義拓撲展現

2.2.3.6  “走馬燈”輪詢展現

運維監(jiān)控系統(tǒng)對于不同用戶創(chuàng)建的自定義Portal視圖,可以通過 “走馬燈”的方式進行多Portal視圖的輪詢展現功能。通過對不同的自定義Portal視圖進行間隔的切換展現,能夠使相關的人員能夠知道當前IT網絡環(huán)境中所關注資源的整體運行狀態(tài),了解每個部門或者用戶重點關注的資源實時狀態(tài),如下圖:

圖表:“走馬燈”輪詢展現視圖

 

2.2.4 監(jiān)控數據報表

2.2.4.1 運維監(jiān)控報表

運維監(jiān)控系統(tǒng)內置二十多套統(tǒng)計報表默認模板,管理員可以指定統(tǒng)計報表的時間區(qū)間,并選擇指定將哪些資源加入到統(tǒng)計報表中。

報表定支持定時發(fā)送功能,管理員可以設置報表統(tǒng)計類似,統(tǒng)計時間段,并設定報表定時發(fā)送時間,系統(tǒng)會在預定時間自動發(fā)送統(tǒng)計報表到指定接收郵箱中,讓運維人員無需操作系統(tǒng)頁面也能及時了解到自己關注的信息。

圖表:統(tǒng)計報表自動發(fā)送郵件設置

同時系統(tǒng)還支持手動發(fā)送報表至指定郵箱中,用戶在頁面瀏覽某項報表時,如果想將此項報表發(fā)送到指定郵箱中,則即可在頁面進行相應操作:

圖表:手動指定發(fā)送某項統(tǒng)計報

2.2.4.2 自定義運維報告

用戶在報告模板中可以靈活排版,除了自己編寫文字報告,還可以嵌入動態(tài)的數據對象,包括:被監(jiān)控的資源指標數據、趨勢曲線、已經存在的統(tǒng)計報表。 系統(tǒng)依據報告模板動態(tài)生成的電子運維報告,并以WORD格式呈現和導出。

用戶可以依據運維管理的需要定義自己的運維報告模板,比如日報、周報; 又比如:主機運維報告、網絡運維報告、數據庫運維報告等等。

圖表:自定義運維報告設置

2.2.5 告警事件管理

2.2.5.1 事件的集中管理

A.   運維監(jiān)控系統(tǒng) 支持大集中的事件管理功能。

事件來源不僅包括監(jiān)測指標違反門限閾值時產生的異常事件;還要支持通過SNMP Trap 和Syslog 接收的第三方系統(tǒng)產生的事件。

B.   運維監(jiān)控系統(tǒng) 支持靈活的事件分類管理。

管理員可以定義事件的各項信息匹配條件實現對事件進行任意的分類定義。并能依據自定義分類進行查詢和統(tǒng)計;

圖表:靈活自定義事件分類規(guī)則

C.   事件的級別

根據事件信息的嚴重程度,將事件信息劃分為如下級別:緊急事件、主要事件、次要事件、警告事件、正常事件;不同級別的事件用不同顏色顯示。

D.   事件的集中展現

提供集中統(tǒng)一的界面顯示來自不同資源的事件信息;不同級別的事件用不同顏色顯示;異常事件發(fā)生時,應自動將異常狀態(tài)顯示在各類監(jiān)控視圖中的相關資源和業(yè)務對象上。并實現從狀態(tài)監(jiān)控視圖到事件管理界面的跳轉。

E.   多用戶分權限的事件管理

事件管理與帳號權限相關聯,不同管理員進入事件展現界面,應根據管理員帳號權限決定可以訪問的事件范圍;

F.   管理員可以將最近的未處理事件列表加載到首頁Portal中重點關注;

2.2.5.2 事件的智能壓縮

運維監(jiān)控系統(tǒng) 支持事件的屏蔽(黑名單)、壓縮和過濾策略,減少誤報。

支持對持續(xù)重復事件進行壓縮顯示,避免大量重復事件造成信息擁堵;

支持連續(xù)N次采集違反閥值才生成異常事件;

支持M次采集中至少發(fā)生N次才產生事件等事件分析策略;

圖表:自定義事件屏蔽規(guī)

圖表:事件連續(xù)性閥值

圖表:事件間隔閥值

 

2.2.5.3 事件的處理流程

運維監(jiān)控系統(tǒng) 提供事件確認、反確認、清除等規(guī)范的事件處理機制。

事件的管理應能夠區(qū)分“未處理事件”和“已處理事件”。管理員只需關注未處理的事件

對于已經確認并清除的事件,將保存為已處理事件,供查詢和分析。

監(jiān)控平臺記錄每個事件從產生到確認、清除的響應時間都能夠記錄、統(tǒng)計、查詢,可以作為監(jiān)測人員崗位考核的指標依據。

管理員可以將最近的未處理事件列表加載到首頁Portal中重點關注;

2.2.5.4 事件的報警通知策略

事件應能夠通過聲音、郵件、短消息、微信、首頁提示等方式進行報警通知;

為避免重復信息的干擾,報警發(fā)送策略支持靈活配置,進行每次發(fā)送、只發(fā)送一次、最多發(fā)送N次的策略配置。

報警通知策略支持按事件分類發(fā)送到系統(tǒng)用戶/用戶組,也支持手工填寫系統(tǒng)帳號以外的郵件地址和手機號碼。

圖表:事件的通知方式

2.2.5.5 告警通知模板

監(jiān)控系統(tǒng)提供默認的告警通知模板,也可以靈活的手動設置告警通知模板,完全自定義設定通知的具體信息,方便發(fā)送郵件或短信,直接選擇填寫的模板就可以。

選擇通知方式后,點擊詳細信息按鈕就查看到發(fā)送給用戶的模板內容,方便查看,如下圖:

圖表:告警通知模板設置

2.2.5.6 事件的分析和統(tǒng)計功能

運維監(jiān)控系統(tǒng)提供趨勢曲線、未處理事件展現、已處理事件展現、事件報表、事件的郵件告警、事件的聲音告警、事件的短消息告警等幫助系統(tǒng)管理員進行實時查詢、分析和統(tǒng)計。對于分析的結果可以進行自定義時間的自動刷新,日志實時分析支持在內存中完成,提高反應速度。


更多解決方案,請點擊