隨著互聯(lián)網(wǎng)的日益普及,安徽某大學(xué)科技園的各類信息和服務(wù)需求在很大程度上已經(jīng)可以通過互聯(lián)網(wǎng)數(shù)據(jù)的采集分析來完成。根據(jù)CNNIC今年的最新統(tǒng)計(jì),中國(guó)現(xiàn)已有網(wǎng)民4.85億,各類站點(diǎn)域名130余萬個(gè),據(jù)市場(chǎng)研究機(jī)構(gòu)eMarketer估計(jì),2013年中國(guó)網(wǎng)民將增會(huì)達(dá)到8.4億人,互聯(lián)網(wǎng)已經(jīng)成為匯聚各類企事業(yè)組織動(dòng)態(tài)和社情民意的最大平臺(tái)。在國(guó)外,甚至包括CIA這樣的情報(bào)機(jī)構(gòu)已有70%的情報(bào)來源于互聯(lián)網(wǎng)上的開放數(shù)據(jù)分析,但面對(duì)網(wǎng)上海量信息,單純依靠人工進(jìn)行處理已不可能,引入智能化的軟件工具勢(shì)在必行。
另一方面,云計(jì)算作為一種新興的共享基礎(chǔ)架構(gòu)的方法,物理形態(tài)通常為大型的服務(wù)器集群,包括計(jì)算服務(wù)器、存儲(chǔ)服務(wù)器、寬帶資源等,它可以將大的系統(tǒng)池連接在一起以提供各種IT服務(wù),并由軟件實(shí)現(xiàn)自動(dòng)管理,無需人為參與,用戶在享用服務(wù)時(shí)猶如打開水龍頭接水一樣方便簡(jiǎn)潔的享受信息服務(wù),而不必關(guān)心后臺(tái)的技術(shù)有多復(fù)雜。由于云計(jì)算具有普適、方便、可用性強(qiáng)等一系列的優(yōu)勢(shì),正在受到越來越多的關(guān)注,并呈現(xiàn)出廣闊的市場(chǎng)前景。作為服務(wù)上百家企業(yè)的園區(qū),通過云服務(wù)的方式為上百家在孵企業(yè)提供信息服務(wù)支持便成了一種必然的選擇。
為了滿足園區(qū)在招投標(biāo),行業(yè)資訊,競(jìng)爭(zhēng)情報(bào),最新政策等方面的信息需求,寶德設(shè)計(jì)并實(shí)現(xiàn)了情報(bào)云服務(wù)平臺(tái),初期要達(dá)到的技術(shù)指標(biāo)有:
1.50,000以上重點(diǎn)網(wǎng)站(更新頻率在5分鐘以內(nèi))的采集和檢索,普通網(wǎng)站支持在400,000以上,支持媒體包括新聞,論壇,博客,微博,圖片和視頻等。其中網(wǎng)頁(yè)索引量不低于2億(不含微博)。
2.除了支持存儲(chǔ)靜態(tài)網(wǎng)頁(yè)快照文件外,還應(yīng)支持新聞和論壇中出現(xiàn)的圖片存儲(chǔ)和部分視頻的存儲(chǔ),其中靜態(tài)html文件存儲(chǔ)量不低于2億,圖片存儲(chǔ)量不低于1億。
3在10,000個(gè)并發(fā)用戶的情況下,單次查詢數(shù)據(jù)庫(kù)響應(yīng)時(shí)間小于0.1s,單次索引查詢響應(yīng)時(shí)間小于0.2s。
為實(shí)現(xiàn)上述技術(shù)指標(biāo),搭建云計(jì)算數(shù)據(jù)計(jì)算中心,實(shí)現(xiàn)海量信息的采集,存儲(chǔ),分析和檢索。該數(shù)據(jù)中心是云服務(wù)平臺(tái)運(yùn)行的軟硬件環(huán)境,數(shù)據(jù)中心的建設(shè)滿足系統(tǒng)運(yùn)行的基本要求。根據(jù)平臺(tái)的業(yè)務(wù)和數(shù)據(jù)計(jì)算中心建設(shè)的一般規(guī)律,寶德從云設(shè)備選型特制定本方案。
業(yè)務(wù)需求分析
科技園互聯(lián)網(wǎng)情報(bào)采集與智能分析系統(tǒng)架構(gòu)
情報(bào)管理和規(guī)劃
根據(jù)該大學(xué)科技園的實(shí)際情況,需要系統(tǒng)采用靈活的情報(bào)分類體系定義方式,以方便科技園靈活定義情報(bào)需求。為此,需要預(yù)先規(guī)劃欲收集情報(bào)的行業(yè),欲采集的主題。系統(tǒng)能根據(jù)園區(qū)訴求會(huì)生產(chǎn)網(wǎng)站采集頻道,并確定信息采集源。
信息采集
由于園區(qū)采集的信息涉及面廣,因而需要系統(tǒng)支持多種信息源的采集,除了包括論壇,博客,新聞,政府門戶網(wǎng)站等靜態(tài)網(wǎng)頁(yè)信息,還應(yīng)包含一些政策法規(guī)文件的電子文檔(如pdf,doc,xls,ppt等),培訓(xùn)用視頻和圖片文件等。需要系統(tǒng)能夠提供異構(gòu)信息整合工具,將非結(jié)構(gòu)化信息結(jié)構(gòu)化,轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式進(jìn)行存儲(chǔ),對(duì)外能提供統(tǒng)一的查詢和統(tǒng)計(jì)接口。
信息自動(dòng)分類
大學(xué)科技園需加工和處理的信息類型多樣,包括政策法規(guī)信息,競(jìng)爭(zhēng)對(duì)手信息,園區(qū)內(nèi)部信息,輿情口碑信息,創(chuàng)業(yè)培訓(xùn)資源,如何對(duì)這些資源進(jìn)行分類管理,有序使用,是一個(gè)迫切需要解決的問題,為此平臺(tái)應(yīng)集成信息自動(dòng)分類功能,能將自動(dòng)歸類后,形成不同頻道,便于園區(qū)進(jìn)行查詢和歸檔。除此之外,系統(tǒng)還應(yīng)該提供分類規(guī)則定義工具和自動(dòng)訓(xùn)練器,用戶可以自定義分類主題和分類規(guī)則,進(jìn)行靈活分類;系統(tǒng)還集成分類訓(xùn)練器功能,用戶指定類別和訓(xùn)練樣本后,自動(dòng)生成訓(xùn)練模型進(jìn)行分類預(yù)測(cè)。
自動(dòng)排重
互聯(lián)網(wǎng)存在大量重復(fù)信息,如果能對(duì)這些重復(fù)信息進(jìn)行自動(dòng)判定,那么為情報(bào)人員節(jié)約大量時(shí)間,系統(tǒng)排重除了能夠支持url的排重外,還能支持內(nèi)容排重功能,能抽取文檔的特征詞,設(shè)定內(nèi)容相似度閾值,來調(diào)整排重的召回率和準(zhǔn)確率。
自動(dòng)摘要
摘要是以提供文獻(xiàn)內(nèi)容梗概為目的,不加評(píng)論和補(bǔ)充解釋,簡(jiǎn)明、確切地記述文獻(xiàn)重要內(nèi)容的短文。如果計(jì)算機(jī)程序能根據(jù)文章的外在特征抽取能夠表達(dá)其中心意思的原文部分句子為摘要,那么將會(huì)大大大幅情報(bào)人員的工作效率。系統(tǒng)能輸出反映文章大意的靜態(tài)摘要,基于用戶查詢輸出反映查詢意圖的動(dòng)態(tài)摘要。
主題跟蹤
系統(tǒng)能夠根據(jù)用戶定義的主題進(jìn)行相似主題的檢測(cè),并形成專題聚焦,能夠自動(dòng)發(fā)現(xiàn)新聞和帖子的源頭,記錄轉(zhuǎn)載順序,并跟蹤,預(yù)測(cè)主題未來的發(fā)展趨勢(shì)。
信息自動(dòng)的發(fā)布
系統(tǒng)可以基于用戶設(shè)置的模板自動(dòng)生成簡(jiǎn)報(bào),簡(jiǎn)報(bào)支持多種媒體信息,包括圖片,表格,文字等。
通過手機(jī)客戶端或PC能瀏覽系統(tǒng)自動(dòng)生成的網(wǎng)站頻道,查看競(jìng)爭(zhēng)情報(bào)或輿情信息,對(duì)于危機(jī)輿情和敏感信息,系統(tǒng)能夠自動(dòng)預(yù)警。
用戶也可以根據(jù)多種查詢條件,查詢感興趣的信息。
二,配置方案
根據(jù)業(yè)務(wù)的分析主要選定的云設(shè)備包括服務(wù)器,存儲(chǔ)設(shè)備,網(wǎng)絡(luò)設(shè)備等。服務(wù)器的類型定為機(jī)架式服務(wù)器。機(jī)架式服務(wù)器被安裝在標(biāo)準(zhǔn)的機(jī)柜中,占用的空間小,便于管理和維護(hù)。根據(jù)功能需要,需要配置以下幾種服務(wù)器。
信息采集服務(wù)器
為了保證信息采集的及時(shí)性,需要進(jìn)行多線程并發(fā)下載,同時(shí)要進(jìn)行下載調(diào)度,反垃圾等,對(duì)網(wǎng)絡(luò)帶寬,網(wǎng)卡和CPU處理速度要求較高。考慮到該機(jī)器需要根據(jù)數(shù)據(jù)規(guī)模進(jìn)行水平擴(kuò)展,故選擇成本較低,易擴(kuò)展的PC服務(wù)器。適合做下載服務(wù)器的機(jī)器PR1280R配置為:內(nèi)存8GDDR3,CPU為至強(qiáng)E32.3Ghz4核。網(wǎng)卡為千兆雙網(wǎng)卡,硬盤為500G。
存儲(chǔ)和分析服務(wù)器
主要用于構(gòu)建分布式文件系統(tǒng),實(shí)現(xiàn)對(duì)快照,圖片的分布式存取。對(duì)硬盤容量和磁盤讀取速度有要求。另外該集群也可以通過離線或在線分布式計(jì)算實(shí)現(xiàn)數(shù)據(jù)分析。根據(jù)業(yè)務(wù)情況,選擇易擴(kuò)展,容量擴(kuò)充相對(duì)便宜的PC服務(wù)器。適合做存儲(chǔ)和分析服務(wù)器的機(jī)器PR1280R配置為:內(nèi)存4GDDR3;CPU至強(qiáng)E32.3Ghz4核;網(wǎng)卡選用千兆雙網(wǎng)卡。硬盤容量2T。該機(jī)器配置同采集服務(wù)器基本相同,但硬盤容量為2T。
數(shù)據(jù)庫(kù)服務(wù)器
主要用于存儲(chǔ)用戶設(shè)置信息,組信息,規(guī)則,使用記錄,站點(diǎn)和監(jiān)控詞信息等。同時(shí)作為緩存服務(wù)器,緩存用戶頻繁訪問的信息。適合做數(shù)據(jù)庫(kù)服務(wù)器的服務(wù)器PR2310R配置為:內(nèi)存16GDDR3,支持最大內(nèi)存48G,CPU為Intel(R)Xeon(R)CPUE52.13GHz,網(wǎng)卡為千兆雙網(wǎng)卡,硬盤為500GSATA。
檢索服務(wù)器
用于存儲(chǔ)索引文件,對(duì)外提供數(shù)據(jù)快速檢索服務(wù),對(duì)CPU,內(nèi)存都有較高要求。適合做檢索服務(wù)器PR2310R的配置為:內(nèi)存24GDDR3,支持最大內(nèi)存48G,CPU為2*Intel(R)Xeon(R)CPUE52.13GHz,網(wǎng)卡為雙千兆網(wǎng)卡,硬盤為3T(3*1T)。
Web服務(wù)器
面向外部用戶,提供web服務(wù),包括面向用戶的應(yīng)用,包括信息門戶,簡(jiǎn)報(bào),查詢和預(yù)警等。還能為管理提供后臺(tái)管理的功能。適合做web服務(wù)器PR1310R的配置為:內(nèi)存8GDDR3,支持最大內(nèi)存48G,CPU為Intel(R)Xeon(R)CPUE52.13GHz,網(wǎng)卡為雙千兆網(wǎng)卡,硬盤為1TSATA。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。