企業(yè)網(wǎng)站建設(shè)歸檔采集范圍

本研究經(jīng)過分析研判,政務(wù)公開、新聞宣傳和互動交流等相關(guān)內(nèi)容基本只依托門戶網(wǎng)站發(fā)布系統(tǒng),可以完成歸檔采集。對于辦事服務(wù)等內(nèi)容,門戶網(wǎng)站一般只提供相關(guān)系統(tǒng)的入口,有關(guān)信息存儲在其他系統(tǒng)、無法被完整獲取,此類信息暫時不納入歸檔采集范圍。

在技術(shù)上,本研究使用網(wǎng)絡(luò)爬蟲工具抓取網(wǎng)頁文本、圖片、動畫、音視頻、腳本及網(wǎng)頁相關(guān)元數(shù)據(jù)等內(nèi)容。爬蟲工具根據(jù)預(yù)制的系統(tǒng)模板和網(wǎng)頁URL信息,通過網(wǎng)站拓撲結(jié)構(gòu)分析、目標網(wǎng)頁內(nèi)容去噪和解析、網(wǎng)頁版本控制等技術(shù),對采集到的數(shù)據(jù)進行采集和整理,實現(xiàn)對海量網(wǎng)頁信息的高效、智能處理。