企業(yè)做網(wǎng)站W(wǎng)eb頁面文本提取

Web頁面的標(biāo)簽和標(biāo)簽之間、標(biāo)簽和內(nèi)容之間都存在著層次關(guān)系, DOM樹是描述Web頁面結(jié)構(gòu)的常用方法, DOM樹的葉子節(jié)點(diǎn)通常就是要提取的文本信息。因此, 通過一定的算法對(duì)Web頁面的DOM樹進(jìn)行遍歷, 進(jìn)行相應(yīng)的篩查降噪處理之后, 可以得到目標(biāo)的文本內(nèi)容。

在實(shí)際的應(yīng)用過程中, 利用Web頁面解析工具進(jìn)行頁面解析, 并修正其中不規(guī)范的地方, 構(gòu)建Web頁面的DOM樹并進(jìn)行遞歸遍歷, 識(shí)別其中的非主要文本信息, 比如廣告、圖像等內(nèi)容, 將噪聲節(jié)點(diǎn)移除即得到文本信息。