• 您的位置:首 頁 > 新聞中心 > 行業動態 > 行業動態基于Heritrix的網絡爬蟲實現

    行業動態

    行業動態基于Heritrix的網絡爬蟲實現

    發布:2021-01-02 12:32:23 瀏覽:212

            基于Heritrix的網絡爬蟲實現

            網絡爬蟲, 是一種可以根據網頁之間的鏈接關系, 在Internet中自動抓取網頁的程序, 它可以有條理的, 自動的遍歷萬維網信息空間。它通過HTTP協議來訪問網頁, 同時, 通過跟蹤鏈接來遍歷整個Web空間。本系統的網絡爬蟲, 基于Heritrix實現。Heritrix是一個由Java開發的、開源的Web網絡爬蟲框架。

            本系統的網絡爬蟲為要包括:網頁分類器 (根據主題策略將網頁分為主題相關和主題不相關兩類) 、信息提取器 (以主題相關網頁作為提取對象, 提取文本信息和鏈接信息) 和網頁抓取器 (抓取“篩選”過的網頁) 。

    >>> 查看《行業動態基于Heritrix的網絡爬蟲實現》更多相關資訊 <<<

    本文地址:http://www.cbmzw.com/news/html/22843.html

    趕快點擊我,讓我來幫您!
  • 欧美性爱视频