軟件介紹
![](/img/pic/17045892.jpg)
金蜘蛛(金速探索) 是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外,所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對(duì)于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對(duì)以后的抓取過程給出反饋和指導(dǎo)。相似軟件版本說明軟件地址多文寫手2.6.6.81 中文版查看Extab1.0.0.3 官方版查看軍螞蟻智能調(diào)詞軟件2.0.1.3 官方版查看1235編輯器2.0 電腦版查看麋鹿微博工具箱0.0.3 官方版查看
1)該軟件操作方便、簡(jiǎn)單容易上手,無復(fù)雜的邏輯操作,是您的收集助手
2)新建任務(wù):名稱、入口URL地址、保存路徑必須填寫出現(xiàn)亂碼請(qǐng)選擇編碼
3)如果360或防火墻提示為木馬或病毒軟件、請(qǐng)加入信任
4)運(yùn)行任務(wù)數(shù)量越多cpu資源占用比例越多,不推薦全部運(yùn)行所有程序,每個(gè)任務(wù)線程數(shù)量根據(jù)系統(tǒng)資源調(diào)整
5)任務(wù)每隔3分鐘存儲(chǔ)一次,保存在下載文件夾中,壓縮類型如exe,zip等只提取地址不下載,其余文件類型全部下載保存
6)壓縮類型文件提取后的地址可用下載工具批量下載
7)優(yōu)先級(jí)設(shè)置關(guān)于最先采集什么樣MIME類型,等級(jí)1-5(由低到高)過濾器則跳過不需要采集的MIME文件類型
?。▓D片、文檔、MP3只 全部拿下)