火車采集器軟件介紹
1、支持所有網(wǎng)站編碼:火車頭采集器完美支持采集所有編碼格式的網(wǎng)頁,程序還可以自動(dòng)識別網(wǎng)頁編碼。
2、多種發(fā)布方式:火車頭采集器支持目前所有主流和非主流的CMS,BBS等網(wǎng)站程序,通過系統(tǒng)的發(fā)布模塊能實(shí)現(xiàn)采集器和網(wǎng)站程序間的完美結(jié)合。
3、全自動(dòng):無人值守工作,配置好程序后,程序?qū)⒁罁?jù)您的設(shè)置自動(dòng)運(yùn)行,完全無需人工干預(yù)。
4、本地編輯:本地可視化編輯已采集的數(shù)據(jù)。
5、采集測試:這是其它任何同類采集軟件所不能比的,程序支持直接查看采集結(jié)果并測試發(fā)布。
6、管理方便:火車頭采集器使用站點(diǎn)+任務(wù)方式管理采集節(jié)點(diǎn),任務(wù)支持批量操作,再多的數(shù)據(jù)管理也很輕松。
火車頭采集器功能特色
真正通用
火車頭采集器采集不限網(wǎng)頁,不限內(nèi)容,支持多種擴(kuò)展,打破操作局限。采什么,如何采,都由您決定!
高效穩(wěn)定
火車頭采集器的分布式高速采集系統(tǒng),多個(gè)大型服務(wù)端同時(shí)穩(wěn)定運(yùn)作,快速分解任務(wù)量,最大化提升效率。
性價(jià)比高
高性能的產(chǎn)品,搭配親民的價(jià)格,“為客戶節(jié)約成本,提升價(jià)值”是火車采集器的服務(wù)理念。
數(shù)據(jù)精準(zhǔn)
火車頭采集器內(nèi)置采集監(jiān)控系統(tǒng),實(shí)時(shí)報(bào)錯(cuò)及時(shí)修復(fù);采集發(fā)布時(shí)確保數(shù)據(jù)零遺漏,為用戶呈現(xiàn)最精準(zhǔn)的數(shù)據(jù)。
火車頭采集器安裝步驟
1、在本站將火車頭采集器(Locoy Spider)下載下來,并解壓到當(dāng)前文件夾中,點(diǎn)擊其中的火車采集器9.21版安裝程序.exe應(yīng)用程序,進(jìn)入許可協(xié)議界面,接著點(diǎn)擊下一步。
2、選擇軟件安裝位置界面,本站小編建議用戶們安裝在D盤中,選擇好安裝位置點(diǎn)擊下一步。
3、火車頭采集器(Locoy Spider)安裝結(jié)束,點(diǎn)擊完成即可。
火車頭采集器使用方法
1.在程序主界面中,點(diǎn)擊“新建”下拉箭頭,從中選擇“任務(wù)”項(xiàng)。
2.在彈出的窗口中,輸入“任務(wù)名”,同時(shí)點(diǎn)擊“起始網(wǎng)址”欄目右側(cè)的“添加”按鈕。
3.接下來就極為重要的一步,就是對要進(jìn)行采集的網(wǎng)站進(jìn)行分板,對所采取的網(wǎng)站中各片文章的URL進(jìn)行綜合分析并找出規(guī)律,最后按如圖進(jìn)行填寫。
4.然后切換至“第二步:采集內(nèi)容規(guī)則”選項(xiàng)卡中,我們需要對網(wǎng)頁內(nèi)容進(jìn)行分板。在此以“搜狗瀏覽器”為例,右擊要進(jìn)行分析的網(wǎng)頁,從彈出的菜單中選擇“審查元素”項(xiàng)。
5.在“開發(fā)式模式”界面中,點(diǎn)擊“選擇頁面中的一個(gè)元素去透視”按鈕,接著點(diǎn)擊“標(biāo)題”內(nèi)容,此時(shí)就可以在“開發(fā)者”窗口中顯示標(biāo)題所對應(yīng)的標(biāo)簽,此例為“h2"。
6.接下來在”采集內(nèi)容規(guī)則“界面中,點(diǎn)擊“添加”按鈕來添加“標(biāo)題”項(xiàng),或者直接雙擊“標(biāo)題”項(xiàng)進(jìn)行修改。在彈出的界面中,勾選”前后截取“,將設(shè)置前后輟分別為"“、”".
7.利用同樣的方法添加其它采集內(nèi)容的規(guī)則。切換至“第三步:發(fā)布內(nèi)容設(shè)置”選項(xiàng)卡,勾選“啟用 方式二”,并進(jìn)行如圖設(shè)置。
8.最后從任務(wù)列表中,勾選要采集的內(nèi)容,點(diǎn)擊“開始”按鈕就可以按規(guī)則采集網(wǎng)站中的網(wǎng)頁內(nèi)容啦。
火車頭采集器常見問題
問:火車頭采集器怎么實(shí)現(xiàn)分級采集內(nèi)容?
答:這個(gè)是可以實(shí)現(xiàn)的,可以在獲取一級頁面的時(shí)候在規(guī)則上添加標(biāo)簽,然后在根據(jù)順序抓取二級頁面,制定二級頁面抓取內(nèi)容的規(guī)則。
此圖就是在一級頁面添加標(biāo)簽的方法和規(guī)則。
問:火車頭采集器如何過濾刪除無用信息?
答:我們可以通過內(nèi)容替換功能將其刪除。
相對進(jìn)階一點(diǎn)的使用替換功能過濾刪除垃圾信息還可以使用星號功能來進(jìn)行模糊刪除,
舉例,我們通過采集規(guī)則設(shè)置需要采集一批新聞內(nèi)容,結(jié)果這些新聞內(nèi)容的標(biāo)題中混入了幾個(gè)軟件下載地址,這時(shí)候我們利用過濾功能就能夠方便的解決問題。
我們可以打開標(biāo)題標(biāo)簽的編輯界面,選擇內(nèi)容過濾,在不得包含的內(nèi)容中填入下載,這樣在標(biāo)題中所有包含“下載”字樣的標(biāo)題就會(huì)被過濾出來。
之后,我們在詳細(xì)設(shè)置中對于過濾處理選擇刪除,就可以刪除這些我們不想要的采集內(nèi)容。
問:火車頭采集器怎么采集圖片?
1.我們現(xiàn)在以采集某商城圖片為例,首先復(fù)制網(wǎng)址打開網(wǎng)站。選擇一類你要采集的圖片,你可以選擇下面任意你喜歡的一類圖片作為圖片采集對象
2.新建任務(wù),編輯采集網(wǎng)址規(guī)則。
3.可以看到商品產(chǎn)品頁一共2421頁,由于時(shí)間關(guān)系,我現(xiàn)在只采集前5頁的圖片。在火車頭批量添加前5也的起始網(wǎng)頁網(wǎng)址:
4.打開剛剛添加的5個(gè)起始網(wǎng)頁網(wǎng)址,右鍵,查看源代碼。在源代碼中找到能標(biāo)示商品鏈接的首和尾,確定好采集網(wǎng)址規(guī)則。如下圖.
5.保存所有的采集規(guī)則,測試采集,確定采集網(wǎng)址無誤,進(jìn)行下一步操作。
6.編輯采集內(nèi)容規(guī)則。因?yàn)槭遣杉瘓D片,所以我們只需要編輯采集內(nèi)容的的規(guī)則就行了。
7.采集內(nèi)容規(guī)則如下設(shè)置:
8.勾選下載圖片和圖片保存路徑,保存。
9.發(fā)布內(nèi)容設(shè)置,保存,所以得設(shè)置完畢,開始采集!
10.在火車頭采集器的【date】文件夾內(nèi)可以找到采集到的所有圖片。
同類軟件對比
八爪魚數(shù)據(jù)采集系統(tǒng)以完全自主研發(fā)的分布式云計(jì)算平臺為核心,可以在很短的時(shí)間內(nèi),輕松從各種不同的網(wǎng)站或者網(wǎng)頁獲取大量的規(guī)范化數(shù)據(jù),幫助任何需要從網(wǎng)頁獲取信息的客戶實(shí)現(xiàn)數(shù)據(jù)自動(dòng)化采集,編輯,規(guī)范化,擺脫對人工搜索及收集數(shù)據(jù)的依賴,從而降低獲取信息的成本,提高效率。輕松從各種不同的網(wǎng)站或者網(wǎng)頁獲取大量的規(guī)范化數(shù)據(jù)。
易地圖數(shù)據(jù)采集大師是一款專業(yè)采集百度地圖、360地圖、高德地圖、搜狗地圖、騰訊地圖、圖吧地圖、天地圖商家、公司、店鋪的手機(jī)、座機(jī)、地址、坐標(biāo)等數(shù)據(jù)信息的軟件,它與同類軟件相比最顯著特點(diǎn)是采集地圖最專業(yè)、采集速度最快、采集最精準(zhǔn)、操作方法最簡單。
火車頭采集器支持采集99%的網(wǎng)頁,速度是普通采集器的7倍。火車頭采集器(Locoy Spider)還可以支持遠(yuǎn)程下載圖片文件,支持網(wǎng)站登陸后的信息采集。趕快下載使用吧!