火車采集器(LocoySpider)是一個供各大主流文章系統(tǒng),論壇系統(tǒng)等使用的多線程內(nèi)容采集發(fā)布程序。使用火車采集器,你可以瞬間建立一個擁有龐大內(nèi)容的網(wǎng)站?;疖嚥杉飨到y(tǒng)支持遠(yuǎn)程圖片下載,圖片批量水印,F(xiàn)lash下載,下載文件地址探測,自制作發(fā)表的cms模塊參數(shù),自定義發(fā)表的內(nèi)容等有關(guān)采集器。火車采集器對于數(shù)據(jù)的采集其可以分為兩部分,一是采集數(shù)據(jù),二是發(fā)布數(shù)據(jù)。
火車采集器功能:
火車采集器(LocoySpider)是一款功能強(qiáng)大且易于上手的專業(yè)采集軟件,強(qiáng)大的內(nèi)容采集和數(shù)據(jù)導(dǎo)入功能能將您采集的任何網(wǎng)頁數(shù)據(jù)發(fā)布到遠(yuǎn)程服務(wù)器,自定義用戶cms系統(tǒng)模塊,不管你的網(wǎng)站是什么系統(tǒng),都有可能使用上火車采集器,系統(tǒng)自帶的模塊文件支持:風(fēng)訊文章,動易文章,動網(wǎng)論壇,PHPWIND論壇,Discuz論壇,phpcms文章,phparticle文章,LeadBBS論壇,魔力論壇,Dedecms文章,Xydw文章,驚云文章等的模塊文件。更多cms模塊請自己參照制作修改,也可到官方網(wǎng)站與大家交流制作。 同時您也可以使用系統(tǒng)的數(shù)據(jù)導(dǎo)出功能,利用系統(tǒng)內(nèi)置標(biāo)簽,將采集到的數(shù)據(jù)對應(yīng)表的字段導(dǎo)出到本地任何一款A(yù)ccess,MySql,MS SqlServer內(nèi)。
LocoySpider采用Visual C編寫,可獨(dú)立在Windows2008下運(yùn)行(windows2003 自帶.net1.1框架。最新版的火車采集器是2008版,需要升級到.net2.0框架才能使用),如您在Windows2000、Xp等環(huán)境下使用,請先到微軟官方下載一個.net framework2.0或更高環(huán)境組件?;疖嚥杉鱒2009 SP2 04月29日
數(shù)據(jù)抓取原理
火車采集器如何去抓取數(shù)據(jù),取決于您的規(guī)則。您要獲取一個欄目的網(wǎng)頁里的所有內(nèi)容,需要先將這個網(wǎng)頁的網(wǎng)址采下來,這就是采網(wǎng)址。程序按您的規(guī)則抓取列表頁面,從中分析出網(wǎng)址,然后再去抓取獲得網(wǎng)址的網(wǎng)頁里的內(nèi)容。再根據(jù)您的采集規(guī)則,對下載到的網(wǎng)頁分析,將標(biāo)題內(nèi)容等信息分離開來并保存下來。如果您選擇了下載圖片等網(wǎng)絡(luò)資源,程序會對采集到的數(shù)據(jù)進(jìn)行分析,找出圖片,資源等的下載地址并下載到本地。
數(shù)據(jù)發(fā)布原理
在我們將數(shù)據(jù)采集下來后數(shù)據(jù)默認(rèn)是保存在本地的,我們可以使用以下幾種方式對數(shù)據(jù)進(jìn)行處理。
1、不做任何處理。因?yàn)閿?shù)據(jù)本身是保存在數(shù)據(jù)庫的(access、db3、mysql、sqlserver),您如果只是查看數(shù)據(jù),直接用相關(guān)軟件打開查看即可。
2、Web發(fā)布到網(wǎng)站。程序會模仿瀏覽器向您的網(wǎng)站發(fā)送數(shù)據(jù),可以實(shí)現(xiàn)您手工發(fā)布的效果。
3、直接入數(shù)據(jù)庫。您只需寫幾個SQL語句,程序會將數(shù)據(jù)按您的SQL語句導(dǎo)入到數(shù)據(jù)庫中。
4、保存為本地文件。程序會讀取數(shù)據(jù)庫里的數(shù)據(jù),按一定格式保存為本地sql或是文本文件。
工作流程
火車采集器采集數(shù)據(jù)是分成兩個步驟的,一是采集數(shù)據(jù),二是發(fā)布數(shù)據(jù)。這兩個過程是可以分開的。
1、采集數(shù)據(jù),這個包括采集網(wǎng)址,采集內(nèi)容。這個過程是獲得數(shù)據(jù)的過程。我們做規(guī)則,在采的過程中也算是對內(nèi)容做了處理。
2、發(fā)布內(nèi)容就是將數(shù)據(jù)發(fā)布到自己的論壇,CMS的過程,也是實(shí)現(xiàn)數(shù)據(jù)為已有的過程??梢杂肳EB在線發(fā)布,數(shù)據(jù)庫入庫或存為本地文件。
具體的使用其實(shí)是很靈活的,可以根據(jù)實(shí)際來決定。比如我可以采集時先采集不發(fā)布,有時間了再發(fā)布,或是同時采集發(fā)布,或是先做發(fā)布配置,也可以在采集完了再添加發(fā)布配置。總之,具體過程由您而定,火車采集器的強(qiáng)大功能之一也就是體現(xiàn)在靈活中。
火車采集器(LocoySpider)更新日志
1、調(diào)整列表頁排重的方式,現(xiàn)在僅會在同級列表頁之間進(jìn)行排重。
2、增加對于任務(wù)運(yùn)行完畢之后的運(yùn)行統(tǒng)計(jì)的預(yù)警功能(Email郵件預(yù)警)【旗艦版功能】
3、新增支持對于一些請求返回碼不為200時,仍然進(jìn)行采集的配置。
4、新增支持將下載地址保存為html文件的功能。
5、二次代理服務(wù),增加導(dǎo)入的時候配置代理類型,同時修復(fù)對于用戶名密碼的顯示錯誤問題。
6、發(fā)布配置頁面,默認(rèn)僅顯示當(dāng)前選擇配置,加快任務(wù)加載時間。
7、修復(fù)命令行控制,closeapp參數(shù)無法自動關(guān)閉程序的問題。
8、修復(fù)在未選擇圖片水印時,無法進(jìn)行圖片剪裁的問題。
9、優(yōu)化開始界面加載方式,解決初始化界面卡頓的問題。
10、修復(fù)在配置多行連接符包含“|”導(dǎo)致的無法探測圖片下載的問題。
11、修復(fù)Excel導(dǎo)出數(shù)據(jù)時,列的順序與字段順序不一致的問題。
12、修復(fù)Excel導(dǎo)出數(shù)據(jù)時,一些包含數(shù)字的字段的導(dǎo)出數(shù)據(jù)錯誤問題。
13、修復(fù)任務(wù)批量編輯時,Json采集表達(dá)式未能復(fù)制的問題。