軟件介紹
![](/img/pic/16941893.jpg)
LJParser文本搜索與挖掘開發(fā)平臺相似軟件版本說明軟件地址wpe綠色版查看斯沃數(shù)控仿真大全6.5查看grid6.5.0.0 官方版查看 一、簡介 LJParser文本搜索與挖掘開發(fā)平臺包括:全文精準搜索,新詞發(fā)現(xiàn),漢語分詞標注,詞語統(tǒng)計與術(shù)語翻譯,自動聚類與熱點發(fā)現(xiàn),分類過濾,自動摘要,關(guān)鍵詞提取,文檔去重,正文提取等十余項功能。針對互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。開發(fā)平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux,Android,Maemo5,FreeBSD等不同操作系統(tǒng)平臺,可以供Java,C,C#等各類開發(fā)語言使用。 LJParser是一套專門針對原始文本集進行處理和加工的軟件,提供了中間件處理效果的可視化展示,也可以作為小規(guī)模數(shù)據(jù)的處理加工工具。用戶可以使用該軟件對自己的數(shù)據(jù)進行處理。 二、功能 LJParser文本搜索與挖掘開發(fā)平臺的十大功能: 1.全文精準檢索 支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數(shù)民族語言的檢索。可以無縫地與現(xiàn)有文本處理系統(tǒng)與數(shù)據(jù)庫系統(tǒng)融合。 2.新詞發(fā)現(xiàn): 從文件集合中挖掘出內(nèi)涵的新詞語列表,可以用于用戶專業(yè)詞典的編撰;還可以進一步編輯標注,導入分詞詞典中,從而提高分詞系統(tǒng)的準確度,并適應(yīng)新的語言變化。 3.分詞標注: 對原始語料進行分詞、自動識別人名地名機構(gòu)名等未登錄詞、新詞標注以及詞性標注。并可在分析過程中,導入用戶定義的詞典。 4.統(tǒng)計分析與術(shù)語翻譯 針對切分標注結(jié)果,系統(tǒng)可以自動地進行一元詞頻統(tǒng)計、二元詞語轉(zhuǎn)移概率統(tǒng)計(統(tǒng)計兩個詞左右連接的頻次即概率)。針對常用的術(shù)語,會自動給出相應(yīng)的英文解釋。 5.文本聚類及熱點分析 能夠從大規(guī)模數(shù)據(jù)中自動分析出熱點事件,并提供事件話題的關(guān)鍵特征描述。同時適用于長文本和短信、微博等短文本的熱點分析。 6.分類過濾 針對事先指定的規(guī)則和示例樣本,系統(tǒng)自動從海量文檔中篩選出符合需求的樣本。 7.自動摘要 能夠?qū)纹蚨嗥恼拢詣犹釤挸鰞?nèi)容的精華,方便用戶快速瀏覽文本內(nèi)容。 8.關(guān)鍵詞提取 能夠?qū)纹恼禄蛭恼录希崛〕鋈舾蓚€代表文章中心思想的詞匯或短語,可用于精化閱讀、語義查詢和快速匹配等。 9.文檔去重 能夠快速準確地判斷文件集合或數(shù)據(jù)庫中是否存在相同或相似內(nèi)容的記錄,同時找出所有的重復記錄。 10.HTML正文提取 自動剔除導航性質(zhì)的網(wǎng)頁,剔除網(wǎng)頁中的HTML標簽和導航、廣告等干擾性文字,返回有價值的正文內(nèi)容。適用于大規(guī)模互聯(lián)網(wǎng)信息的預處理和分析。 三、文件說明 1.LJParser.exe 可執(zhí)行文件,本版本為試用版本,大規(guī)模語料處理需要購買正式版 2.演示語料 演示用語料,用戶可替換,必須為文本文件,演示只支持GBK;正式版本可以支持UTF-8編碼; 3.各種dll為各組件的調(diào)用接口,本演示程序全部基于已有的調(diào)用接口實現(xiàn); 4.文檔說明,參見當前目錄下的 5.白皮書下載:http://www.lingjoin.com/download/LJParser%20Manual.doc 6.軟件下載:http://www.lingjoin.com/download/LJParser.rar