試用 購買
軟件介紹

依據內容判斷文章相似度,并過濾重復

此項功能是業界最為領先的技術之一,為熊貓獨創。
在熊貓V1.6版本中,增加了依據內容來判斷文章相似度的功能,并依據相似度判斷結果,來過濾內容重復的文章。
熊貓會在對采集結果文章分詞的基礎上,對分詞結果建立索引,然后依據新的文章的分詞結果快速檢索到相似文章。熊貓為此內置了一個獨立開發的分詞索引檢索引擎,性能強勁,內存消耗低,CPU占用極低。

依據內容判斷文章相似度,并過濾重復

默認情況下,熊貓會自動依據采集信息的來源URL,來判斷、過濾重復采集的數據。這也是一個成熟的采集軟件的必備基礎功能之一。但是出于習慣,互聯網內容復制、轉載的非常多,不同url下的內容,可能會完全相同,或基本相同,此時就無法依據采集來源的Url來判斷數據的重復性。
利用熊貓的分詞索引功能,實現內容相似度的判斷,可以排除轉載的重復內容。 確保結果的唯一性。
此項功能還有一個附屬功能:“相似文章列表”的輸出。默認的采集結果中,會輸出相似文章的ID列表,轉換后,可以附屬在文章的后面,作為“延伸閱讀”使用。
在此功能的基礎上,熊貓新增了對文章摘要的自動生成功能。依據文章的內容,自動智能挑選最合適的摘要描述文字。

熊貓獨有的部分高級功能分項闡述

電話:171 9219 7361

建議/合作: 139 1618 6547

郵箱:123jlxie@ 163.com

友情鏈接: 建筑結構軟件 中國制造業博覽 飛翔下載 好特下載 當下軟件園 六度軟件下載 ZOL應用下載

Copyright @ 2011 www.sterilize-that.com All Rights Reserved 上海齊索信息科技有限公司 滬ICP備16048952號-4

国产乱视频在线观看|精品无码人妻一区二区|久久99精品久久久久久不卡|香蕉免费永久精品视频尤物