文件分類工具 - CKIP & TFIDF

.CKIP是?
中研院詞庫小組釋出的開源工具
可以執行繁中文件的斷詞、詞性標記、具名實體辦識等功能
可參考文件: 官方GitHub Python使用簡介文章
CKIP試用網站: 試用網站
.這工具能做的是?
先將上傳的文件,使用CKIP工具來分析文件中的詞彙組成
利用文件的詞彙組成,來計算分析文件的內容
以TFIDF的方式,來計算這組文件中的重要詞彙和各文件的詞彙特徵
以各文件的詞彙特徵,計算各文件的詞彙相似程度
--
.使用注意事項
文件請存成 UTF8 編碼(記事本→另存新檔→確認右下編碼為 UTF8)
由於斷詞與詞性標記在處理上需要較多時間,請耐心等候
輸出結果的簡要說明