Text Mining 是以各種 Data Mining 方式來進行文件的文字資料分析,透過其分析來取得文字間的關聯性。與 Data Mining 不同之處,在於 Text Mining 是針對文字進行分析,且文字多屬半結構化或非結構資料,因此要先對文字進行前處理(Pre-Processing),並透過某些統計方法與演算法(例如:Term Frequency - Inverse Document Frequency,簡稱 TF-IDF),對文字進行分析與運用,進而取得必要的資訊,作為決策的參考依據。
前處理程序
Text Mining 的前處理程序如下:
1. Part-of-Speech Tagging:
首先進行詞性分析,包括前後詞判斷,以及同義字(Synonym)、一字多義字(Polysemy)、反義字(Antonym)、泛稱(Hypernym)、具體名稱(Hyponym)…等;而單字可能與前後文字組成單詞(例如勞「作」、「作」業、工「作」、杵「作」、「作」文、磨杵「作」針等),因此 Text Mining 需要詞庫來進行標記(Tagging)處理。
現今應用 Text Mining 所創造出來的產值,已超過過去以資料庫搜尋為主的價值。在網際網路以非常快速的方式,所累積愈來愈多非結構化資料的趨勢下,實際運用 Text Mining 來探索出各種未能預見、創新、重要的資訊或知識,如商品評價、施政評價、民意調查、社群偏好等等,對政府機關、企業團體或個人而言,都是非常重要的工作,Text Mining 的相關研究和實作,已成為晚近最為熱門的話題。