【2021農業智庫報導年報 #6】人機協作AI 建立臺灣菇類跨域知識結構
從農試所的文獻發表資料,可以幫助團隊快速掌握臺灣科技研究成果的分佈,但此方法仍有其限制,例如文獻書目資料缺乏「關鍵字」(以下稱作者關鍵字,以便和 AI 關鍵字區分)、或是單一文獻關鍵字過少,上述情況皆會導致團隊無法完整的解讀資料。
因此農業智庫報導團隊以網路計量學常用的「人工智慧語意分析方法」,委託悠由數據公司利用自然語言處理演算法,開發出斷詞、資料清理、詞頻計算的語意辨識模組。
這套農業AI產業分析模組能以 300 字以內的文字資料當做文本,重新定義該文本之重要關鍵字(AI 關鍵字)。因此農業智庫報導團隊將農試所過去十年內公開發表文獻的「題名、關鍵字與摘要」作為文本分析目標,便能在缺少文本關鍵字的情況下,根據 AI 關鍵字的統計數值,產出書目分析結果。
農業試驗所作者關鍵字 TF-IDF 重要詞彙網絡
結合傳統書目計量學與人工智慧的資料科學分析方法,不但解決了書目資料缺失的問題,還可以協助團隊釐清跨領域、多學門等性質、或較為模糊議題之知識架構。
農委會機構典藏系統農試所菇類作者關鍵字統計表
舉「菇類」作者關鍵字為例:在農委會機構典藏系統農試所所發表的文獻資料中,大致可看出菇類研究成果以香菇、秀珍菇、杏鮑菇與銀耳為主,但技術有關的關鍵字則只有「太空包」。
菇類AI關鍵字之 TF-IDF 詞彙網路分析結果,連線代表兩個關鍵字有共同出現在文獻資料中
而透過語意分析可產出「AI關鍵字」清單,再將此清單進行詞彙網絡分析,「菇類」在所有文獻資料中與菇類關聯性高的AI關鍵字有:液體菌種、植物工廠、智慧農業、智慧化生產與太空包等,顯示臺灣菇類發展的方向以精準栽培為主,並可透過菌種技術與植物工廠技術建立智慧化的生產環境。
參考文獻
- Salton, G. and Buckley, C. 1988 Term-weighting approaches in automatic text retrieval. Information Processing & Management 24 (5): 513–523.
- Tommy Huang .2018 機器學習應用-「垃圾訊息偵測」與「TF-IDF介紹」(含範例程式).
- Julia Silge and David Robinson 2020 Text Mining with R
- Arnold, Taylor B. 2016. cleanNLP: A Tidy Data Model for Natural Language Processing.
- Arnold, Taylor, and Lauren Tilton. 2016. coreNLP: Wrappers Around Stanford Corenlp Tools.
- Pedersen, Thomas Lin. 2017. ggraph: An Implementation of Grammar of Graphics for Graphs and Networks.
- Rinker, Tyler W. 2017. sentimentr: Calculate Text Polarity Sentiment. Buffalo, New York: University at Buffalo/SUNY.
- Silge, Julia, and David Robinson. 2016. “tidytext: Text Mining and Analysis Using Tidy Data Principles in R.” JOSS 1 (3). The Open Journal.
- Bookstein, A. and Swanson, D. R. (1974), “Probabilistic models for automatic indexing”,Journal of the American Society for Information Science, Vol. 25, pp. 312–319.
- Croft, W. and Harper, D. (1979), “Using probabilistic models of information retrieval withoutrelevance information”, Journal of Documentation, Vol. 35, pp. 285–295.
- Shannon, C. E. (1948), “A mathematical theory of communication”, The Bell System Technical Journal, Vol. 27, pp. 379–423 and 623–656.
- Sparck Jones, K. (1972), “A statistical interpretation of term specificity and its application in retrieval”, Journal of Documentation, Vol. 28, pp. 11–21.
- 行政院農業委員會農業試驗所 台農23號鳳梨