【2021農業智庫報導年報 #4】水稻分子育種與智慧栽培,全球趨勢台灣不缺席
AI自然語言處理分析,電腦也會看文獻
藉由統計關鍵字數量統得以顯現農試所的主要研究的作物種類,但無法細緻的探究每個作物底下的技術應用成果。因此農業智庫報導研究團隊與人工智慧數據分析公司合作,利用人工智慧的「自然語言處理演算法」產出詞彙網絡關係圖,並讓視覺化資料回答「在水稻與鳳梨產業,科技解決了哪些問題?」
「共現矩陣演算法(co-occurrence matrix)」自然語言處理常見的分析方法,此法原理為「計算詞彙與詞彙間共同在文本集內一起出現的次數,並進行加總」。舉三個由句子形成的文本集為例子:
- 水稻稻熱病之研究
- 水稻稻熱病之抗性基因
- 水稻耐稻熱病之突變品系
共現矩陣演算法
「共現矩陣演算法」的分析結果顯示:「與水稻(主題)有關的詞彙網絡是稻熱病。」而文本集中出現多次的「之」與「研究」則可將其定義為不具語意內涵的「停止詞」,因此在進行分析之前,便會將其進行資料清理,以避免干擾分析結果。
透過AI自然語言處理分析,農業智庫報導團隊便能針對目標主題,計算文本集中的關鍵字組合,產出「主要題目」的詞彙網絡分析結果,進而找出最常被討論的子項題目的重要關鍵字。
資料視覺化,水稻科技見樹又見林
為了瞭解科技解決了水稻產業的那些問題?研究團隊以「水稻」作為關鍵字分析的主要題目,並以共現矩陣演算法分析農試所書目中的關鍵字資料集。 結果顯示(圖10)以水稻作為主要題目,其子項題目大致可分為育種、逆境、生理、病蟲害與田間栽培管理等主題,另外也有與精準農業相關的主題,如作物模式、地理資訊系統與影像分析。
農試所出版刊物中以水稻作為關鍵字之共現矩陣統計結果。詞彙網絡為使用co-occurrence matrix(簡稱共現矩陣)演算法。所謂共現矩陣演算法是去計算詞彙與詞彙間共同在同篇文章內一起出現的次數進行加總(只要有一起出現過就加總1次,但同篇文章多次一起出現仍計算為1次)。
為了釐清以水稻為主題之作者關鍵字之間的關聯性,研究團隊以資料視覺化的方式繪製「作者關鍵字詞彙網絡關聯性圖譜」,以圓圈大小表示作者關鍵字出現的次數、而圓圈之間的線條表示兩者有共同出現在同一筆作者關鍵字的欄位資料中。
結果顯示我國水稻科技有下列情境應用,如以基因體科技的育種技術、面對氣候變遷的植株抗逆境與稻熱病等,另一方面科技對應的產業目標則是高產量、耐旱與耐重金屬等。而在2020年農業智庫報導所發表的「2020農業科研關鍵字」年報中指出,「分子標誌輔助育種、數量基因座、氣候變遷、耐旱、作物模式、地理資訊系統、影像分析」分別為育種、作物栽培、智慧農業類別的熱門研究主題。這表示我國水稻農業科技成果不但與國際科研方向一致且具競爭力。
AI自然語言處理技術搭配資料視覺化,得以我們快速掌握近十年農試所水稻的科技技術與研究方向,特別是「非技術應用議題」與「新興跨域議題」都能在圖譜中一目了然。