跳到主要內容區塊

臺大工學院簡訊

學術成果

Gabriele Scalia、Colin A. Grambow、Barbara Pernici、李奕霈*、William H. Green*:Evaluating Scalable Uncertainty Estimation Methods for Deep Learning-Based Molecular Property Prediction. Journal of Chemical Information and Modeling, Vol. 60, Issue 6, Page 2697–2717 (April 2020)
  • 發布單位:工學院

  近年來機器學習的應用在科學研究和工程設計上逐漸受到重視。然而機器學習模型是否準確,取決於訓練資料的品質及數量。在傳統的機器學習應用上,例如影像辨識或是自然語言處理,資料的取得通常較為容易。然而在自然科學領域,精確的數據通常不易取得,故可供機器學習的資料量通常較為有限,以至於其表現不一定能夠達到所需的準確度。因此開發不確定性量化方法(uncertainty quantification method)對於在自然科學領域使用機器學習模型十分重要。若能成功的量化模型的不確定性,那麼就可以評估預測值的誤差區間,避免在不準確的範圍使用該模型的預測。

 

  在本研究中,我們測試Monte Carlo dropout (MC-dropout)、ensembling和bootstrapping三種不確定性量化方法在分子性質預測上的表現。如圖一所示,我們將圖形卷積神經網路(GCNN)和不確定性量化方法做結合,預測不同的分子性質及估計其預測值的不確定性。研究結果顯示加入不確定性計算可以改善GCNN模型泛化能力,增加預測準確度。以預測分子生成熱為例,ensembling不論是在域內或是域外的預測皆能達到最低的平均絕對誤差(MAE)。除此之外,我們發現ensembling和bootstrapping在各項檢測表現上明顯較MC-dropout出色。在域內測試集上,ensembling和bootstrapping所預估的不確定性和預測值的平均平方误差(MSE)有高度的一致性。而在域外區間若考慮實際的MSE,則可發現所有方法所計算的不確定性皆被顯著低估,顯示現有方法對於域外不確定性的估計有明顯的改進空間。(李奕霈教授提供 yipeili@ntu.edu.tw

 

 

圖一、以圖形卷積神經網路(GCNN)預測分子性質及其不確定性示意圖
Reprinted with permission from Scalia, G.; Grambow, C. A.; Pernici, B.; Li, Y.-P.; Green, W. H. Evaluating Scalable Uncertainty Estimation Methods for Deep Learning-Based Molecular Property Prediction. J. Chem. Inf. Model. 2020, 60 (6), 2697–2717. Copyright 2020 American Chemical Society.