图 融合领域知识的数据量治理流程

在国家自然科学基金项目(批准号:92270124、52073169)等资助下,上海大学计算机工程与科学学院刘悦教授与材料科学与工程学院施思齐教授团队近期发展了一种融合领域知识的数据量治理流程,实现了样本量、特征/模型参数量的治理与协调,为加速新材料研发提供了高质量数据基础。研究成果以“面向机器学习的材料数据量治理(Data quantity governance for machine learning in materials science)”为题,于2023年5月1日发表在《国家科学评论》(National Science Review),论文链接:https://academic.oup.com/nsr/article/10/7/nwad125/7147579。

由于材料性能具有复杂的驱动机制且数据获取依赖于复杂的实验或劳动密集型的采集工作,使得材料数据通常具有高维特征空间与小样本量的特点,限制了机器学习模型性能的上限。虽然通过各种数据预处理或特征工程方法能够一定程度上解决数据中存在的数量问题,但这些实践仅通过单一视角针对单一任务且集中于纯数据驱动的方式实现。治理过程缺乏科学理论框架指导,同时材料领域知识的缺乏使治理结果过度依赖于数据拟合,阻碍了机器学习模型性能的提高和可通用性。

针对上述问题,研究团队通过分析各类现有材料数据数量治理方法存在的特性与共性问题,发现仅从特征量或样本量的角度进行数据数量治理难以保证机器学习模型有效挖掘出数据的隐含模式。研究团队提出了一种融合材料领域知识的数据数量治理流程,该流程由两部分组成:(1)数据数量检测模块,旨在以领域知识与数据双向驱动的方式动态监测数据是否存在需要治理的数量问题;(2)数据数量治理模块则提供特征数量(或模型参数量)治理、样本数量治理和协同治理的策略和方法,实现对数据数量的全面控制。同时,研究团队探讨了领域知识的获取与表征方法及其融入治理全过程的方式,以在领域知识的指导下实现数据数量的协同和精准治理。

得益于融合的材料领域知识,本研究为不同类型材料的数据数量治理提供可复制和可推广的框架与方法,辅助建立数据驱动的机器学习与知识驱动的符号计算相融合的新型人工智能理论和方法,为加速AI for Science助力新材料研发提供高质量数据获取方式与高精度模型构建方式。