2023年4月,在科学技术部、上海市人民政府指导下,由上海市科学技术委员会和上海交通大学共同举办浦江创新论坛“AI for Science专题论坛”。在该论坛上,上海交通大学人工智能研究院院长梅宏院士做主旨报告,提出了建设智能化科学设施(AI enabled Scientific Facility, AISF)的构想。近日,人工智能研究院AI for Science团队杨小康教授等人在《中国科学院院刊》发表题为 “AI for Science:智能化科学设施变革基础研究”的论文。
该论文提出一种智能化科学设施的建设构想,兼顾“高度智能化的科学新设施”和“AI赋能已有科学大设施”2个层面的需求,构筑AI for Science的科学设施体系,形成科学领域大模型、生成式模拟与反演、自主智能无人实验及大规模可信科研协作等创新功能,加速重大科学发现、变革性物质合成,以及重大工程技术应用。
研究背景
人工智能(AI)在前沿科学与技术领域的应用已经取得了令人瞩目的重大成果。在生物领域,2021年《科学》杂志将 AlphaFold2 评选为“2021年度十大科学突破”榜首;在物质领域,AI实现了核聚变托卡马克装置的等离子流高效控制;在药物领域,AI加速了新冠药物设计。众多的科学突破和国内外的发展趋势表明,AI for Science正在成为一种新的研究范式。
2007年,图灵奖得主Jim Gary曾经用“4种范式”描述了科学发现的历史演变,即实验观察、理论推导、模拟仿真、数据驱动(即数据密集型科学发现)。由于受限于数据采集与模拟空间,即便在数据密集型的科学研究范式下,科学假设依旧由科学家的专家经验主导;同时由于缺乏有效的数据开放机制和实验的局域性,制约了大规模、跨学科科研活动的开展。最近若干年,深度学习技术,特别是生成式AI的迅猛发展,使得学术界可以利用深度学习建模和挖掘高维科研数据,捕捉多模态数据背后的科学规律,同时借助数据生成的方式,突破实验观测数据的有限性与数值模拟的理论限制,拓展科学假设的空间。多模态语言大模型潜在的文献理解总结、实验方案生成等全新能力,结合无人实验系统与科学数据开放平台,可促使科学研究迈向以“平台协作”为主要特征的新模式。微软剑桥研究院院长Chris Bishop等将AI for Science称为驱动科学研究的第五范式(利用AI和机器猜想来进行科学发现的新方法)。
智能化科学设施的建设构想
虽然AI在特定科学领域的应用已经取得了令人瞩目的重大成果,但是这些工作仍然处于特定研究组对特定问题的科研模式,学科的跨度、研究场景的规模、研究方案及其结果的可复现性均受到限制,“平台协作式”的AI for Science科研模式及设施体系尚有待建立。
在上述架构和功能基础上,以人类科学家和科学问题为中心,构筑“AI 科研助手—AI操作机器人—智能实验环境—可信多方协作”的人机物协同科研空间,横向支撑超大规模的“假设生成—规律推演—无 人实验”高速迭代、推进高度智能化的 AI for Science 科研范式转变,纵向优化基础科学大设施、赋能传统“实验观察—理论建模—数据分析”科研流程。
智能化科学设施的初步实践
作为对上述智能化科学设施构想的尝试,上海交通大学初步搭建了AI for Science科学数据开放平台,包括科学算力基座、科学数据、人工智能、科学协作等四个子平台。基于该平台,研制了“白玉兰科学大模型”,于2023年7月和12月先后发表1.0版和2.0版,涵盖化学、流体、法律、跨科学评测基准等方向,对相关学科研究的加速作用已经显现,多个成果发表于Nature子刊。