为什么数据驱动是材料科学的未来?
欢迎关注AI新材料,深度解析AI+材料的算法、产业、动态。
本文来自上海交通大学汪洪老师的报告。由“AI新材料”编辑节选整理。转载请注明来源。
汪洪老师是上海交大材料基因组联合研究中心主任,中国材料试验标准委员会(CSTM)材料基因工程领域委员会主任委员。
新材料开发跟不上时代要求
今天分享的是关于数据驱动的材料创新基础设施。材料创新一直处在各种颠覆性技术革命的核心。但是传统方法中发现和使用一种新材料依赖几个因素:
-
首先就是偶遇,就是有的时候我们并不是很有意识的去发现,而是碰到了什么东西,突然发现这个东西可以用作什么。这是最原始最早期的发现新材料的一种方式。
-
当我们有了一定经验以后,我们开始有了科学,有了系统的理论,于是我们就产生了科学的直觉。
-
当我们有了直觉以后,真正一个材料是否好用、是否恰当,取决于我们大量的实验试错,这个过程是非常的耗时费力而昂贵的。
所以我们需要改变这样的模式,向一个可预测和可设计的模式进行转变。
我们的理想就是按需设计:想拿到什么材料,我们都有一个办法从理论上把它算出来。但是现在的模式基本上是试出来的,像爱迪生那样,在他研究这个灯丝材料的时候,他试了几千种材料,最后发现了这个碳化的竹丝是可以用的。
如何转变研发模式?
那么未来我们希望有一个什么目标?就是通过现有的知识,通过计算、预测,就可以发现目标就是要得到成分、结构、工艺和性能之间的关系,有了这个关系我们就可以实现按需设计。
那么我们要想达到这个目标,应该采取什么办法呢?
首先我们要向其他的领域去学习,我们想到了生物学里的基因,当我们了解了基因,就知道某一个人他家族有什么病史,或者他这次生病是由于什么原因,有哪个基因上面发生了变异等。那么针对这些基因上的问题,我们就可以采取相应的措施去治病或者去防病。
如果材料也有这样的一个基因,它能够决定材料的性质,那么当我们掌握了材料的基因后,我们也就掌握了按需设计的这个钥匙。但是事实上物质世界比生物界还要更复杂,目前我们经过了若干年的这个探讨以后,还不知道如何去定义这个材料的基因。
材料基因组计划
美国在2011年提出了一个科学计划:材料基因组计划。它的目标就是通过综合运用实验能力,计算能力和数据技术,更快的去获得成分、结构、工艺、性能之间的关系。从而把一个材料从研发到应用的速度至少加快一倍,同时成本降低一半。完成材料基因组的计划的实施过程,主要任务之一就是建立一个新型材料创新的基础设施。
材料基因组计划提出了一个新的材料创新的逻辑,具体工作包括:
-
发展计算工具。通过计算逐步替代耗时费力的实验过程。
-
发展高通量的材料实验工具。我们过去做一个实验,现在同样的时间做成百上千个。通过这个量变实现质变。
-
发展材料的数据库,发展材料信息学的工具。有效的管理从研发到应用整个过程中材料的数据链。
我们基本上可以把材料基因工程的工作的模式总结为三点。
1、实验驱动
本质上它还是一个试出来的逻辑,但是基于高通量的合成与表征的实验。直接的优化和筛选材料,从一个一个的试到一批一批的试,通过量变引起质变。比较典型的技术就是组合材料芯片的制备技术。
这个概念是从1970年代就提出了首先提出来的,到了90年代的中期,一群科学家受到电路和芯片的启发,在一块基底上通过一些设计在一个样品上面可以做出上万个不同的成分结构物,通过这样的过程大大的提高了实验的效率。
2、计算驱动
也就是说通过理论的模拟计算,预测出有希望的候选材料,这样可以大大的缩小实验的范围,最后用实验去验证这个方式。这种办法现在用的非常的多,而且在各个不同的尺度上,从原子级到连续体都有相应的方法,不管是功能性的还是结构性的都可以做。
非常著名的案例就是福特汽车公司在设计发动机缸体的时候,它采用了从外形几何形状开始,然后向里面填充材料,然后去优化材料的成分和组合,最后在生产出了实际可用的缸体结构。
3、数据驱动
它是基于机器学习和数据挖掘的这个材料信息学。利用大量的数据通过机器学习去建立模型,预测候选的材料。
最著名的是2016年5月在Nature杂志上发表的一篇文章。该文章利用了一些原来实验室的一些所谓的失败的数据。通过这个数据去进行机器学习,然后用得到的模型对新材料进行预测。
这些数据过去都是认为是没有什么用处的,他们把结果和有经验的化学家的人工判断进行了对比,结果机器预测的成功率比人工的判断还要高了一些。最起码证明机器在这个问题上可以像人一样的聪明。
从中我们看到的一点是:其实数据是没有好坏之分的。只要这个实验是正常进行,它得到的就应该是反映客观的规律。所谓的好坏,比如说结果不好只是说和我们预期的目标不够符合,但是数据本身是没有任何过错的。
这个案例就充分显示了机器学习方法的一个非常强大的能力,就像是AlphaGo对围棋的巨大的冲击,同样机器学习对于材料也是一种巨大冲击。
研发路径的不同
那么我们回过头来看一下,就是说这两种研发路径思维有什么不一样?
比如说我们研发一样东西有一个起点,有一个目标,那么传统的办法我们就是要一步一步的沿着一个方向走,然后不断的调整方向,在这个不断渐进的过程,最终达到我们的目标。
而在数据驱动的环境下,是怎么做的呢?是同时一下子就在它的周围获得大量的数据,然后通过机器学习学出一个模型,一次性的达到正确的结果。
这两个有着本质性的变化。
人类认识世界的演化方式
我们后退半步,回顾一下人类在认识世界的过程当中是如何去演化的。几千年前我们认识世界的方式都是通过实验的观测,那么积累了一定的实验观测经验以后,几百年前我们就开始了理论推演,开始学习用数学的语言去描述世界上发生的现象,那么数学语言逐渐的在解析解不能完全得到的时候,工业计算机出现了,我们就开始有了能力进行计算仿真;那么到了现在,实际上我们随着数据量和计算能力爆炸性的增长,科学研究已经开始进入大数据加人工智能的第四范式。
实验驱动和计算驱动还是基于事实的判断或者物理规律的推演,并没有根本上改变我们原有的思维模式和工作的套路。 而数据驱动是这里真正具有革命性的因素,因为人工智能的方法擅长建立数据间的关联关系,它是一个传统认识模式的一种补充和延伸 。就像一个工具箱里增加了一种完全不同的新的工具,那么这个新的工具一定可以做一些我们原来做不了的事情。它的全面的运用,就可能产生很多颠覆性的效果。
材料科学很可能就成为人工智能一个新的应用热点,DeepMind(发明AlphaGo的公司)创始人在一个访谈当中,他说下一步他就要把这个技术用到材料当中去,因为他是物理学博士,他从小就对高温超导很有兴趣。他说或许我们可以从数据里面得到我们想要的东西。
数据驱动是材料科学的未来
我们认为材料数据驱动是材料科学未来的一个重要发展方向。这个新的工作模式需要全新的基础设施的支持,才能够发挥充分的效力。因为是数据驱动,所以我们需要围绕数据的协同和交叉来开展这个工作,也就是说我们需要建立一个以数据为核心的高通量实验、高通量计算和材料数据平台,这是三位一体的综合性的创新平台。
这张图是材料基因工厂基础设施框架,包含数据的生产部分、数据的分析部分和数据的应用部分。
材料数据是当前全球性瓶颈
没有数据,一切都是白说。所以首先要解决数据问题:一个是够用,一个是好用。客观上我们到现在为止,尽管材料的数据已经积累了一两百年,但是现在真正知道的还是很有限的,这张表大家可以看到了二元我们还知道的多一些,到了三元以上实在是少的可怜。
数据不够:建立数据工厂
我们要解决数据的够用问题,那么快速获取大量材料数据的能力就成为了关键。高通量的实验和高通量的计算,我们可以把它看作为获取大量数据的一个有效的促进。
那么用什么办法呢?我们提出的一个方案就是建立数据工厂。
能够批量的产生高质量的一些基础数据,可以用高通量的实验或者高通量的计算来完成,但是要有一个专注的聚焦于数据生产的这样的一个环节。这个思维是数据产生环节的一个革命性的变化。
数据产生环节的革命性变化
第一,这个全面的材料数据将被大规模的、有意识的去产生,而过去这个东西是我们实验的副产物或者是科研的副产。
第二,这个数据产生,就由个体的活动变为了一个有组织的社会活动,从而这个数据的社会属性从过去的私有财产,现在变成了公共的资源。在这个过程当中,数据的质量一致性,全面性都得到充分的提高,数据共享会变得更加简单。也就是说社会总成本大大的降低了。
什么叫数据工厂?
实际上计算数据工厂也就是一个高通量的计算平台,现在世界上已经有了好多高通量的计算平台。数据工厂就是要建立一个高通量的制备和表征的综合性的表征的平台。
数据库标准
有了足够的数据以后,我们还要解决的问题就是这个数据还要好用。什么叫好用?首先要符合共享的原则,科学界已经提出了一个叫做FAIR原则,叫做可发现、可获取、可互操作、可再利用,用简单的话说看这个数据是看得见、拿得到、听得懂、用得着,这是一个很重要的原则。
这个原则需要有标准来保证,中国现在已经组建了世界首个材料基因工程领域委员会,而且我们制定了世界上第一个材料基因工程的数据通则,规定这个数据当中需要有哪些信息,哪些内容。同时我们也在制定材料基因工程领域的标准体系,这是一个非常庞大的很综合的体系,所以并不是一两个标准能够解决的,而是要有一个完整的体系,可能涉及到成百上千的细节的标准。
总结
本文的核心主要两点
第一:数据驱动模式是材料基因工程发展的一个核心问题。
第二:要开展数据驱动的模式,那么需要一个新型的基础设施来适应它。必须要通过这个过程满足大量的对数据的需求和对数据的质量的需求。
欢迎关注AI新材料,深度解析AI+材料的算法、产业、动态。
原文链接 为什么数据驱动是材料科学的未来?