​npj|Computational Materials:机器学习结合进化算法预测超硬B-C-N化合物

​研究背景

超硬材料的维氏硬度H≥40 GPa,在磨料、刀具、防护涂层等方面有着广泛的应用,基于轻元素B、C、N的一类新型超硬材料具有很大的潜力,但由于元素相空间巨大,探索三元超硬材料非常具有挑战性。最近,来自阿拉巴马大学伯明翰分校物理系的Cheng-Chien Chen教授团队在npj|Computational Materials发表的名为“Machine learning and evolutionary prediction of superhard B-C-N compounds”一文,通过仅使用基于化学式产生的描述符作为输入,建立随机森林模型来预测化合物的弹性性能和机械硬度,并使用模型实现超硬和超级不可压缩材料的大规模预测,最后进一步通过进化算法结构预测和第一性原理计算来对机器学习结果进行了验证。

研究方法

1、总体思路

图1.数据驱动超硬材料发现的计算流程图

1)利用MP数据库及其API接口Pymatgen进行数据采集和处理;2)在Scikit-Learn库中使用手动提取的特征和回归算法进行机器学习模型训练;3)通过训练的随机森林模型进行大规模预测,筛选出候选超硬材料的化学成分;4)在USPEX程序中采用进化算法对筛选的化学组分进行晶体结构预测;5)使用VASP基于密度泛函理论计算了所预测晶体结构的弹性性质、声子谱和电子结构。

2、数据采集

在MP数据库中利用Python中的Pymatgen包提取体模量(K)和剪切模量(G)的目标属性,忽略了模量值相差大于50GPa的样品(这类样品是典型的准二维材料),排除极端异常值后重点研究10421种K和G值均在0-550 GPa范围内的化合物,10421个化合物的化学成分及其体积和剪切模量的目标属性被写入一个Python字典对象,并保存在JSON文件中。

3、特征工程

考虑与化学计量相关属性、元素性质、轨道占据和离子水平的特征,部分特征可以通过Python中的包matminer产生,不考虑晶体对称性、体积、熔点、带隙等结构或电子特征,虽然加入后可以提高模型性能,但这些信息对于新化合物先验未知:1)化学计量特征通过Lp范数计算;2)元素特征的计算使用最小值、最大值和当前每个元素的属性范围,以及分数加权平均值和平均偏差;3)轨道占据特征通过部分价电子数的分式加权平均计算,分别在s, p, d和f轨道上,除以总价电子数的分数加权平均值;4)三个基于离子水平的特征;总共创建60个特性,为了简化训练不考虑额外的特征工程。

4、模型与算法

1)选择随机森林算法,对每棵决策树的平均结果作为最终的预测,同时限制树的深度正则化模型以防止过拟合;2)在Scikit-Learn库中调用模型进行训练,使用90%样本作为训练集和验证集,然后过十折交叉验证确定树的深度,剩下10%用于模型测试集;3)经过训练和评价,将模型用于预测B-C-N化合物的力学性能,并寻找超硬三元材料。

结果与讨论

1、通过使用MP数据库中的目标属性建立了一个随机森林模型来预测体积和剪切模量,只利用可以直接从给定的化学公式中得到的材料特征,适合于大规模的材料表征和发现,随机森林模型预测结果如图:

图2.随机森林(RF)模型的评估

利用皮尔逊相关系数(r)作为体模量(K)、剪切模量(G)和硬度(H)的度量,训练机器学习模型分别预测K和G,两者在测试集上都可以实现r>0.9,再利用经验公式,分别用K和G计算了H,其相关系数低于预期;2、将所得模型应用于大规模的B-C-N化合物预测,构建了 B-C-N化合物的三元相图,描绘出它们的体积和剪切模量,以及硬度值:

图3.机器学习预测中的三角图

角点对应于单质,这些相图表明,当B:N比为1:1时,B-C-N组合物可生成若干具有一定硬度的超硬化合物(> 60 GPa);

3、利用进化算法结构预测和第一性原理DFT计算进一步验证了机器学习结果,提出了三种可能的超硬三元化合物BC10N, B4C5N3和B2C3N结构,并用第一性原理计算充分计算了它们的性质:

图4. 进化算法和密度泛函理论计算最终提出了三种超硬化合物BC10N、B4C5N3和B2C3N,都具有硬度值大于40 GPa的动力学稳定结构。其中,具有半导体特性的BC10N 的硬度与金刚石较为接近(~87 GPa),且形成能低,有可能通过低温等离子体方法来合成,而无需高温高压条件,在极端条件下具有巨大的应用价值。原文链接: nature.com/articles/s41

基于数据驱动的机器学习方法结合第一性原理计算已经成为新材料发现的第四范式,但是大家都会觉得第一性原理计算和机器学习入门难,需要懂Python、Linux,具备一定的编程能力,安装编译软件,能够处理计算结果,掌握各种软件使用方法……

MatCloud+将DFT、MD以及机器学习(ML)方法进行包装、后处理,使用模式不同于传统计算软件。让您30分钟快速上手做计算成为可能。

您可以点击登录以下链接 matcloudplus.com 进行操作

发布于 2021-12-17 10:14