代码也能查重?
恶意程序如何检测?
电脑
防火墙怎样加固?
来自国家网络安全学院
的参赛队伍
提出使用深度学习方法
解决恶意脚本相似性问题
快和珞珞珈珈一起
跟随他们
制服恶意代码
来,给你的代码查个重
在不久前落幕的“华为杯”第一届中国研究生网络安全创新大赛中,武汉大学获一等奖5项。来自国家网络安全学院的
“基地天天断网”团队
研究“CSSU:基于结构语义理解模型的恶意代码多任务检测”项目,获得
揭榜挑战赛全国二等奖
。
团队成员为国家网络安全学院硕士生
郭迪、王世杰、高强、周成杰
。
什么是恶意代码?何谓结构语义理解模型?这项创新的意义何在呢?带着这些问题,珞珞珈珈采访了小队成员。
通俗来讲,现在网络上存在许多恶意代码,会对电脑造成威胁,但是传统的杀毒软件在对恶意代码的检测方面具有很大的局限性,攻击者只要运用一些降重手法,对恶意代码做一些小的变动,就可以瞒天过海,难以被识别查杀。针对这种情况,团队提出了这种运用
深度学习的方法
进行检测。“我们提出并训练了一个深度学习模型,当它在电脑上运行的时候,就能高效地识别出经过小改动后的恶意代码”,郭迪这样解释道。
“赛题是
恶意代码相似性检测
,我们设计了一个基于unixcoder的神经网络模型。”高强介绍。关于模型的选择,团队将人工智能领域
自然语言处理
的相关技术应用在代码语言中,从
结构和语义
两方面来比较不同代码之间的相似度,通过预训练语言模型来实现语义对比,通过图神经网络实现结构对比,这样的模型设计在
漏洞检测
和
恶意程序检测
里都能得到很好的应用。
“比如,在审查别人代码时,你不知道某一段代码的用途,这时你就可以检索一下相似代码,你就能弄懂这个代码的实际用途。再比如,你写了一个代码,感觉它不太对,有漏洞,那你就在漏洞库里查一下相似的代码,可以很容易知道这一段代码存在什么问题。”周成杰这样介绍。在安全运行中,系统遇到可疑的代码时,通过在病毒库里“对照查重”,就可以快速确定有什么威胁并进行应对。
一个多月完成,高效!
团队成员都是同届的同门,主要研究
深度学习中的自然语言处理
。在导师推荐下,他们选择此次比赛,既是充实研一生活,为后续研究生生涯做铺垫的“热身”,也是想抓住检验和运用所学知识的难得机会。在备赛过程中,
导师的指导和支持
不仅让项目的专业性和可行性得到更进一步的提高,也让队员们有了更强的信心和底气。
研究过程中最大的困难是什么?“当然是有关于网络安全的这些
训练数据的收集
了。”因为相似的恶意代码在安全领域会比较敏感,大多数厂商都不会选择直接公开,这就需要大家自己想办法。经过一番思索后,队员们决定选择采用
迁移学习
和
数据增强
的方法,先在高资源样本上进行训练,再将参数迁移到低资源样本上继续学习,并利用一些规则替换一部分正常代码,最终取得了较好的成果。
在众多的参赛队伍中,
时间之紧和效率之高
使这支队伍显得与众不同 。尽管在初赛前两个星期团队才报名,从报名到答辩结束,也只经历了一个多月的时间,但团队还是以明确的分工高效率地完成项目并成功在决赛突围。
“确定赛题后,我们制定了大致思路和实现方向,完成了初步分工。再经过一个多星期,队员们分别收集资料、阅读文献,各自选择自己模块中最合适的方案,一起讨论确定了具体的实践方案。接下来就是慢慢地试做,一边训练模型一边写文档。”团队主要负责人郭迪介绍道。
对于创新比赛,郭迪和周成杰有一定的经验,而其他两位成员是第一次参加。在这一个多月里,由于疫情影响,团队的沟通合作产生了一定程度的困难,
线上
交流讨论时有些细节没有很好地表达,也导致后来走了一些弯路,这也是团队成员们的一个遗憾。答辩当天,团队奋战至凌晨四点,力求在决赛中做出最好的呈现,面对压力,每一位成员都拼尽了全力。
未来,一定会更好
团队在模型训练好、搭建好后,将其
开源在网上
,有不少人下载了测试,目前使用效果总体不错。
至于项目未来的发展,团队坦言,研究人工智能的需要很多网络安全相关的数据,这一方面需要有相关积累的安全机构去合作,提供更多的数据,才能形成真正成熟的,有价值的服务。
“如果比赛能有更多的时间,我们其实有更多更棒的想法可以加进来,这个模型的效果可能会更好。我们也会去
收集更多高质量的训练数据
,提升模型效果。未来有机会的话,我们想基于这次比赛成果发表一篇
期刊论文
。”郭迪说道。
当珞珞珈珈问及
队名
的来历,队员们笑谈:“众所周知,武汉大学的网安新校区的生活学习
硬件设施
非常豪华,不仅拥有全年开放的恒温游泳馆、室内羽球场、虚拟攻防演练教室等,校园网更是采用了全校区覆盖的光纤无线网络,其下行带宽峰值能达到1000M,网络十分稳定,看网课学习、做实验从不卡顿。一些外校的同学都羡慕嫉妒恨,‘祝福’我们基地天天断网。”
谈到参加这次比赛对自己的影响,队员们一致认为,加深了自己对
专业知识
和
创新创造
的理解体悟,锻炼了
团队合作能力
和
组织协调能力
,同时也收获了
弥足珍贵的友谊
。
正如成员王世杰所说:“在比赛中体会到了不断阅读资料、完善理论知识的重要性,同时团队分工合作、讨论交流、互相促进,共同推动作品的完成是参加此次比赛的最有感触的深刻体验。”
给学弟学妹们的建议
①参加这类比赛要
提早
,我们团队由于时间很赶,不得不删去项目的很多模块,后期准备答辩也是常常通宵来追赶时间的不足。
②这类比赛其实最重要的就是创新点,而创新的思路往往都来自最新的相关论文,所以大家一定要多多关注领域的
最新论文
。
③一定
不要有畏难情绪
,如果你对这个领域有兴趣,放心大胆地参加,不要怕困难,怕有磕磕绊绊。在参加过程中,你学到知识和认识的朋友都会是非常大的收获。
科研创新科技报国路上
求是拓新薪火相传
珞珈少年上下求索
通宵达旦,笃志前行
磨练自我,勇攀高峰
瞄准学科前沿,创新拥抱未来