代码也能查重?

恶意程序如何检测?

电脑 防火墙怎样加固?

来自国家网络安全学院 的参赛队伍

提出使用深度学习方法

解决恶意脚本相似性问题

快和珞珞珈珈一起

跟随他们 制服恶意代码


来,给你的代码查个重


在不久前落幕的“华为杯”第一届中国研究生网络安全创新大赛中,武汉大学获一等奖5项。来自国家网络安全学院的 “基地天天断网”团队 研究“CSSU:基于结构语义理解模型的恶意代码多任务检测”项目,获得 揭榜挑战赛全国二等奖


团队成员为国家网络安全学院硕士生 郭迪、王世杰、高强、周成杰



什么是恶意代码?何谓结构语义理解模型?这项创新的意义何在呢?带着这些问题,珞珞珈珈采访了小队成员。


通俗来讲,现在网络上存在许多恶意代码,会对电脑造成威胁,但是传统的杀毒软件在对恶意代码的检测方面具有很大的局限性,攻击者只要运用一些降重手法,对恶意代码做一些小的变动,就可以瞒天过海,难以被识别查杀。针对这种情况,团队提出了这种运用 深度学习的方法 进行检测。“我们提出并训练了一个深度学习模型,当它在电脑上运行的时候,就能高效地识别出经过小改动后的恶意代码”,郭迪这样解释道。


“赛题是 恶意代码相似性检测 ,我们设计了一个基于unixcoder的神经网络模型。”高强介绍。关于模型的选择,团队将人工智能领域 自然语言处理 的相关技术应用在代码语言中,从 结构和语义 两方面来比较不同代码之间的相似度,通过预训练语言模型来实现语义对比,通过图神经网络实现结构对比,这样的模型设计在 漏洞检测 恶意程序检测 里都能得到很好的应用。




“比如,在审查别人代码时,你不知道某一段代码的用途,这时你就可以检索一下相似代码,你就能弄懂这个代码的实际用途。再比如,你写了一个代码,感觉它不太对,有漏洞,那你就在漏洞库里查一下相似的代码,可以很容易知道这一段代码存在什么问题。”周成杰这样介绍。在安全运行中,系统遇到可疑的代码时,通过在病毒库里“对照查重”,就可以快速确定有什么威胁并进行应对。



一个多月完成,高效!


团队成员都是同届的同门,主要研究 深度学习中的自然语言处理 。在导师推荐下,他们选择此次比赛,既是充实研一生活,为后续研究生生涯做铺垫的“热身”,也是想抓住检验和运用所学知识的难得机会。在备赛过程中, 导师的指导和支持 不仅让项目的专业性和可行性得到更进一步的提高,也让队员们有了更强的信心和底气。


研究过程中最大的困难是什么?“当然是有关于网络安全的这些 训练数据的收集 了。”因为相似的恶意代码在安全领域会比较敏感,大多数厂商都不会选择直接公开,这就需要大家自己想办法。经过一番思索后,队员们决定选择采用 迁移学习 数据增强 的方法,先在高资源样本上进行训练,再将参数迁移到低资源样本上继续学习,并利用一些规则替换一部分正常代码,最终取得了较好的成果。



在众多的参赛队伍中, 时间之紧和效率之高 使这支队伍显得与众不同 。尽管在初赛前两个星期团队才报名,从报名到答辩结束,也只经历了一个多月的时间,但团队还是以明确的分工高效率地完成项目并成功在决赛突围。


“确定赛题后,我们制定了大致思路和实现方向,完成了初步分工。再经过一个多星期,队员们分别收集资料、阅读文献,各自选择自己模块中最合适的方案,一起讨论确定了具体的实践方案。接下来就是慢慢地试做,一边训练模型一边写文档。”团队主要负责人郭迪介绍道。


对于创新比赛,郭迪和周成杰有一定的经验,而其他两位成员是第一次参加。在这一个多月里,由于疫情影响,团队的沟通合作产生了一定程度的困难, 线上 交流讨论时有些细节没有很好地表达,也导致后来走了一些弯路,这也是团队成员们的一个遗憾。答辩当天,团队奋战至凌晨四点,力求在决赛中做出最好的呈现,面对压力,每一位成员都拼尽了全力。


未来,一定会更好


团队在模型训练好、搭建好后,将其 开源在网上 ,有不少人下载了测试,目前使用效果总体不错。



至于项目未来的发展,团队坦言,研究人工智能的需要很多网络安全相关的数据,这一方面需要有相关积累的安全机构去合作,提供更多的数据,才能形成真正成熟的,有价值的服务。


“如果比赛能有更多的时间,我们其实有更多更棒的想法可以加进来,这个模型的效果可能会更好。我们也会去 收集更多高质量的训练数据 ,提升模型效果。未来有机会的话,我们想基于这次比赛成果发表一篇 期刊论文 。”郭迪说道。


当珞珞珈珈问及 队名 的来历,队员们笑谈:“众所周知,武汉大学的网安新校区的生活学习 硬件设施 非常豪华,不仅拥有全年开放的恒温游泳馆、室内羽球场、虚拟攻防演练教室等,校园网更是采用了全校区覆盖的光纤无线网络,其下行带宽峰值能达到1000M,网络十分稳定,看网课学习、做实验从不卡顿。一些外校的同学都羡慕嫉妒恨,‘祝福’我们基地天天断网。”


谈到参加这次比赛对自己的影响,队员们一致认为,加深了自己对 专业知识 创新创造 的理解体悟,锻炼了 团队合作能力 组织协调能力 ,同时也收获了 弥足珍贵的友谊


正如成员王世杰所说:“在比赛中体会到了不断阅读资料、完善理论知识的重要性,同时团队分工合作、讨论交流、互相促进,共同推动作品的完成是参加此次比赛的最有感触的深刻体验。”


给学弟学妹们的建议


①参加这类比赛要 提早 ,我们团队由于时间很赶,不得不删去项目的很多模块,后期准备答辩也是常常通宵来追赶时间的不足。


②这类比赛其实最重要的就是创新点,而创新的思路往往都来自最新的相关论文,所以大家一定要多多关注领域的 最新论文


③一定 不要有畏难情绪 ,如果你对这个领域有兴趣,放心大胆地参加,不要怕困难,怕有磕磕绊绊。在参加过程中,你学到知识和认识的朋友都会是非常大的收获。


科研创新科技报国路上

求是拓新薪火相传

珞珈少年上下求索

通宵达旦,笃志前行

磨练自我,勇攀高峰

瞄准学科前沿,创新拥抱未来