相关文章推荐
睿智的伤疤  ·  光华讲坛——认知启发的视觉-语言技术-西南财 ...·  3 月前    · 
爱热闹的金针菇  ·  【无矶之谈】编码能力堪比Copilot、Cu ...·  2 月前    · 
逆袭的生菜  ·  AI 代码生成工具深度测评:GitHub ...·  2 月前    · 
开心的硬币  ·  中石化信息技术中心社会招聘公告-国务院国有资 ...·  1 月前    · 
性感的钱包  ·  java获取文件绝对路径_mob64ca12 ...·  1 年前    · 
不拘小节的爆米花  ·  杨国福集团CIO舒尚斌:以搭积木的方式考虑整 ...·  1 年前    · 
难过的炒饭  ·  【C++教程】2.3 - ...·  2 年前    · 
爱喝酒的草稿纸  ·  TAPD如何实现项目自动化管理?-腾讯云开发 ...·  2 年前    · 
慈祥的热水瓶  ·  How to convert float ...·  2 年前    · 
Code  ›  “ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!开发者社区
人工智能
https://cloud.tencent.com/developer/article/2248954
好帅的山羊
2 年前
作者头像
深度学习与Python
0 篇文章

“ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!

前往专栏
腾讯云
开发者社区
文档 意见反馈 控制台
首页
学习
活动
专区
工具
TVP
文章/答案/技术大牛
发布
首页
学习
活动
专区
工具
TVP
返回腾讯云官网
社区首页 > 专栏 > 深度学习与python > “ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!

“ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!

作者头像
深度学习与Python
发布 于 2023-03-29 12:21:54
467 0
发布 于 2023-03-29 12:21:54
举报

作者 | 刘燕

InfoQ 获悉,聆心智能联合清华大学 CoAI 实验室共同发布大模型安全评估框架,迈向可控可信的大模型。

ChatGPT 正在引领人类进入无缝人机交互的新时代,比尔盖茨在接受福布斯采访时也表示,“ ChatGPT 的意义不亚于 PC 和互联网的诞生。 ”

不过,当搜索引擎 New Bing 与 ChatGPT 结合,伴随着“ ChatGPT 黑化 ”等一系列舆论事件的发生,人们也开始对人工智能带来的道德、伦理、安全等风险感到恐慌。

虽然近年来随着技术的不断突破,大模型获得了快速发展并开始在各个场景广泛应用,但仍存在着事实性错误、知识盲区和常识偏差等诸多问题,还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。

如何提高模型的准确度和可靠性,使 AI 生成的内容安全、可信、可靠已经成为了当前大模型在应用方向亟待解决的问题。

要规避安全风险,降低人工智能对人类的负面影响,关键在于大模型底座。

对此,清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈认为:“ 大规模语言模型(LLM)发展到现在,模型结构和规模已经有了很大的进展,但实用性还有待加强,我们应该通过技术让模型更加安全、可控,使其快速适配更多的应用场景。 ”

据悉,针对大模型的安全伦理问题,由黄民烈带领的研究团队历经两年沉淀, 建立了大模型安全分类体系,并从系统层面和模型层面出发,打造更可控、可信的大模型安全框架。

安全框架的建立,定义了大模型的应用边界,促进大模型生态的健康发展,引领国内学术界和工业界迈向更有用(helpful)、更可信(truthful)、更安全(harmless)的 AI 研究和应用。

相比过去在安全伦理方面考虑较少的大模型,ChatGPT 背后所依托的大模型取得了巨大的发展,不仅允许用户进行后续更正,还能够拒绝不当请求和预测,这得益于 ChatGPT 在安全部分的特别设计,不过仍无法完全避免其生成不安全的内容和产生有风险的行为。

此前,由黄民烈带领的研究团队已经在安全伦理方面开展了相关研究,并依此建立了大模型安全分类体系,其中不安全的对话场景包括:政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视 / 偏见、辱骂 / 仇恨言论、伦理道德八大方面。这些问题与人们的价值观和伦理道德息息相关,可能会导致用户接收不当信息、甚至影响用户产生有害的行为,限制大模型的发展和应用。

与此同时,研究团队也针对以上八大安全场景对大模型进行针对性升级。通过收集多轮安全数据训练模型,使模型具备基本的安全性,能够在遇到安全问题时给予正确的回复策略,不去做判断和误导。进一步对模型进行自动测试,针对安全缺陷通过微调的方式进行快速迭代,促使模型越来越符合人类的认知理解模式,生成更加安全可信的内容。

值得一提的是,着眼于容易触发安全问题的类型,研究团队收集和构造了相应的 hard case(更难识别和处理的安全测试用例), 总结和设计了六种一般模型难以处理的安全攻击方式,称为指令攻击。使 安全体系更加完善,进一步改进和优化模型表现。

不论国内国外,当前大模型的安全问题仍面临着严峻的困难和挑战,人工智能作为一门前沿科技,可以给人类带来巨大福祉,也会给人类造成未知的隐患。确保强大的人工智能系统能够被负责任地建构和部署,打造安全、可信、可靠的 AGI Companion,是该研究团队的最终愿景。

未来,研究团队将打造中文大模型的安全风险评估的 Leaderboard,为国内对话大模型的安全评估提供公平公开的测试平台,并提供:

1、针对中文对话的 8 个安全场景,40 个安全类别做全面精细的测试,包括人工评估和自动评估。

2、额外设置 6 种安全攻击(如目标劫持等)的超难指令攻击测试样例,探索模型的安全上限。

3、设置公开和隐藏测试集,众人皆可参与评测。

嘉宾介绍:

黄民烈,清华大学计算机科学与技术系长聘副教授、博导,国家杰出青年基金项目获得者,北京聆心智能科技有限公司创始人。黄民烈带领的研究团队致力于构建具有类人水平的对话智能体,将依托自身的核心技术,在可控可信的超拟人大模型基础之上,通过建立安全、可控的模型边界,让 AI 提供可信、可靠的输出,让人工智能走向 AGI 时代。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

我在GitHub 黑市买“水军”:一万颗star只要4000多元,人人都能“一夜爆火”

微服务先行者 James Lewis:别纠结单体还是微服务,面向服务 SOA 架构才是正解

微软Office正式融入GPT-4;文心一言正式发布,百度股价次日涨超16%;TikTok回应美国要求字节跳动出售持股|Q资讯

Docker正在淘汰开源组织,CTO硬刚开发者,网友:想赚钱可以,但沟通方式烂透了

本文参与 腾讯云自媒体分享计划 ,分享自微信公众号。
原始发表:2023-03-22 ,如有侵权请联系 cloudcommunity@tencent.com 删除
人工智能
安全
chatgpt
测试
模型

本文分享自 InfoQ 微信公众号, 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

人工智能
安全
chatgpt
测试
模型
评论
登录 后参与评论
0 条评论
热度
最新
登录 后参与评论
关于作者
深度学习与Python
0
文章
0
累计阅读量
0
获赞
前往专栏
  • 社区

    • 专栏文章
    • 阅读清单
    • 互动问答
    • 技术沙龙
    • 技术视频
    • 团队主页
    • 腾讯云TI平台
  • 活动

    • 自媒体分享计划
    • 邀请作者入驻
    • 自荐上首页
    • 技术竞赛
  • 资源

    • 技术周刊
    • 社区标签
    • 开发者手册
    • 开发者实验室
  • 关于

    • 社区规范
    • 免责声明
    • 联系我们
    • 友情链接

腾讯云开发者

扫码关注腾讯云开发者

扫码关注腾讯云开发者

领取腾讯云代金券

热门产品

  • 域名注册
  • 云服务器
  • 区块链服务
  • 消息队列
  • 网络加速
  • 云数据库
  • 域名解析
  • 云存储
  • 视频直播

热门推荐

  • 人脸识别
  • 腾讯会议
  • 企业云
  • CDN加速
  • 视频通话
  • 图像分析
  • MySQL 数据库
  • SSL 证书
  • 语音识别

更多推荐

  • 数据安全
  • 负载均衡
  • 短信
  • 文字识别
  • 云点播
  • 商标注册
  • 小程序开发
  • 网站监控
  • 数据迁移

Copyright © 2013 - 2023 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有

深圳市腾讯计算机系统有限公司 ICP备案/许可证号: 粤B2-20090059 深公网安备号 44030502008569

腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287

问题归档 专栏文章 快讯文章归档 关键词归档 开发者手册归档 开发者手册 Section 归档

Copyright © 2013 - 2023 Tencent Cloud.

All Rights Reserved. 腾讯云 版权所有

登录 后参与评论
 
推荐文章
睿智的伤疤  ·  光华讲坛——认知启发的视觉-语言技术-西南财经大学计算机与人工智能学院
3 月前
爱热闹的金针菇  ·  【无矶之谈】编码能力堪比Copilot、Cursor、GPT-国内可用的智能AI编程_cursor和copilot
2 月前
逆袭的生菜  ·  AI 代码生成工具深度测评:GitHub Copilot、Cursor 对比_cursor和copilot
2 月前
开心的硬币  ·  中石化信息技术中心社会招聘公告-国务院国有资产监督管理委员会
1 月前
性感的钱包  ·  java获取文件绝对路径_mob64ca12d06991的技术博客_51CTO博客
1 年前
不拘小节的爆米花  ·  杨国福集团CIO舒尚斌:以搭积木的方式考虑整个数字化体系的建设|WISE 2022中国数字化创新高峰论坛_业务_战略
1 年前
难过的炒饭  ·  【C++教程】2.3 - 无返回值函数(void functions) - 哔哩哔哩
2 年前
爱喝酒的草稿纸  ·  TAPD如何实现项目自动化管理?-腾讯云开发者社区-腾讯云
2 年前
慈祥的热水瓶  ·  How to convert float to varchar in SQL Server - Stack Overflow
2 年前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
Code - 代码工具平台
© 2024 ~ 沪ICP备11025650号