GPT-4 都已经这么强了,那未来的 GPT-5 会是什么样子?

GPT-4 可以说是再一次颠覆了我对 AI 的认知,从文本到图片视频,再到逻辑推理,简直是神进步。 [图片]
关注者
1,097
被浏览
2,031,444

396 个回答

希望大家在收藏的同时,不要忘记 点赞

1. LLaVA:大型语言和视觉助手

4.17发布论文,4.18开源代码和数据集,只不过没有Mini-GPT4火

威斯康星大学麦迪逊分校 微软研究院 哥伦比亚大学 *平等贡献

llava-vl.github.io/

LLaVA 代表了一种新颖的端到端训练的大型多模态模型,它结合了视觉编码器和 Vicuna 以实现通用视觉和语言理解,实现了模仿多模态 GPT-4 精神的令人印象深刻的聊天功能,并设定了新的状态-科学质量检查的艺术准确性。

使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调优提高了语言领域新任务的零样本能力,但在多模态领域探索较少。

  1. 多模式指示数据 。我们首次尝试使用 纯语言 GPT-4 生成多模态语言图像指令跟踪数据。
  2. LLaVA 模型 。我们介绍 LLaVA 语言 和视觉 助手)_ _ _ _ ,一种端到端训练的大型多模式模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。
  3. 表现 。我们的早期实验表明,LLaVA 展示了令人印象深刻的多模型聊天能力,有时在看不见的图像/指令上表现出多模式 GPT-4 的行为,并且与合成多模式指令跟随数据集上的 GPT-4 相比,产生了 85.1% 的相对分数。 当在Science QA 上进行微调时,LLaVA 和 GPT-4 的协同作用达到了 92.53% 的新的最先进的准确率。
  4. 开源 。我们公开了 GPT-4 生成的视觉指令调整数据、我们的模型和代码库。



2. Mini-GPT4

4.16开源代码,比上面的早了一天,流量几乎全到了MiniGPT4上,一个9K的star,一个是0.9K的star。

GPT时代的工作实在是太疯狂了~

这个几乎不用介绍,大家新智元,机器之心,量子位,直接就能看到测评:

我想说的是,简单的语言微调时代已经过去了,现在多模态微调的时代已经开始了。


3. GPT4长文本的作者历史工作调研:

我和群友都调研过,我粗略的调研了一半,几乎没有发现什么可供参考的论文,比如第一位co-lead,他从21年之后,就不发论文了。closeai是真的强。


4. 10元将Vicuna升级成多模态GPT-4,从图片中读取生命和宇宙的终极答案

知友的工作: 游凯超:10元将Vicuna升级成多模态GPT-4,从图片中读取生命和宇宙的终极答案

应该算是Mini-MiniGPT4,但好像需要注册一个算力平台,不知道水深不深。

5. 量化巨头幻方成立研究组织探索 AGI,后续可能如何发展?

量化巨头幻方成立研究组织探索 AGI,后续可能如何发展? - 钱多多的回答 - 知乎 zhihu.com/question/5957

群友说他的同学最近拒了幻方的百万offer,羡慕大佬。

6. 仰望U8可以选配车载无人机

但我从来没有看到过相关视频,有看到过的同学麻烦给个链接。

(不知道这辈子有没有机会买到百万级别的车~

7. KeepChat,避免chat持续刷新

这个脚本我看有人推荐,但是我自己没试过,大家有试过的,欢迎评论区留言

插件地址: greasyfork.org/zh-CN/sc

代码仓库: GitHub - xcanwin/KeepChatGPT

8. 陈虹,陈杰等 | 反馈即你所需:从ChatGPT到自动驾驶

陈虹,陈杰等 | 反馈即你所需:从ChatGPT到自动驾驶

与ChatGPT类似,考虑到人类在复杂驾驶场景中的强鲁棒性和适应性,将人类作用引入AD的学习循环中以增强其智能具有重大潜力。基于此,我们 对人类反馈在线增强的自动驾驶决策控制 进行了研究,所提出的方法同样可以与基于离线人类驾驶数据的预训练相结合。为了提高AD的学习速度和个性化能力,同时实现安全和持续的进化,我们 提出基于混合增强智能 (HAI) 的决策控制框架 ,以将人类反馈纳入学习过程。
首先,建立了基于交互强化学习 (Int-RL) 的决策层。在训练过程中,人类驾驶员对RL智能体进行实时监督,当其学习状态不合理时,利用人类引导决策代替机器决策,以此辅助学习过程。
然后,将决策指令输出给控制层,使用模型预测控制 (MPC) 分别执行纵、横向运动控制任务。
最后,提出了安全保障机制,建立了基于安全驾驶包络的探索/利用方法,以确保HAI系统的安全性。
结果表明,所提出的框架可以实现AD决策控制的高效、可靠和安全地演进。此外,为了提高自动驾驶强化学习算法在复杂场景下的样本数据效率,并增强车辆在拥堵交通场景下主动切入行驶的能力,我们 提出了人类知识增强的强制换道方法 。针对典型拥挤匝道出口场景,首先建立了安全探索保障机制。通过编码人类驾驶员先验知识并对状态空间的有效范围进行约束,以保证安全。然后引入了人类专家在线对车辆的不合理行为进行合理引导,并结合驾驶任务目标,构建了奖励/策略增强机制,以加速策略学习。最后,输出决策指令到控制模块以完成车辆控制任务。实验结果表明,所提出的方法提高了数据效率和训练速度,以及在不同交通流密度下车辆主动切入行驶的成功率。


9. RedPajama宣布开源1.2万亿token数据集

4月17日,RedPajama宣布开源1.2万亿token数据集,帮助开发者训练类ChatGPT大语言模型。这也是目前类ChatGPT领域,全球最大的开源训练数据集。

据悉,RedPajama完美复制了LLaMA模型上的1.2万亿训练数据集,由维基百科、GitHub、普通抓取、C4、图书、ArXiv(知名论文网站)、Stack Exchange七部分组成。完整数据集容量约5T,根据数据使用条例已经允许商业化。

ChatGPT的出现加快了生成式AI的商业化落地,并引领了全球新一轮AI技术变革。由于Open AI没有开源ChatGPT,LLaMA、Alpaca、Guanaco、LuoTuo、Vicuna、Koala等一大批优秀的开源项目如雨后春笋般快速增长。

其中,由Meta AI发布的LLaMA是公认最佳的ChatGPT平替产品,其中, 70亿参数模型经过1.2万亿数据训练单个CPU就能跑,比较适合中小型企业和普通开发者 。但LLaMA只能用于学术研究不允许商业化。所以,RedPajama复制了LLaMA1.2万亿训练数据,帮助开发者加速大语言模型训练进程。

其实RedPajama本身就是一个类ChatGPT大语言模型由Together、 Ontocord.ai、ETH DS3Lab、Stanford CRFM和Hazy Research一起合作开发。预计5月份,RedPajama会将大语言模型进行开源。

地址: huggingface.co/datasets

RedPajama还开源了所有数据预处理和质量过滤器,使得任何人都可以按照数据准备方法复制 RedPajama-Data-1T。(地址: github.com/togethercomp


10. 一个新的chat集成平台

最火的应该是 poe.com ,但是要注册,才能看到内容,我就放弃了。

这个是 play.vercel.ai/r/mWjP5D ,我没用过,只是截图供大家参考。不是广告,不推广,纯信息分享。

11. 两篇新的奖励函数对齐RRHF和RAHF

[大语言模型之RRHF]RRHF: Rank Responses to Align Language Models with Human Feedback without tears(2023)

星空:[大语言模型之RRHF]RRHF: Rank Responses to Align Language Models with Human Feedback without tears(2023)

玩不起RLHF?港科大开源高效对齐算法RAFT「木筏」,GPT扩散模型都能用

星空:[大语言模型之RRHF]RRHF: Rank Responses to Align Language Models with Human Feedback without tears(2023)

这两篇我都没时间认真看,贴出来供大家参考阅读。

12. AutoGPT与LLM Agent解析

模型记忆

另外一类非常常见的模式是通过外部存储来增强模型记忆。其中一个典型场景是长 session 的聊天过程,由于 GPT API 本身的输入信息有 4000 个 token 的限制,所以当聊天进行比较久之后,用户经常会发现 ChatGPT 已经“忘了”之前讲过的内容。另外一个典型场景是给 LLM 提供更多的新信息,像一些产品里能够对一整篇 PDF 甚至一整个知识库里的内容做理解和问答,那么自然不可能直接把所有这些额外信息都直接在 prompt 里扔给 GPT 去处理。
这时候就需要通过外部存储来帮助 GPT 拓展记忆。最简单的方法就是直接把这些对话记录,外部信息等以文本形式保存到文件或者数据库系统里,后续在与模型进行交互时,可以按需去获取这些外部存储中的信息。我们可以把 prompt 里的内容当成模型的“短期记忆”,那么这些外部存储自然就成为了“长期记忆”。除了前面提到的好处外,这种记忆系统模式还能一定程度上起到降低模型 hallucinations 的作用,避免纯粹依靠“生成”来实现任务目标。
获取长期记忆的方法,目前最常见的方式是通过“语义搜索”。大概意思就是利用一个 embedding 模型,将所有的记忆文本都转化为一个向量。而后续跟模型的交互信息也可以通过同样的 embedding 模型转化为向量,然后通过计算相似度来找到最相似的记忆文本。最后再将这些记忆文本拼接到 prompt 里,作为模型的输入。这类方法最热门的开源项目可以参考 OpenAI 官方的 ChatGPT Retrieval Plugin[5] 和 Jerry Liu 的 LlamaIndex[6]

AutoGPT与LLM Agent解析

13. langchain的学习教程

求小白教程!

14. ChatOpenReview.

最近我已经爬好了OpenReview的数据了,并且开源了NIPS2022的全部数据,欢迎大家参与这个工作

最近在尝试利用langchain来利用离线数据库。

欢迎有过类似工作经验,或者大模型微调经验的佬加入我们,或者带带我,非常感谢。

15. Chat 缓存

修改几行代码就让LLM应用提速100多倍!这个团队两周搭建ChatGPT缓存层,曾被老黄OpenAI点赞。

这个对于做问答类封装网站的朋友非常友好!我看api2d也用了类似的方案。

16. 骆驼读论文: Paper Reading in the era of LLMs

大佬 @Cheng Li 的系列专栏: 【骆驼】开源中文语言模型

github.com/LC1332/Luotu

感谢大佬高价值信息量的分享!

17. 机器人的语言驱动表示学习

单拎出来这个工作,方便做机器人的同学follow:

Voltron 的软件包存储库:机器人的语言驱动表示学习。提供用于加载预训练的 Voltron、R3M 和 MVP 表示以适应下游任务的代码,以及用于在任意数据集上预训练此类表示的代码。

GitHub - siddk/voltron-robotics: Voltron: Language-Driven Representation Learning for Robotics

18. 华子新的黑科技

【华为展示新一代车载光显示技术!业界最强AR-HUD、智慧屏应有尽有!-哔哩哔哩】

b23.tv/FBdmmLi

还有一个车内四座之间,声音互相屏蔽的功能,非常离谱。

19. text2motion

这篇工作我昨天组会汇报了,但是我没时间重新写总结了。

有感兴趣的同学可以一起聊聊

Text2Motion: From Natural Language Instructions to Feasible Plans

sites.google.com/stanfo

20. 讲讲为什么是这个顺序

因为是按照时间顺序,从我的群里扒的,我认为值得分享的高价值信息。

21. API的调用额度问题:

OPENAI将免费用户的API调用次数从20次/分钟下调到3次/分钟

OPENAI 好像又在悄悄改东西:免费用户获得的试用 API 额度,调用次数原本是 30 次 / 分钟,后来调整为 20 次 / 分钟,现在变成了 3 次 / 分钟,也就是说 1 分钟内最多发出 3 次请求,超过就会被限制直到满 1 分钟。

要解除该限制也非常简单,按 OPENAI 提示绑定付款方式后即可提高调用限制,但没注明绑定后调用限制会改成多少,查看 OPENAI 之前写的速率限制,应该是变成 60 次 / 分钟。

另外这是 OPENAI API 的问题,与 ChatGPT Plus 无关,即便开通了 ChatGPT Plus 也不会在 API 里添加相同的付款卡,所以还得到 API 平台重新添加一次。

对了,免费试用用户现在除了 3 次请求 / 分钟外,还有个 token 数量限制,每分钟最多发送 4 万个 tokens。(蓝点网)

22. @Shusen Wang 老师开源的5万条高质量中文数据

github.com/DA-southampt

和截图链接不一样,但是我验证了一下,上面链接确实是他们发布的。

23. OpenAI 正在与 1X 合作打造他们的首个物理机器人

OpenAI 正在与 1X 合作打造他们的首个物理机器人,它将 AI 与现实世界相结合。该机器人将拥有高级语言模型,例如 GPT-4 和 GPT-5,首次演示定于 2023 年夏季进行。该机器人的潜力巨大,但人们对通用人工智能安全性的担忧仍在继续。OpenAI 的首席执行官 Sam Altman 认为,AI 的好处值得冒险,并致力于推动该领域的发展。 youtube.com/watch?

【重磅】open AI计划今年夏天发布搭载GPT4或GPT5的人形机器人,或将改变世界!_哔哩哔哩_bilibili

结束:

竟然花了我一个小时来整理这些内容!

希望大家能够点个 鼓励一下, 关注 我,持续为您带来高质量的AGI相关信息!

GPT-5未必是你想象中的加强版

很有可能是监管深度介入之后的 阉割版