GPT-4 都已经这么强了，那未来的 GPT-5 会是什么样子？

Question

GPT-4 都已经这么强了，那未来的 GPT-5 会是什么样子？

GPT-4 可以说是再一次颠覆了我对 AI 的认知，从文本到图片视频，再到逻辑推理，简直是神进步。 [图片]

关注者

1,097

被浏览

2,031,444

396 个回答

GPT-5未必是你想象中的加强版

很有可能是监管深度介入之后的阉割版

发布于 2023-03-21 14:18

强化学徒 USTC博士生|和AI一起进化|ChatPaper作者 · Accepted Answer

希望大家在收藏的同时，不要忘记点赞！

1. LLaVA：大型语言和视觉助手

4.17发布论文，4.18开源代码和数据集，只不过没有Mini-GPT4火

▶ 威斯康星大学麦迪逊分校 ▶ 微软研究院 ▶ 哥伦比亚大学 *平等贡献

https:// llava-vl.github.io/

LLaVA 代表了一种新颖的端到端训练的大型多模态模型，它结合了视觉编码器和 Vicuna 以实现通用视觉和语言理解，实现了模仿多模态 GPT-4 精神的令人印象深刻的聊天功能，并设定了新的状态-科学质量检查的艺术准确性。

使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调优提高了语言领域新任务的零样本能力，但在多模态领域探索较少。

多模式指示数据 。我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。
LLaVA 模型 。我们介绍 LLaVA （大语言 和视觉 助手）_ _ _ _ ，一种端到端训练的大型多模式模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。
表现。我们的早期实验表明，LLaVA 展示了令人印象深刻的多模型聊天能力，有时在看不见的图像/指令上表现出多模式 GPT-4 的行为，并且与合成多模式指令跟随数据集上的 GPT-4 相比，产生了 85.1% 的相对分数。当在Science QA 上进行微调时，LLaVA 和 GPT-4 的协同作用达到了 92.53% 的新的最先进的准确率。
开源。我们公开了 GPT-4 生成的视觉指令调整数据、我们的模型和代码库。

2. Mini-GPT4

4.16开源代码，比上面的早了一天，流量几乎全到了MiniGPT4上，一个9K的star，一个是0.9K的star。

GPT时代的工作实在是太疯狂了~

这个几乎不用介绍，大家新智元，机器之心，量子位，直接就能看到测评：

我想说的是，简单的语言微调时代已经过去了，现在多模态微调的时代已经开始了。

3. GPT4长文本的作者历史工作调研：

我和群友都调研过，我粗略的调研了一半，几乎没有发现什么可供参考的论文，比如第一位co-lead，他从21年之后，就不发论文了。closeai是真的强。

4. 10元将Vicuna升级成多模态GPT-4，从图片中读取生命和宇宙的终极答案

知友的工作：游凯超：10元将Vicuna升级成多模态GPT-4，从图片中读取生命和宇宙的终极答案

应该算是Mini-MiniGPT4，但好像需要注册一个算力平台，不知道水深不深。

5. 量化巨头幻方成立研究组织探索 AGI，后续可能如何发展？

量化巨头幻方成立研究组织探索 AGI，后续可能如何发展？ - 钱多多的回答 - 知乎 https://www. zhihu.com/question/5957 04223/answer/2987438854

群友说他的同学最近拒了幻方的百万offer，羡慕大佬。

6. 仰望U8可以选配车载无人机

但我从来没有看到过相关视频，有看到过的同学麻烦给个链接。

(不知道这辈子有没有机会买到百万级别的车~

7. KeepChat，避免chat持续刷新

这个脚本我看有人推荐，但是我自己没试过，大家有试过的，欢迎评论区留言

插件地址： https:// greasyfork.org/zh-CN/sc ripts/462804-keepchatgpt

代码仓库： GitHub - xcanwin/KeepChatGPT

8. 陈虹,陈杰等 | 反馈即你所需:从ChatGPT到自动驾驶

陈虹,陈杰等 | 反馈即你所需:从ChatGPT到自动驾驶

与ChatGPT类似，考虑到人类在复杂驾驶场景中的强鲁棒性和适应性，将人类作用引入AD的学习循环中以增强其智能具有重大潜力。基于此，我们 对人类反馈在线增强的自动驾驶决策控制 进行了研究，所提出的方法同样可以与基于离线人类驾驶数据的预训练相结合。为了提高AD的学习速度和个性化能力，同时实现安全和持续的进化，我们 提出基于混合增强智能 (HAI) 的决策控制框架 ，以将人类反馈纳入学习过程。
首先，建立了基于交互强化学习 (Int-RL) 的决策层。在训练过程中，人类驾驶员对RL智能体进行实时监督，当其学习状态不合理时，利用人类引导决策代替机器决策，以此辅助学习过程。
然后，将决策指令输出给控制层，使用模型预测控制 (MPC) 分别执行纵、横向运动控制任务。
最后，提出了安全保障机制，建立了基于安全驾驶包络的探索/利用方法，以确保HAI系统的安全性。
结果表明，所提出的框架可以实现AD决策控制的高效、可靠和安全地演进。此外，为了提高自动驾驶强化学习算法在复杂场景下的样本数据效率，并增强车辆在拥堵交通场景下主动切入行驶的能力，我们 提出了人类知识增强的强制换道方法 。针对典型拥挤匝道出口场景，首先建立了安全探索保障机制。通过编码人类驾驶员先验知识并对状态空间的有效范围进行约束，以保证安全。然后引入了人类专家在线对车辆的不合理行为进行合理引导，并结合驾驶任务目标，构建了奖励/策略增强机制，以加速策略学习。最后，输出决策指令到控制模块以完成车辆控制任务。实验结果表明，所提出的方法提高了数据效率和训练速度，以及在不同交通流密度下车辆主动切入行驶的成功率。

9. RedPajama宣布开源1.2万亿token数据集

4月17日，RedPajama宣布开源1.2万亿token数据集，帮助开发者训练类ChatGPT大语言模型。这也是目前类ChatGPT领域，全球最大的开源训练数据集。

据悉，RedPajama完美复制了LLaMA模型上的1.2万亿训练数据集，由维基百科、GitHub、普通抓取、C4、图书、ArXiv（知名论文网站）、Stack Exchange七部分组成。完整数据集容量约5T，根据数据使用条例已经允许商业化。

ChatGPT的出现加快了生成式AI的商业化落地，并引领了全球新一轮AI技术变革。由于Open AI没有开源ChatGPT，LLaMA、Alpaca、Guanaco、LuoTuo、Vicuna、Koala等一大批优秀的开源项目如雨后春笋般快速增长。

其中，由Meta AI发布的LLaMA是公认最佳的ChatGPT平替产品，其中， 70亿参数模型经过1.2万亿数据训练单个CPU就能跑，比较适合中小型企业和普通开发者 。但LLaMA只能用于学术研究不允许商业化。所以，RedPajama复制了LLaMA1.2万亿训练数据，帮助开发者加速大语言模型训练进程。

其实RedPajama本身就是一个类ChatGPT大语言模型由Together、 Ontocord.ai、ETH DS3Lab、Stanford CRFM和Hazy Research一起合作开发。预计5月份，RedPajama会将大语言模型进行开源。

地址： https:// huggingface.co/datasets /togethercomputer/RedPajama-Data-1T

RedPajama还开源了所有数据预处理和质量过滤器，使得任何人都可以按照数据准备方法复制 RedPajama-Data-1T。（地址： https:// github.com/togethercomp uter/RedPajama-Data ）

10. 一个新的chat集成平台

最火的应该是 http:// poe.com ，但是要注册，才能看到内容，我就放弃了。

这个是 https:// play.vercel.ai/r/mWjP5D t ，我没用过，只是截图供大家参考。不是广告，不推广，纯信息分享。

11. 两篇新的奖励函数对齐RRHF和RAHF

[大语言模型之RRHF]RRHF: Rank Responses to Align Language Models with Human Feedback without tears（2023）

星空：[大语言模型之RRHF]RRHF: Rank Responses to Align Language Models with Human Feedback without tears（2023）

玩不起RLHF？港科大开源高效对齐算法RAFT「木筏」，GPT扩散模型都能用

星空：[大语言模型之RRHF]RRHF: Rank Responses to Align Language Models with Human Feedback without tears（2023）

这两篇我都没时间认真看，贴出来供大家参考阅读。

12. AutoGPT与LLM Agent解析

模型记忆

另外一类非常常见的模式是通过外部存储来增强模型记忆。其中一个典型场景是长 session 的聊天过程，由于 GPT API 本身的输入信息有 4000 个 token 的限制，所以当聊天进行比较久之后，用户经常会发现 ChatGPT 已经“忘了”之前讲过的内容。另外一个典型场景是给 LLM 提供更多的新信息，像一些产品里能够对一整篇 PDF 甚至一整个知识库里的内容做理解和问答，那么自然不可能直接把所有这些额外信息都直接在 prompt 里扔给 GPT 去处理。
这时候就需要通过外部存储来帮助 GPT 拓展记忆。最简单的方法就是直接把这些对话记录，外部信息等以文本形式保存到文件或者数据库系统里，后续在与模型进行交互时，可以按需去获取这些外部存储中的信息。我们可以把 prompt 里的内容当成模型的“短期记忆”，那么这些外部存储自然就成为了“长期记忆”。除了前面提到的好处外，这种记忆系统模式还能一定程度上起到降低模型 hallucinations 的作用，避免纯粹依靠“生成”来实现任务目标。
获取长期记忆的方法，目前最常见的方式是通过“语义搜索”。大概意思就是利用一个 embedding 模型，将所有的记忆文本都转化为一个向量。而后续跟模型的交互信息也可以通过同样的 embedding 模型转化为向量，然后通过计算相似度来找到最相似的记忆文本。最后再将这些记忆文本拼接到 prompt 里，作为模型的输入。这类方法最热门的开源项目可以参考 OpenAI 官方的 ChatGPT Retrieval Plugin[5] 和 Jerry Liu 的 LlamaIndex[6] 。

AutoGPT与LLM Agent解析

13. langchain的学习教程

求小白教程！

14. ChatOpenReview.

最近我已经爬好了OpenReview的数据了，并且开源了NIPS2022的全部数据，欢迎大家参与这个工作

最近在尝试利用langchain来利用离线数据库。

欢迎有过类似工作经验，或者大模型微调经验的佬加入我们，或者带带我，非常感谢。

15. Chat 缓存

修改几行代码就让LLM应用提速100多倍！这个团队两周搭建ChatGPT缓存层，曾被老黄OpenAI点赞。

这个对于做问答类封装网站的朋友非常友好！我看api2d也用了类似的方案。

16. 骆驼读论文: Paper Reading in the era of LLMs

大佬 @Cheng Li 的系列专栏：【骆驼】开源中文语言模型

https:// github.com/LC1332/Luotu o-Paper-Reading

感谢大佬高价值信息量的分享！

17. 机器人的语言驱动表示学习

单拎出来这个工作，方便做机器人的同学follow：

Voltron 的软件包存储库：机器人的语言驱动表示学习。提供用于加载预训练的 Voltron、R3M 和 MVP 表示以适应下游任务的代码，以及用于在任意数据集上预训练此类表示的代码。

GitHub - siddk/voltron-robotics: Voltron: Language-Driven Representation Learning for Robotics

18. 华子新的黑科技

【华为展示新一代车载光显示技术！业界最强AR-HUD、智慧屏应有尽有！-哔哩哔哩】

https:// b23.tv/FBdmmLi

还有一个车内四座之间，声音互相屏蔽的功能，非常离谱。

19. text2motion

这篇工作我昨天组会汇报了，但是我没时间重新写总结了。

有感兴趣的同学可以一起聊聊

Text2Motion: From Natural Language Instructions to Feasible Plans

https:// sites.google.com/stanfo rd.edu/text2motion

20. 讲讲为什么是这个顺序

因为是按照时间顺序，从我的群里扒的，我认为值得分享的高价值信息。

21. API的调用额度问题：

OPENAI将免费用户的API调用次数从20次/分钟下调到3次/分钟

OPENAI 好像又在悄悄改东西：免费用户获得的试用 API 额度，调用次数原本是 30 次 / 分钟，后来调整为 20 次 / 分钟，现在变成了 3 次 / 分钟，也就是说 1 分钟内最多发出 3 次请求，超过就会被限制直到满 1 分钟。

要解除该限制也非常简单，按 OPENAI 提示绑定付款方式后即可提高调用限制，但没注明绑定后调用限制会改成多少，查看 OPENAI 之前写的速率限制，应该是变成 60 次 / 分钟。

另外这是 OPENAI API 的问题，与 ChatGPT Plus 无关，即便开通了 ChatGPT Plus 也不会在 API 里添加相同的付款卡，所以还得到 API 平台重新添加一次。

对了，免费试用用户现在除了 3 次请求 / 分钟外，还有个 token 数量限制，每分钟最多发送 4 万个 tokens。(蓝点网)

22. @Shusen Wang 老师开源的5万条高质量中文数据

https:// github.com/DA-southampt on/RedGPT

和截图链接不一样，但是我验证了一下，上面链接确实是他们发布的。

23. OpenAI 正在与 1X 合作打造他们的首个物理机器人

OpenAI 正在与 1X 合作打造他们的首个物理机器人，它将 AI 与现实世界相结合。该机器人将拥有高级语言模型，例如 GPT-4 和 GPT-5，首次演示定于 2023 年夏季进行。该机器人的潜力巨大，但人们对通用人工智能安全性的担忧仍在继续。OpenAI 的首席执行官 Sam Altman 认为，AI 的好处值得冒险，并致力于推动该领域的发展。 https://www. youtube.com/watch? v=TfNiCeN7Zvo

【重磅】open AI计划今年夏天发布搭载GPT4或GPT5的人形机器人，或将改变世界！_哔哩哔哩_bilibili

结束：

竟然花了我一个小时来整理这些内容！

希望大家能够点个赞鼓励一下，关注我，持续为您带来高质量的AGI相关信息！

GPT-4 都已经这么强了，那未来的 GPT-5 会是什么样子？

396 个回答

希望大家在收藏的同时，不要忘记 点赞 ！

1. LLaVA：大型语言和视觉助手

2. Mini-GPT4

3. GPT4长文本的作者历史工作调研：

4. 10元将Vicuna升级成多模态GPT-4，从图片中读取生命和宇宙的终极答案

5. 量化巨头幻方成立研究组织探索 AGI，后续可能如何发展？

6. 仰望U8可以选配车载无人机

7. KeepChat，避免chat持续刷新

8. 陈虹,陈杰等 | 反馈即你所需:从ChatGPT到自动驾驶

9. RedPajama宣布开源1.2万亿token数据集

10. 一个新的chat集成平台

11. 两篇新的奖励函数对齐RRHF和RAHF

[大语言模型之RRHF]RRHF: Rank Responses to Align Language Models with Human Feedback without tears（2023）

玩不起RLHF？港科大开源高效对齐算法RAFT「木筏」，GPT扩散模型都能用

12. AutoGPT与LLM Agent解析

模型记忆

13. langchain的学习教程

14. ChatOpenReview.

15. Chat 缓存

16. 骆驼读论文: Paper Reading in the era of LLMs

17. 机器人的语言驱动表示学习

18. 华子新的黑科技

19. text2motion

20. 讲讲为什么是这个顺序

21. API的调用额度问题：

22. @Shusen Wang 老师开源的5万条高质量中文数据

23. OpenAI 正在与 1X 合作打造他们的首个物理机器人

【重磅】open AI计划今年夏天发布搭载GPT4或GPT5的人形机器人，或将改变世界！_哔哩哔哩_bilibili

结束：

希望大家在收藏的同时，不要忘记点赞！