资料整理自网络,有误欢迎指正

对于想要研究大模型的同学来说,目前ChatGPT无疑是最好的学习对象,但等它开源估计是不太可能了,所以学姐今天整理了一些开源的类GPT模型,帮助大家更好的理解大模型背后的机理。

PS:有的功能还不错,也可以上手玩耍玩耍。

开源链接都贴上了,不想复制粘贴的同学看 文末直接领

1.Colossal AI

“夸父”AI,大规模并行AI训练系统,基于LLaMA预训练模型。作为ChatGPT的平替,开源了完整的RLHF流水线,包括,监督数据收集、监督微调、奖励模型训练和强化学习微调等。

  • 优势:高效、简单、可扩展,功能多,包含AIGC

  • 缺点:不完全支持中文,基于GPT-3

  • 模型能力:集成现有的GPT-3 、GPT-2模型,能够提升模型效率

  • 训练:
    • 第一阶段(stage1_sft.py):SFT监督微调阶段,该开源项目没有实现,这个比较简单,因为ColossalAI无缝支持Huggingface,本人直接用Huggingface的Trainer函数几行代码轻松实现,在这里我用了一个gpt2模型,从其实现上看,其支持GPT2、OPT和BLOOM模型;

    • 第二阶段(stage2_rm.py):奖励模型(RM)训练阶段,即项目Examples里train_reward_model.py部分;

    • 第三阶段(stage3_ppo.py):强化学习(RLHF)阶段,即项目train_prompts.py。

代码中的cores即原始工程中的chatgpt,cores.nn在原始工程中变成了chatgpt.models。

开源地址:https://github.com/hpcaitech/ColossalAI

2.ChatGLM

智谱AI研发,基于千亿参数大模型的支持中英双语的对话机器人。

  • 优势:支持中英双语、开源平替里面参数规模较大的对话大模型

  • 缺点:模型记忆和语言能力较弱,数学、编程类解答能力较弱

  • 模型能力:
    • 自我认识

    • 提纲写作

    • 文案写作

    • 邮件写作助手

    • 信息抽取

    • 角色表演

    • 评论比较

    • 旅游方向

  • 训练:
    • 62亿参数

    • 针对中文提问和对话进行了优化

    • 经过约1T标准符号的中英双语训练,辅以监督微调、反施自助、人类反施强化学习等技术的支持

开源地址:https://github.com/THUDM/ChatGLM-6B

3.LLaMa

Meta打造的一个650 亿参数的大语言模型,可以在非商业许可下提供给政府、社区和学术界的研究人员和实体工作者。

  • 优势:在生成文本、对话、总结书面材料、等任务上方面表现良好,支持20种语言。

  • 缺点:对中文支持不足

开源地址:https://github.com/facebookresearch/llama

4.LLaMa-ChatLLaMA

由于 LLaMA 大模型系列没有使用 RLHF 方法,因此初创公司 Nebuly AI 开源了 RLHF 版 LLaMA(ChatLLaMA)的训练方法。

  • 更便宜,完整的开源实现,允许用户基于预训练的 LLaMA 模型构建 ChatGPT 风格的服务;

  • LLaMA 架构更小,使得训练过程和推理速度更快,成本更低;

  • 内置了对 DeepSpeed ZERO 的支持,以加速微调过程;

  • 支持各种尺寸的 LLaMA 模型架构,用户可以根据自身偏好对模型进行微调

  • 缺点:不支持中文

  • 5.BELLE

    精通中文,基于斯坦福 Alpaca项目,70 亿参数的中文对话大模型。

    • 数据:参考斯坦福大学的Alpaca项目,针对中文场景进行了优化,利用ChatGPT生了多样化、高质量的数据,包括日常对话、知识问答、文本生成等,有助于模型在各种中文场景中的表现。

    • 模型:基于Bloom和LLAMA,训练了出具效果的对话模型,并完全开放了这些模型的参数,大大降低使用和科研的门槛

    • 轻量化:开源了对话模型的量化版本,包括8bit, 4bit, 其中4bit版本模型checkpoint大小仅为6.9G,运行仅需8.4G显存。

    开源地址:https://github.com/LianjiaTech/BELLE

    6.PaLM-rlhf-pytorch

    作者Phil Wang,在 PaLM 架构之上实现 RLHF,它基本上是使用 PaLM 的 ChatGPT

    • 基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF)

    • 采用了ChatGPT一样的强化学习机制,能让AI的回答更加符合情景要求,降低模型毒性

    开源地址:https://github.com/lucidrains/PaLM-rlhf-pytorch

    7.OpenAssistant

    旨在让每一个人都可以访问基于聊天的大语言模型。

    • 开源聊天助手,其可以理解任务、与第三方系统交互、动态检索信息。

    • 据说是第一个在人类数据上进行训练的完全开源的大规模指令微调模型

  • 缺点:中文效果不佳、受底层模型的限制

  • 开源地址:https://github.com/LAION-AI/Open-Assistant

    8.OpenChatKitk

    前OpenAI研究员所在的Together团队,以及LAION、Ontocord.ai团队共同打造,包含200亿个参数,用GPT-3的开源版本GPT-NoX-20B进行微调

    • 提供了一个强大的的开源基础,为各种应用程序创建专用和通用的聊天机器人

    • 该 kit 包含了一个经过指令调优的 200 亿参数语言模型、一个 60 亿参数调节模型和一个涵盖自定义存储库最新响应的可扩展检索系统

    开源地址:https://github.com/togethercomputer/OpenChatKit

    9.stanford_alpaca

    Stanford Alpaca是一个Instruction-following的LLaMA模型,即一个对LLaMA模型进行指令调优的结果模型

    开源地址:https://github.com/tatsu-lab/stanford_alpaca

    关注下方《学姐带你玩AI》🚀🚀🚀

    回复“ 大模型 ”获取 开源代码+必读论文

    码字不易,欢迎大家点赞评论收藏!

    大家好,我是独孤风。又到了本周的 开源 项目推荐。近一年多的时间, 人工智能 迎来了大爆发。 GPT 相关的大 模型 的发展让很多领域都发生了巨大的变化。 但是虽然 GPT 的自然语言识别功能异常的强大,但回答给我们的知识内容并不尽如人意。那么,有没有可以在本地部署搭建的AI知识库项目呢? 今天为大家推荐的就是一个纯中文本地 GPT 知识库搭建项目,虽然刚刚 开源 不到半年的时间,标星已经达到了8.8K, 让我们一起来看看吧... 本文展示了一个极简 GPT ,它只有 2 个 token0和1,上下文长度为 3;这样的 GPT 可以看做是一个有限状态马尔可夫链(FSMC)。我们将用 token sequence作为输入对这个极简 GPT 训练 50 次, 得到的状态转移概率符合我们的预期。例如,在训练数据中,状态101 -> 011的概率是 100%,因此我们看到训练之后的 模型 中,101 -> 011的转移概率很高(79%,没有达到 100% 是因为我们只做了 50 步迭代);在训练数据中,状态111 -> 111和。 相关的代码可以在github上访问:[github.com/night-is-yo…]本文主要是介绍第一部分, 微调sft官方的例子:[github.com/huggingface…] 嗨喽!GitHub科技的各位小伙伴们,由于公众号做了乱序推送改版,为了保证公众号的推文能够第一时间及时送达到大家手上,大家记得将公众号 加星标置顶 ,公众号每天会送上几个GitHub 开源 项目给大家学习 !1 LobeChatLobeChat是一个 开源 的、可扩展的高性能聊天机器人框架。它支持一键免费部署私人Chat GPT /LLM网页应用程序。obeChat具备快速部署、精致UI设计、流畅的对话体... 但就算付费,一些地区也无法进行相关服务的购买。 GPT -4发布时,工程师一个手绘网页,传递给 GPT -4时, 模型 会自动进行图片的识别,然后输出搭建整个网页的代码,强大的多 模型 模型 吊足了大家的胃口。小编使用了同样的照片,同样的文字,来复现官方的HTML网页, 模型 生成的HTML网页只有js,没有css的部分,生成的网页有相关的文字,但是没有css的渲染,估计还需要各种调参。当然 模型 同样支持多轮对话讨论,虽然 模型 已经 开源 ,但是运行此 模型 需要的电脑资源还是要求比较高的,怪不得Chat GPT 类似的大 模型 ,这么费经费。 大家好,我是校长。我们都知道, GitHub 发布 Copilot X 智能编程助手,将 OpenAI 聊天功能添加到编码工具中,使用了 OpenAI 的最新 GPT -4 模型 ,不仅可以自动补全代码和注释,还可以通过聊天和语音与 发者交流,帮助他们理解、修改、测试和优化代码。但是, Copilot X 是付费软件啊,是收费的啊。不过,今天我给大家推荐两款基于 GPT 开源 的程序员效率神器,从某种程... 3、大型语言 模型 论文 列表,特别是与 Chat GPT 相关的 论文 ,还包含LLM培训框架、部署LLM的工具、关于LLM的课程和教程以及所有公 可用的LLM 权重和API。18、OpenFlamingo是一个用于评估和训练大型多模态 模型 开源 框架,是 DeepMindFlamingo 模型 开源 版本,也是AI世界关于大 模型 进展的一大步。4、亚马逊科学家杨靖锋等大佬创建的语言大 模型 实践指南,收集了许多经典的 论文 、示例和图表,展现了 GPT 这类大 模型 的发展历程等。9、斯坦福,建立并共享一个遵循指令的LLaMA 模型 。 近日,一个名为 Gpt Engineer神级项目 开源 ,并迅速火爆全网。短短几天内,该项目已经得到了25K的星星。使用 GPT -engineer进行 人工智能 软件 发,可以改变软件 发的未来。在软件 发领域,一场巨大的革命正在 始。这一转变背后的驱动力正是 GPT -Engineer,这是一个AI驱动的工具,它正在重新定义代码生成和定制。这个革命性的工具,能够根据您的规范生成整个代码库,有望成为 发人员工具包... yixi−μiσi2ϵ∗γβyi​σi2​ϵ​xi​−μi​​∗γβ接下来是CausalSelfAttention 类就是大名鼎鼎的注意力机制模块了else:return y观察者我 Q,图片 K,观察重点 V所谓1000个人有1000个哈姆雷特,每个眼中的图片都不一样,我们对图片的不同区域的关注是不一样的,这也是图上热图所显示的。 公众号关注“GitHubDaily”设为 “星标”,每天带你逛 GitHub!过去一周,技术圈的各个爆炸新闻,可以说是让我真正见证到了什么叫人间一日,AI 一年。首先是 New Bing 对所有用户放 ,注册即可用,然后周三 Google 发布 Chat GPT 的对手产品 Bard,周四 GitHub 推出 GitHub Copilot X,周五 OpenAI 团队上线了「Chat GPT 插件系... 2023年是 人工智能 爆火的一年,Chat GPT 为首的一系列的大 模型 的出现,让生成式 人工智能 彻底火了一把。但有人会说, GPT 对于我们数据 发来说并没有什么作用啊?今天为大家推荐的 开源 项目,就是 GPT 在数据领域的一个优秀实践项目。让我们一起来看看吧~Chat2DB是一个集成了Chat GPT 功能的数据库SQL客户端和报表工具,支持 windows、mac 本地安装,也支持服务器端部署,web 网页访问。... GPT 是 Generative Pre-trained Transformer 的缩写,它是一种自然语言处理 模型 ,由 OpenAI 发并 开源 GPT 是通过预先训练的方法来生成文本,可以进行语言建模、机器翻译、问答等任务。 GPT -3 是其中一个版本,具有更高的语言理解能力。