资料整理自网络,有误欢迎指正
对于想要研究大模型的同学来说,目前ChatGPT无疑是最好的学习对象,但等它开源估计是不太可能了,所以学姐今天整理了一些开源的类GPT模型,帮助大家更好的理解大模型背后的机理。
PS:有的功能还不错,也可以上手玩耍玩耍。
开源链接都贴上了,不想复制粘贴的同学看
文末直接领
1.Colossal AI
“夸父”AI,大规模并行AI训练系统,基于LLaMA预训练模型。作为ChatGPT的平替,开源了完整的RLHF流水线,包括,监督数据收集、监督微调、奖励模型训练和强化学习微调等。
代码中的cores即原始工程中的chatgpt,cores.nn在原始工程中变成了chatgpt.models。
开源地址:https://github.com/hpcaitech/ColossalAI
2.ChatGLM
智谱AI研发,基于千亿参数大模型的支持中英双语的对话机器人。
开源地址:https://github.com/THUDM/ChatGLM-6B
3.LLaMa
Meta打造的一个650 亿参数的大语言模型,可以在非商业许可下提供给政府、社区和学术界的研究人员和实体工作者。
开源地址:https://github.com/facebookresearch/llama
4.LLaMa-ChatLLaMA
由于 LLaMA 大模型系列没有使用 RLHF 方法,因此初创公司 Nebuly AI 开源了 RLHF 版 LLaMA(ChatLLaMA)的训练方法。
-
更便宜,完整的开源实现,允许用户基于预训练的 LLaMA 模型构建 ChatGPT 风格的服务;
-
LLaMA 架构更小,使得训练过程和推理速度更快,成本更低;
-
内置了对 DeepSpeed ZERO 的支持,以加速微调过程;
-
支持各种尺寸的 LLaMA 模型架构,用户可以根据自身偏好对模型进行微调
缺点:不支持中文
5.BELLE
精通中文,基于斯坦福 Alpaca项目,70 亿参数的中文对话大模型。
-
数据:参考斯坦福大学的Alpaca项目,针对中文场景进行了优化,利用ChatGPT生了多样化、高质量的数据,包括日常对话、知识问答、文本生成等,有助于模型在各种中文场景中的表现。
-
模型:基于Bloom和LLAMA,训练了出具效果的对话模型,并完全开放了这些模型的参数,大大降低使用和科研的门槛
-
轻量化:开源了对话模型的量化版本,包括8bit, 4bit, 其中4bit版本模型checkpoint大小仅为6.9G,运行仅需8.4G显存。
开源地址:https://github.com/LianjiaTech/BELLE
6.PaLM-rlhf-pytorch
作者Phil Wang,在 PaLM 架构之上实现 RLHF,它基本上是使用 PaLM 的 ChatGPT
开源地址:https://github.com/lucidrains/PaLM-rlhf-pytorch
7.OpenAssistant
旨在让每一个人都可以访问基于聊天的大语言模型。
缺点:中文效果不佳、受底层模型的限制
开源地址:https://github.com/LAION-AI/Open-Assistant
8.OpenChatKitk
前OpenAI研究员所在的Together团队,以及LAION、Ontocord.ai团队共同打造,包含200亿个参数,用GPT-3的开源版本GPT-NoX-20B进行微调
开源地址:https://github.com/togethercomputer/OpenChatKit
9.stanford_alpaca
Stanford Alpaca是一个Instruction-following的LLaMA模型,即一个对LLaMA模型进行指令调优的结果模型
开源地址:https://github.com/tatsu-lab/stanford_alpaca
关注下方《学姐带你玩AI》🚀🚀🚀
回复“
大模型
”获取
开源代码+必读论文
码字不易,欢迎大家点赞评论收藏!
大家好,我是独孤风。又到了本周的
开源
项目推荐。近一年多的时间,
人工智能
迎来了大爆发。
GPT
相关的大
模型
的发展让很多领域都发生了巨大的变化。 但是虽然
GPT
的自然语言识别功能异常的强大,但回答给我们的知识内容并不尽如人意。那么,有没有可以在本地部署搭建的AI知识库项目呢? 今天为大家推荐的就是一个纯中文本地
GPT
知识库搭建项目,虽然刚刚
开源
不到半年的时间,标星已经达到了8.8K, 让我们一起来看看吧...
本文展示了一个极简
GPT
,它只有 2 个 token0和1,上下文长度为 3;这样的
GPT
可以看做是一个有限状态马尔可夫链(FSMC)。我们将用 token sequence作为输入对这个极简
GPT
训练 50 次, 得到的状态转移概率符合我们的预期。例如,在训练数据中,状态101 -> 011的概率是 100%,因此我们看到训练之后的
模型
中,101 -> 011的转移概率很高(79%,没有达到 100% 是因为我们只做了 50 步迭代);在训练数据中,状态111 -> 111和。
相关的代码可以在github上访问:[github.com/night-is-yo…]本文主要是介绍第一部分, 微调sft官方的例子:[github.com/huggingface…]
嗨喽!GitHub科技的各位小伙伴们,由于公众号做了乱序推送改版,为了保证公众号的推文能够第一时间及时送达到大家手上,大家记得将公众号 加星标置顶 ,公众号每天会送上几个GitHub
开源
项目给大家学习 !1 LobeChatLobeChat是一个
开源
的、可扩展的高性能聊天机器人框架。它支持一键免费部署私人Chat
GPT
/LLM网页应用程序。obeChat具备快速部署、精致UI设计、流畅的对话体...
但就算付费,一些地区也无法进行相关服务的购买。
GPT
-4发布时,工程师一个手绘网页,传递给
GPT
-4时,
模型
会自动进行图片的识别,然后输出搭建整个网页的代码,强大的多
模型
模型
吊足了大家的胃口。小编使用了同样的照片,同样的文字,来复现官方的HTML网页,
模型
生成的HTML网页只有js,没有css的部分,生成的网页有相关的文字,但是没有css的渲染,估计还需要各种调参。当然
模型
同样支持多轮对话讨论,虽然
模型
已经
开源
,但是运行此
模型
需要的电脑资源还是要求比较高的,怪不得Chat
GPT
类似的大
模型
,这么费经费。
大家好,我是校长。我们都知道, GitHub 发布 Copilot X 智能编程助手,将 OpenAI 聊天功能添加到编码工具中,使用了 OpenAI 的最新
GPT
-4
模型
,不仅可以自动补全代码和注释,还可以通过聊天和语音与
开
发者交流,帮助他们理解、修改、测试和优化代码。但是, Copilot X 是付费软件啊,是收费的啊。不过,今天我给大家推荐两款基于
GPT
开源
的程序员效率神器,从某种程...
3、大型语言
模型
的
论文
列表,特别是与 Chat
GPT
相关的
论文
,还包含LLM培训框架、部署LLM的工具、关于LLM的课程和教程以及所有公
开
可用的LLM 权重和API。18、OpenFlamingo是一个用于评估和训练大型多模态
模型
的
开源
框架,是 DeepMindFlamingo
模型
的
开源
版本,也是AI世界关于大
模型
进展的一大步。4、亚马逊科学家杨靖锋等大佬创建的语言大
模型
实践指南,收集了许多经典的
论文
、示例和图表,展现了
GPT
这类大
模型
的发展历程等。9、斯坦福,建立并共享一个遵循指令的LLaMA
模型
。
近日,一个名为
Gpt
Engineer神级项目
开源
,并迅速火爆全网。短短几天内,该项目已经得到了25K的星星。使用
GPT
-engineer进行
人工智能
软件
开
发,可以改变软件
开
发的未来。在软件
开
发领域,一场巨大的革命正在
开
始。这一转变背后的驱动力正是
GPT
-Engineer,这是一个AI驱动的工具,它正在重新定义代码生成和定制。这个革命性的工具,能够根据您的规范生成整个代码库,有望成为
开
发人员工具包...
yixi−μiσi2ϵ∗γβyiσi2ϵxi−μi∗γβ接下来是CausalSelfAttention 类就是大名鼎鼎的注意力机制模块了else:return y观察者我 Q,图片 K,观察重点 V所谓1000个人有1000个哈姆雷特,每个眼中的图片都不一样,我们对图片的不同区域的关注是不一样的,这也是图上热图所显示的。
公众号关注“GitHubDaily”设为 “星标”,每天带你逛 GitHub!过去一周,技术圈的各个爆炸新闻,可以说是让我真正见证到了什么叫人间一日,AI 一年。首先是 New Bing 对所有用户放
开
,注册即可用,然后周三 Google 发布 Chat
GPT
的对手产品 Bard,周四 GitHub 推出 GitHub Copilot X,周五 OpenAI 团队上线了「Chat
GPT
插件系...
2023年是
人工智能
爆火的一年,Chat
GPT
为首的一系列的大
模型
的出现,让生成式
人工智能
彻底火了一把。但有人会说,
GPT
对于我们数据
开
发来说并没有什么作用啊?今天为大家推荐的
开源
项目,就是
GPT
在数据领域的一个优秀实践项目。让我们一起来看看吧~Chat2DB是一个集成了Chat
GPT
功能的数据库SQL客户端和报表工具,支持 windows、mac 本地安装,也支持服务器端部署,web 网页访问。...
GPT
是 Generative Pre-trained Transformer 的缩写,它是一种自然语言处理
模型
,由 OpenAI
开
发并
开源
。
GPT
是通过预先训练的方法来生成文本,可以进行语言建模、机器翻译、问答等任务。
GPT
-3 是其中一个版本,具有更高的语言理解能力。