ChatRWKV 是对标 ChatGPT 的开源项目,希望做「大规模语言模型的 Stable Diffusion」,为实现这一目标,只需四个方面,现均有基础,欢迎大家来建设生态:

1. 算力 : 我平时用上百张 A100 训练,有需要可以用上千张。其实如果有经验,一个人就可以炼 100B 模型。训练代码:

GitHub - BlinkDL/RWKV-LM https://github.com/BlinkDL/RWKV-LM

2. 数据 : 有国外国内多个团队收集整理数据,包括收集 RLHF 数据。

3. 模型 : ChatRWKV 采用我设计的 RWKV 架构(魔改 RNN,是迄今唯一看齐 transformer 性能的纯 RNN,梯度可以无限走,也能并行化,拥有 RNN 和 transformer 的所有优点),效率高于 GPT(运行快,省显存,适合在端侧离线运行),不仅适用于语言模型,也有潜力成为未来 AI 模型的基础。现已 scale 到 14B 验证,等大语料发布后再逐步 scale 到 100B+【补充为何 RWKV 这样强:RWKV 几乎不碰信息 channel,它们就只是 exponential decay 而已,没有更多的非线性。其它 RNN 在上面的非线性太多,容易破坏信息】。

4. 开发者和生态 : ChatRWKV 项目发布近 1 月在 Github 已有 2.4k stars,有多位开发者建设,且 OpenAI 和 Huggingface 等等都在密切关注 ChatRWKV(他们给我发过邮件)。

能力展示:(这里是 14B 参数的模型,欢迎下载使用。注意 prompt 特别重要,请研究我的咒语写法!以后加入新数据会显著更强,预计过两个月就有)

欢迎大家参与建设 RWKV,例如做加速,做量化,做稀疏,做 LORA 微调。由于它的算法效率很高(只需要矩阵乘矢量,不需要矩阵乘矩阵),优化后可以在【CPU / 集显】也能较快运行,或者在新款手机就能跑。

欢迎参与 ChatRWKV 项目,具体 Discord 和 QQ 交流群,请点击阅读原文查看并加入。

经由 作者 同意, 本文转载自 PENG Bo 发布在知乎平台的原创文章: 《 参与 ChatRWKV 项目,做开源 ChatGPT(可以在每个人电脑和手机直接运行的)》
原文链接:
https://zhuanlan.zhihu.com/p/603840957
作者: PENG Bo
转载内容不代表官方立场和观点,特此说明。