大语言模型
WizardCoder:专门训练来写代码的LLM | 本地安装和评测
我们知道不久前的WizardLM大语言模型在开源领域获得了不俗的表现,现在该团队又推出了WizardCoder,专门训练来帮助大家写代码用的
今天我们看下怎么在本地安装WizardCoder并测试下它的表现,其中安装时借助了我昨…
【报告笔记】 大规模语言模型系列技术:以GLM-130B为例
上周六在直播里看了清华大学曾奥涵同学做的报告“从GLM-130B到ChatGLM:大模型预训练与微调”,整个报告分为三个部分,本文是根据其中的第二段“大规模语言模型系列技术:以GLM-130B为例”中的部分内容整理而成的笔记,可以通过这份笔记快速了解一下GLM-130B的训练过程。完整的直播回放可以在B站观看: 【报告】从GLM-130B到ChatGLM:大模型预训练与微调_哔哩哔哩_bilibili 除了视频以外,以下的论文和博客也可以帮助快速了解GLM-…
不光是LLM,所有大型深度神经网络(DNN)在做本地终端部署的时候,都会遇到这么几个关键问题:计算能力、内存管理、模型压缩和算法优化等。 具体来说,大型深度神经网络模型需要大量的计算资源才能在本地终端上运行,因此通常需要使用高性能的CPU、GPU或专用加速器来保证计算能力。 同时巨量的模型参数意味着需要占用大量的内存,以LLM为例,现在的语言模型动不动就是几十亿上百亿的参数量,像GPT这种更是达到了千亿级别。 [图片] 因此…
什么是生成式 AI 模型?
What are Generative AI models?
生成式人工智能以其创建逼真的图像、代码和对话的能力震惊了世界。在这里,IBM 专家 Kate Soule 解释了一种流行的生成式 AI 形式,即大型语言模型,它是如何工作的,以及它可以为…
LLM(Large Language Model)下的自然语言处理任务(附源码)
完整源码在文末。随着 ChatGPT 和 GPT-4 等强大生成模型出现,自然语言处理任务方式正在逐步发生改变。 鉴于大模型强大的任务处理能力,未来我们或将不再为每一个具体任务去 finetune 一个模型, 而是使用同一个大模型,对不同任务设计其独有的 prompt,以解决不同的任务问题。 在这篇文章中,我们将基于清华开源大模型 ChatGLM-6B , 尝试提供多个自然语言处理任务如何通过 prompt 来实现 zero-shot 的案例, 希望能够对你有所启…
原文: [文章: 【OpenLLM 007】小参数撬动大模型-万字长文全面解读PEFT参数高效微调技术] [图片] 0.序章砍柴不误炼丹工笔者最近一直在折腾大模型,老实讲跑通之后,主要的收获可能有4点: 1)缓解了一些关于LLM的焦虑; 2)获得了一些训练大模型的直观的感受; 3)梦回了一把当年折腾环境的折磨; 4)可以给老板画饼(老板说,你这效果也不行啊,然后反手画了个更大的,可是算力呢); 除此以外,并没有收获太多的成长,反而觉得浪费了…
【强化学习 247】RL+LLM 若干工作介绍
在前一篇文章 张楚珩:【强化学习 246】RL+Foundation Models 中,咱们已经做了一些概括性的综述了,这里来讲一些具体的工作。这次的调研是由我带的某不愿意透露姓名的同学做的,也打个广告,欢迎同学们投简历来一起合作研究~ 根据强化学习中智能体和环境的相互交互关系来说,LLM 可以应用在下面几个不同的部分:1)用于模拟环境中,产生相应的状态转移或者奖励函数;2)用于智能体中,直接产生动作或者产生较高层的规划;3)用…