大语言模型 -

大语言模型

暂无话题描述

管理

WizardCoder：专门训练来写代码的LLM | 本地安装和评测

天地会珠海分舵

AI小学生，全栈中学生，互联网老兵

我们知道不久前的WizardLM大语言模型在开源领域获得了不俗的表现，现在该团队又推出了WizardCoder，专门训练来帮助大家写代码用的今天我们看下怎么在本地安装WizardCoder并测试下它的表现，其中安装时借助了我昨…

上周六在直播里看了清华大学曾奥涵同学做的报告“从GLM-130B到ChatGLM：大模型预训练与微调”，整个报告分为三个部分，本文是根据其中的第二段“大规模语言模型系列技术：以GLM-130B为例”中的部分内容整理而成的笔记，可以通过这份笔记快速了解一下GLM-130B的训练过程。完整的直播回放可以在B站观看：【报告】从GLM-130B到ChatGLM：大模型预训练与微调_哔哩哔哩_bilibili 除了视频以外，以下的论文和博客也可以帮助快速了解GLM-…

陈天奇等人新作 MLC LLM 能在任何设备上编译运行大语言模型，如何理解这一技术？有哪些应用场景？

卜寒兮

深度学习｜CV博士｜铲屎的

不光是LLM，所有大型深度神经网络（DNN）在做本地终端部署的时候，都会遇到这么几个关键问题：计算能力、内存管理、模型压缩和算法优化等。具体来说，大型深度神经网络模型需要大量的计算资源才能在本地终端上运行，因此通常需要使用高性能的CPU、GPU或专用加速器来保证计算能力。同时巨量的模型参数意味着需要占用大量的内存，以LLM为例，现在的语言模型动不动就是几十亿上百亿的参数量，像GPT这种更是达到了千亿级别。 [图片] 因此…

如何看待 OpenAI CEO 称「大语言模型规模已接近极限，并非越大越好」？

匿名用户

openai下一步很明显是要用reinforcement learning强化autogpt，使得llm能够无需人类干预闭环独立运行。我好奇为什么至今没有人指出这一点，只能说有insight的研究者毕竟还是少数。一年以后再回来看吧。

什么是生成式 AI 模型？

金平宇

Empower One with Technology.

What are Generative AI models? 生成式人工智能以其创建逼真的图像、代码和对话的能力震惊了世界。在这里，IBM 专家 Kate Soule 解释了一种流行的生成式 AI 形式，即大型语言模型，它是如何工作的，以及它可以为…

LLM（Large Language Model）下的自然语言处理任务（附源码）

何枝

欣赏每一个用逻辑阐述观点的人，不喜欢无论据的情绪输出。

完整源码在文末。随着 ChatGPT 和 GPT-4 等强大生成模型出现，自然语言处理任务方式正在逐步发生改变。鉴于大模型强大的任务处理能力，未来我们或将不再为每一个具体任务去 finetune 一个模型，而是使用同一个大模型，对不同任务设计其独有的 prompt，以解决不同的任务问题。在这篇文章中，我们将基于清华开源大模型 ChatGLM-6B ，尝试提供多个自然语言处理任务如何通过 prompt 来实现 zero-shot 的案例，希望能够对你有所启…

P-Tuning v2 可将微调的参数量减少到原来的0.1%，具体是什么原理？

羡鱼智能

浙江大学工学硕士

原文： [文章: 【OpenLLM 007】小参数撬动大模型-万字长文全面解读PEFT参数高效微调技术] [图片] 0.序章砍柴不误炼丹工笔者最近一直在折腾大模型，老实讲跑通之后，主要的收获可能有4点： 1）缓解了一些关于LLM的焦虑； 2）获得了一些训练大模型的直观的感受； 3）梦回了一把当年折腾环境的折磨； 4）可以给老板画饼（老板说，你这效果也不行啊，然后反手画了个更大的，可是算力呢）；除此以外，并没有收获太多的成长，反而觉得浪费了…

【强化学习 247】RL+LLM 若干工作介绍

张海抱

强化学习量化投资

在前一篇文章张楚珩：【强化学习 246】RL+Foundation Models 中，咱们已经做了一些概括性的综述了，这里来讲一些具体的工作。这次的调研是由我带的某不愿意透露姓名的同学做的，也打个广告，欢迎同学们投简历来一起合作研究~ 根据强化学习中智能体和环境的相互交互关系来说，LLM 可以应用在下面几个不同的部分：1）用于模拟环境中，产生相应的状态转移或者奖励函数；2）用于智能体中，直接产生动作或者产生较高层的规划；3）用…