ChatGPT | LangChain的文本切割方法对比_fastgpt langchain chatchat区别

相关文章推荐

严肃的鸵鸟 · powershell ...· 4 月前 ·

星星上的斑马 · android c++ 共享内存 - CSDN文库· 5 月前 ·

文质彬彬的打火机 · Python实践：seaborn的散点图矩阵 ...· 1 年前 ·

有腹肌的大白菜 · 董淳光之SQLITE3 使用总结(3) - ...· 1 年前 ·

本文来自 http://blog.csdn.net/hellogv/ ，引用必须注明出处！

ChatGPT面向对话格式的文本理解很好，但如果要把网络上的文章让ChatGPT直接分析则会有格式的问题。文本清洗是个大课题，讲起来需要很多篇幅，优化起来前路漫漫。

本文基于稍微加工后的文本内容，使用LangChain的CharacterTextSplitter 和 RecursiveCharacterTextSplitter两个文本切割方法做效果对比， 因为文本切割的效果直接影响知识库方向ChatGPT反馈的效果 。

先说结论， CTS比RTCS稍好，利用明确的段落分隔符可以避免一些初级问题发生，一些高级的问题两者都会发生。

以下文本内容来自大爆发：最后一波上半年能开标的50多个项目，预算超50亿元，标黄的内容是测试关键数据。

直接贴出运行结果，红框是出错的地方都是来自RTCS（RecursiveCharacterTextSplitter）：

CTS 返回结果是使用CharacterTextSplitter做text_splitter，它是基于符号做段落切割，本文选择####作为段落的分割符。

RTCS 返回结果是使用RecursiveCharacterTextSplitter，它是基于固定大小做段落切分。

再次总结结论，CTS比RTCS稍好，可以避免一些初级问题发生。

接下来贴出源代码，分为两部分：input.py和output.py。

以下是Input.py的源码，是很关键很关键很关键的地方，用embedding和切割存数据到向量数据库：

import os
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter
# 1 定义embedding
os.environ["OPENAI_API_TYPE"] = "azure"
os.environ["OPENAI_API_KEY"] = "xxxxxxxxxxxxx"
os.environ["OPENAI_API_BASE"] = "yyyyyyyyyyyyyyyyyyyyyyyyyyyyy"
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002", deployment="lk-text-embedding-ada-002", chunk_size=1)
# 2 定义文件 
loader = TextLoader(".\\单文件\\项目信息.txt", "utf-8")
pages = loader.load_and_split()
# 3 重要！！！初始化加载器
# 按符号切分段落
text_splitter_CTS = CharacterTextSplitter(
    separator = "####",
    chunk_size = 500, #chunk_size = 1000,
    chunk_overlap = 0
split_docs_CTS = text_splitter_CTS.split_documents(pages)
print(f'CharacterTextSplitter documents:{len(split_docs_CTS)}')
#print(split_docs_CTS)
#写入向量数据库
print(f'写入CTS向量数据库')
vectordb = Chroma.from_documents(split_docs_CTS, embedding=embeddings, persist_directory="./CTS/")
vectordb.persist()
# 按固定尺寸切分段落
text_splitter_RCTS = RecursiveCharacterTextSplitter(
    chunk_size = 500, #chunk_size = 1000,
    chunk_overlap = 200
split_docs_RCTS = text_splitter_RCTS.split_documents(pages)
print(f'RecursiveCharacterTextSplitter documents:{len(split_docs_RCTS)}')
#print(split_docs_RCTS)
#写入向量数据库
print(f'写入RCTS向量数据库')
vectordb = Chroma.from_documents(split_docs_RCTS, embedding=embeddings, persist_directory="./RTCS/")
vectordb.persist()
以下是Output.py的源码，调用ChatGPT基于向量数据库搜索出来的文字片段组织文字来回答： 
import os
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import CharacterTextSplitter
from langchain import OpenAI,VectorDBQA
from langchain.chains import RetrievalQA
from typing import Dict, Any
os.environ["OPENAI_API_TYPE"] = "azure"
os.environ["OPENAI_API_KEY"] = "xxxxxxxxxxxxxxxxxxxx"
os.environ["OPENAI_API_BASE"] = "yyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy"
dict: Dict[str, Any] = {
    "deployment_id": "lk-gpt-35-turbo"
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002", deployment="lk-text-embedding-ada-002", chunk_size=1)
openAiLLm = OpenAI(temperature=0.9, model_name="gpt-35-turbo", model_kwargs=dict, max_tokens=100)
db_CTS = Chroma(persist_directory="./CTS/", embedding_function=embeddings)
db_RTCS = Chroma(persist_directory="./RTCS/", embedding_function=embeddings)
print('----------------')
question_list=["介绍一下重庆市新型数字交通物联网大数据服务平台的金额、截止时间",
               "介绍一下广州城市职业学院项目的金额、截止时间",
               "介绍一下吴中区智慧教育项目的预算、截止时间",
               "介绍一下之江实验室项目的预算、截止时间"]
for i in range(0,len(question_list)):
    question_text=question_list[i]
    qa_CTS = RetrievalQA.from_chain_type(llm=openAiLLm, chain_type="stuff", retriever=db_CTS.as_retriever(), return_source_documents=False)
    # 进行问答
    result = qa_CTS({"query": question_text}) 
    print("CTS 返回结果：" + str(result))#.split('\n')[0])
    print('------')
    qa_RTCS = RetrievalQA.from_chain_type(llm=openAiLLm, chain_type="stuff", retriever=db_RTCS.as_retriever(), return_source_documents=False)
    # 进行问答
    result = qa_RTCS({"query": question_text}) 
    print("RTCS 返回结果：" + str(result))#.split('\n')[0])
    print('***********************************************') 
                                    大模型应用选择对比 1、知识库对比：dify、fastgpt、langchatchat 2、agent构建器选择：flowise、langflow、bisheng 3、召回率提升方案。
                                    “介绍三个开源项目Dify、FastGPT和LangChain-Chatchat。这些项目使用了各种前沿技术，具有模块化设计、易扩展性、Docker支持等特点,非常适合二次开发。无论是在应用中自动化任务，构建知识库，还是进行问答系统的搭建，都有着广泛的用途。”01—Dify官方地址：https://dify.ai/开源地址：https://github.com/langgenius/difyDi...
                                    LangChain 由几个主要模块组成，针对每个模块，文档提供一些入门示例、指南、参考文档和概念指南。后面基于LangChain做一些好玩的实验和有意思的测试吧。LangChain 可以支持的一些常见用途。
                                    文本分割器（Text Splitters）是 LangChain 中用于处理和转换文档的工具，可以帮助开发者将长文档分割成更小的、语义上有意义的块，以适应我们的应用程序或模型的上下文窗口。
                                    国内直联GPT！清风 AIchat 手把手保姆级使用教程，适合小白“未来几年，所有组织的管理、业务都将AI化，如何利用AI技术，是每一个管理者必须思考的问题”自从去年 12 月 ChatGPT 发布后，带动了新的一轮应用交互革命。尤其是 GPT-3.5 接口全面放开后，LLM 应用雨后春笋般快速涌现。企业信息化1.0 是电算化，2.0 是移动化，3.0 就是 AI 智能化了。企业 AI 化时代，员工关心是如何提高写作效率、工作效率；管理者关心的是如何提高组织的整体效率，促进业务，带动销售，提效降费。
                                    GitHub - liaokongVFX/LangChain-Chinese-Getting-Started-Guide: LangChain 的中文入门教程LangChain 的中文入门教程. Contribute to liaokongVFX/LangChain-Chinese-Getting-Started-Guide development by creating an account on GitHub.
                                    随着chatgpt的爆火，各种开源大模型以及聊天机器人开始涌现。最近公司也想训练一个具有公司业务特色的聊天机器人，类似一个客服的角色。本人是一个java开发，对python也不是很懂，顺便把这几天的摸索的心得记录下来
                                    基于RAG与LLM的知识库作为目前最有潜力的企业端大模型应用之一，从技术角度可以看到，建设方案已经完备；从业务角度，最终的应用效果和业务价值还需要观察，并通过业务侧的反馈不断地促进建设方案的进一步优化，比如增加对多模态知识的处理能力等。让我们共同期待这类应用普及那一天的到来。
                                    借助于无标注数据训练，可以用于大量下游任务；多个应用可以依赖于极少的几个大模型统一建设可以对话交互LLaMA：MetaGLM：Tsinghua通义千问：阿里巴巴Baichuan：百川智能输入给LLM的文本或问题，接收到的输出是Completion
大模型调用
百度文心一言
首先需要获取密钥API Key、Secret Key，然后基于密钥获取access_token，利用access_token进行调用定义一个继承自 LLM 类的自定义 LLM 类：要实现自定义 Embeddings，需要定义一个