首页>离语纪 > 第337章 噢

第337章 噢(第2页)

目录

用户反馈是对输入的问题和产生的回答进行记录,方便针对性进行调整。

反馈可以直接用于指导向量知识库的更新和优化。

不断地测试来完善我的专业领域大模型。

最后一部分是我本次研究的总结。

首先创建了一个能被大语言模型直接调用的专业知识库,在电力lca这个专业性较高的领域填补了大语言模型的空白。

其次是采用rag技术,将知识库,联网与大语言模型相结合,增强了大语言模型在特定领域的可信度和实用性。

最后就是本次研究虽然是针对电力lca领域,但其背后的构架适用于各个领域,构建了一个完整的体系,可以进行修改,全方面的辅助大语言模型,应用广泛。

以下就是我的全部研究内容请各位老师批评指正。

3.3.2

数据预处理

unstructured

库是一个强大的工具,专为处理非结构化数据设计,具体流程如图

3.7

所示,

如从文本文档、pdf

文件或网页中提取数据。

它支持多种数据提取方法,包括正则表达式匹配、自

然语言处理(nlp)技术等。

数据预处理步骤如下:

步骤一:数据清洗

去除杂质:从文本中去除无关的字符,如特殊符号、空白行等。

格式统一:将所有文本统一为相同的编码格式,通常为

utf-8,以避免编码错误。

语言标准化:统一不同术语的使用,例如将所有"

photovoltaic"

统一替换为"

pv"

,确保术语的

一致性。

步骤二:信息提取

关键信息标识:标识文献中的关键信息,如研究方法、主要结论、实验条件等。

数据分类:根据信息类型将数据分类,如作者、出版年份、研究结果等。

步骤三:结构化转换

结构化处理:将信息精细化拆解与清洗,将各种元素进行转换,形成结构化数据形式,拆分成

标题与内容。

分割部分关键代码:

本章未完,点击下一页继续阅读



返回顶部