0%

mini

Posted on 2024-05-29 Edited on 2024-05-30 In 学习笔记
Symbols count in article: 1.8k Reading time ≈ 2 mins.

腾讯mini

AICR

自动化客户关系管理

需要关注数据隐私和安全，确保系统的可靠性和用户友好性

RAG

检索增强生成

信息检索(检索模型)：从外部知识库中检索相关信息或文档
文本生成(生成模型)：将检索到的信息与生成模型结合，生成更准确和信息丰富的响应

AICR RAG知识库

结合了AICR和RAG技术，以创建一个智能化和高效的客户关系管理系统

优势
- 响应准确性
- 个性化用户体验
- 效率提升
- 知识共享和更新
挑战
- 数据隐私和安全
- 技术复杂性
- 系统更新与维护

LLM

大型语言模型

基于深度学习技术的自然语言处理模型，旨在生成和理解人类语言

主要技术和原理

神经网络架构
预训练和微调
- 预训练：学习语言的基本结构和词汇的分布
- 微调：预训练好的模型在特定任务或领域的小规模有监督数据集上进行微调，以适应特定应用场景
自监督学习
参数规模

Graph RAG

利用节点和边之间的关系将数据结构化

这种结构通过使模型能够访问精确且上下文相关的数据，大大提高了LLMs生成知情响应的能力

集成了图数据库

Graph RAG的高度取决于基础KG的质量、深度和广度

Vector RAG

结合向量检索和生成模型的技术

向量检索
- 使用嵌入来表示文本、句子和文档，将他们转换为高维向量
增强生成

工作流程

输入处理：
1. 用户输入一个问题，系统首先将其转换为嵌入向量
向量检索
1. 在预先构建的知识库中，通过向量相似度检索与输入向量最相似的向量，找到相关的文本片段或文档
2. 向量检索可以通过高效的索引结构加速
信息融合
1. 检索到的相关信息呗传递给生成模型，生成模型将这些信息与原始输入结合，生成一个综合的、上下文相关的响应
生成输出
1. 生成模型基于融合的信息生成最终的文本输出

读取代码仓库加工生成代码仓库知识库

获取代码仓库数据

通过API或直接克隆代码仓库获取代码库的所有文件和相关元数据

解析代码和文档

使用代码解析工具或库解析代码文件，提取函数、类、变量和注释等信息
提取和解析代码库中的文档以获取更多上下文信息

生成知识库

创建结构化的数据存储以保存从代码库中提取的信息
使用自然语言处理技术和嵌入模型将代码和文档转化为向量表示，以便于检索和分析

RAG技术可以用于最后的生成知识库步骤，可以显著提升系统的检索和生成增强响应

AICP和知识库之间的联系

在AICP系统中，知识库是一个关键主件，它存储和组织了大量的信息，帮助系统提供更只能和高效的客户支持和管理

知识库构建
将知识库集成到AICR系统
1. 知识库接口
  1. API接口：设计和实现API，使AICR系统能访问知识库
  2. 查询语言：使用SQL或专门的查询语言来查询知识库
2. 检索和增强生成
  1. 检索增强生成（RAG）：结合检索模型和生成模型，从知识库中检索相关信息，并生成回答
  2. 检索模型：使用向量检索技术从知识库中找到最相关的文档
  3. 生成模型：使用生成模型结合检索到的信息，生成上下文相关的回答
实现AICR系统中的应用
1. 智能客服
2. 个性化推荐
维护反馈和优化

RAG / Graph RAG

主要区别在于检索模型和数据结构的不同

在Graph RAG中，知识库被表示为图结构，而一般的RAG中，知识库通常是文档集合或数据库

更丰富的关系建模
- 图结构：自然表达实体之间的复杂关系（层次关系，关联关系）
- 上下文理解：捕捉实体之间的多跳关系
更高效的信息检索
- 相关子图：可以通过子图提取，获取与查询直接相关的所有节点和边，避免了大规模文档检索的冗余信息
- 结构化信息：可以获得结构化的信息片段
改进的生成质量
- 综合信息：子图包含多层次、多角度的信息
- 信息整合：生成模型可以将子图中的多个相关信息节点进行整合
知识库的动态更新和扩展
- 节点和边的增删：允许动态地添加或删除节点和边
多模态信息整合
- 多种数据类型：图结构能够整合文本、图像、视频等多种数据类型，通过节点和边的连接，提供更全面的回答

RAG / Vector RAG

在Vector RAG知识库中的文档或信息片段预先向量化，并存储在向量数据库中

使用高效的向量检索方法在向量数据库中找到最相似的文档向量，通常在大规模检索中更高效

提高基础KG质量

多样化数据来源
结构化数据
半结构化和非结构化数据
行业数据

使用自动化数据收集，应用自然语言处理从非结构化文本中提取实体和关系
数据质量提升
1. 数据清理和规范化
  1. 去除重复、错误、不完整的数据
  2. 统一数据格式和标准
2. 数据验证和校验
3. 实体消歧和实体合并
增强数据深度
1. 关系挖掘：通过文本分析、关系抽取发现新的实体关系
2. 多挑关系：构建多跳关系，使图谱能够表达复杂的知识结构
扩展数据广度
1. 跨领域数据集成
2. 多语言支持
图谱更新和维护
利用机械学习和深度学习等高级技术和工具