RAG15种分块策略进行汇总介绍

01.固定大小分块

固定大小的分块将文档拆分为预定义大小的块,通常按字数、标记数或字符数。

当您需要一种简单明了的方法并且文档结构并不重要时。它在处理较小、不太复杂的文档时效果很好。

优势:

  • 易于实施。
  • 一致的块大小。
  • 快速计算。

弊:

  • 可能会断开句子或段落,从而丢失上下文。
  • 对于保持含义很重要的文档来说,这并不理想。

02.基于句子分块

此方法根据自然句子边界对文本进行分块。每个块都包含一定数量的句子,保留语义单元。保持连贯的思想是至关重要的,在句子中间拆分会导致失去意义。

优势:

  • 保留句子级别的含义。
  • 更好的上下文保留。

弊:

  • 块大小不均匀,因为句子的长度不同。
  • 当句子太长时,可能会超过模型中的标记限制。
import spacynlp = spacy.load("en_core_web_sm") def sentence_chunk(text):    doc = nlp(text)    return [sent.text for sent in doc.sents] # Applying Sentence-Based Chunkingsentence_chunks = sentence_chunk(sample_text)for chunk in sentence_chunks:    print(chunk, '\n---\n')

03.基于段落分块

此策略根据段落边界拆分文本,将每个段落视为一个块。最适合结构化文档,如报告或论文,其中每个段落都包含一个完整的想法或论点。

优势:

  • 自然文档分割。
  • 在段落中保留较大的上下文。

弊:

  • 段落长度不同,导致块大小不均匀。
  • 长段落可能仍会超出标记限制。
def paragraph_chunk(text):    paragraphs = text.split('\n\n')    return paragraphs # Applying Paragraph-Based Chunkingparagraph_chunks = paragraph_chunk(sample_text)for chunk in paragraph_chunks:    print(chunk, '\n---\n')

04.基于语义的分块

此方法使用机器学习模型(如 transformers)根据语义含义将文本拆分为块。当保留最高级别的上下文至关重要时,例如在复杂的技术文档中。

优势:

  • 具有上下文意义的块。
  • 捕获句子之间的语义关系。

弊:

  • 需要高级 NLP 模型,这些模型在计算上非常昂贵。
  • 实现起来更复杂
def semantic_chunk(text, max_len=200):    doc = nlp(text)    chunks = []    current_chunk = []    for sent in doc.sents:        current_chunk.append(sent.text)        if len(' '.join(current_chunk)) > max_len:            chunks.append(' '.join(current_chunk))            current_chunk = []    if current_chunk:        chunks.append(' '.join(current_chunk))    return chunks # Applying Semantic-Based Chunkingsemantic_chunks = semantic_chunk(sample_text)for chunk in semantic_chunks:    print(chunk, '\n---\n')

05.基于多模态的分块

此策略分别处理不同的内容类型(文本、图像、表格)。每种模态都根据其特征独立分块。适用于包含各种内容类型的文档,如 PDF 或具有混合媒体的技术手册。

优势:

  • 专为混合媒体文档量身定制。
  • 允许对不同模态进行自定义处理。

弊:

  • 实施和管理复杂。
  • 每种模式需要不同的处理逻辑。
def modality_chunk(text, images=None, tables=None):    # This function assumes you have pre-processed text, images, and tables    text_chunks = paragraph_chunk(text)    return {'text_chunks': text_chunks, 'images': images, 'tables': tables} # Applying Modality-Specific Chunkingmodality_chunks = modality_chunk(sample_text, images=['img1.png'], tables=['table1'])print(modality_chunks)

06.滑动窗口分块

滑动窗口分块会创建重叠的数据块,从而允许每个数据块与下一个数据块共享其部分内容。当您需要确保块之间上下文的连续性时,例如在法律或学术文档中。

优势:

  • 跨数据块保留上下文。
  • 减少数据块边界处的信息丢失。

弊:

  • 可能会通过在多个块中重复内容来引入冗余。
  • 需要更多处理。
def sliding_window_chunk(text, chunk_size=100, overlap=20):    tokens = text.split()    chunks = []    for i in range(0, len(tokens), chunk_size - overlap):        chunk = ' '.join(tokens[i:i + chunk_size])        chunks.append(chunk)    return chunks # Applying Sliding Window Chunkingsliding_chunks = sliding_window_chunk(sample_text)for chunk in sliding_chunks:    print(chunk, '\n---\n')

07.分层分块

分层分块在多个级别划分文档,例如部分、小节和段落。对于高度结构化的文档,如学术论文或法律文本,维护层次结构是必不可少的。

优势:

  • 保留文档结构。
  • 在多个粒度级别维护上下文。

弊:

  • 实现起来更复杂。
  • 可能导致块状不均匀。
def hierarchical_chunk(text, section_keywords):    sections = []    current_section = []    for line in text.splitlines():        if any(keyword in line for keyword in section_keywords):            if current_section:                sections.append("\n".join(current_section))            current_section = [line]        else:            current_section.append(line)    if current_section:        sections.append("\n".join(current_section))    return sections # Applying Hierarchical Chunkingsection_keywords = ["Introduction", "Overview", "Methods", "Conclusion"]hierarchical_chunks = hierarchical_chunk(sample_text, section_keywords)for chunk in hierarchical_chunks:    print(chunk, '\n---\n')

08.内容感知分块

此方法根据内容特征(例如,在段落级别对文本进行分块,将表格作为单独的实体)进行调整。对于内容异构的文档,例如电子书或技术手册,分块必须根据内容类型而变化。

优势:

  • 灵活且可适应不同的内容类型。
  • 保持多种格式的文档完整性。

弊:

  • 需要复杂的动态分块逻辑。
  • 对于内容结构多样的文档,难以实现。
def content_aware_chunk(text):    chunks = []    current_chunk = []    for line in text.splitlines():        if line.startswith(('##', '###', 'Introduction', 'Conclusion')):            if current_chunk:                chunks.append('\n'.join(current_chunk))            current_chunk = [line]        else:            current_chunk.append(line)    if current_chunk:        chunks.append('\n'.join(current_chunk))    return chunks # Applying Content-Aware Chunkingcontent_chunks = content_aware_chunk(sample_text)for chunk in content_chunks:    print(chunk, '\n---\n')

09.表感知分块

此策略通过将文档表提取为独立的块并将其转换为 markdown 或 JSON 等格式以便于处理来专门处理文档表。对于包含表格数据的文档,例如财务报告或技术文档,其中的表格包含重要信息。

优势:

  • 保留表结构以进行高效的下游处理。
  • 允许独立处理表格数据。

弊:

  • 在转换过程中,格式可能会丢失。
  • 需要对具有复杂结构的表进行特殊处理。
import pandas as pd def table_aware_chunk(table):    return table.to_markdown() # Sample table datatable = pd.DataFrame({    "Name": ["John", "Alice", "Bob"],    "Age": [25, 30, 22],    "Occupation": ["Engineer", "Doctor", "Artist"]}) # Applying Table-Aware Chunkingtable_markdown = table_aware_chunk(table)print(table_markdown)

10.基于令牌分块

基于标记的分块根据固定数量的标记而不是单词或句子来拆分文本。它使用来自 NLP 模型的分词器。对于对 Token 进行作的模型,例如具有 Token 限制的基于 transformer 的模型(例如 GPT-3 或 GPT-4)。

优势:

  • 适用于基于 transformer 的模型。
  • 确保遵守令牌限制。

弊:

  • 分词可能会拆分句子或破坏上下文。
  • 并不总是与自然语言边界保持一致。
from transformers import GPT2Tokenizer tokenizer = GPT2Tokenizer.from_pretrained("gpt2") def token_based_chunk(text, max_tokens=200):    tokens = tokenizer(text)["input_ids"]    chunks = [tokens[i:i + max_tokens] for i in range(0, len(tokens), max_tokens)]    return [tokenizer.decode(chunk) for chunk in chunks] # Applying Token-Based Chunkingtoken_chunks = token_based_chunk(sample_text)for chunk in token_chunks:    print(chunk, '\n---\n')

11.基于实体分块

基于实体的分块利用命名实体识别 (NER) 根据识别的实体(如人员、组织或位置)将文本分成多个块。对于特定实体必须作为上下文单元进行维护的文档,例如简历、合同或法律文档。

优势:

  • 保持命名实体不变。
  • 可以通过关注相关实体来提高检索准确性。

弊:

  • 需要经过训练的 NER 模型。
  • 实体可能会重叠,从而导致复杂的块边界。
def entity_based_chunk(text):    doc = nlp(text)    entities = [ent.text for ent in doc.ents]    return entities # Applying Entity-Based Chunkingentity_chunks = entity_based_chunk(sample_text)print(entity_chunks)

12.基于主题分块

用于涵盖多个主题的文档,例如新闻文章、研究论文或具有不同主题的报告。

优势:

  • 将相关信息分组在一起。
  • 有助于根据特定主题进行重点检索。

弊:

  • 需要额外的处理 (主题建模)。
  • 对于简短的文档或重叠的主题,可能并不精确。

13.基于页面分块

根据页面边界拆分文档,页面边界通常用于 PDF 或格式化文档,其中每个页面都被视为一个块。对于页面边界具有语义重要性的页面文档,如 PDF 或可打印报表。

优势:

  • 易于使用 PDF 文档实现。
  • 遵守页面边界。

弊:

  • 页面可能与自然文本分隔符不对应。
  • 页面之间的上下文可能会丢失。
def page_based_chunk(pages):    # Split based on pre-processed page list (simulating PDF page text)    return pages # Sample pagespages = ["Page 1 content", "Page 2 content", "Page 3 content"] # Applying Page-Based Chunkingpage_chunks = page_based_chunk(pages)for chunk in page_chunks:    print(chunk, '\n---\n')

14.基于关键字分块

此方法根据表示主题转移的预定义关键字或短语(例如,“Introduction”、“Conclusion”)对文档进行分块。适合遵循清晰结构的文档,例如科学论文或技术规范。

优势:

  • 根据关键字捕获自然的主题分隔符。
  • 适用于结构化文档。

弊:

  • 需要一组预定义的关键字。
  • 不适应非结构化文本。
def keyword_based_chunk(text, keywords):    chunks = []    current_chunk = []    for line in text.splitlines():        if any(keyword in line for keyword in keywords):            if current_chunk:                chunks.append('\n'.join(current_chunk))            current_chunk = [line]        else:            current_chunk.append(line)    if current_chunk:        chunks.append('\n'.join(current_chunk))    return chunks # Applying Keyword-Based Chunkingkeywords = ["Introduction", "Overview", "Conclusion", "Methods", "Challenges"]keyword_chunks = keyword_based_chunk(sample_text, keywords)for chunk in keyword_chunks:    print(chunk, '\n---\n')

15.混合分块

根据内容类型和文档结构组合了多个分块策略。例如,文本可以按句子分块,而表格和图像是分开处理的。用于包含各种内容类型的复杂文档,如技术报告、业务文档或产品手册。

优势:

  • 高度适应各种文档结构。
  • 允许对不同的内容类型进行精细控制。

弊:

  • 实现起来更复杂。
  • 需要自定义逻辑来处理每种内容类型。
defhybrid_chunk(text):    paragraphs = paragraph_chunk(text)    hybrid_chunks = []    forparagraphin paragraphs:        hybrid_chunks += sentence_chunk(paragraph)    return hybrid_chunks # Applying Hybrid Chunkinghybrid_chunks = hybrid_chunk(sample_text)forchunkin hybrid_chunks:    print(chunk, '\n---\n')

在构建检索增强生成 (RAG) 时,针对特定用例和文档类型优化分块至关重要。不同的场景根据文档大小、内容多样性和检索速度有不同的要求。让我们根据这些因素探讨一些优化策略。

选择正确的分块策略取决于多个因素,包括文档类型、上下文保留的需求以及检索速度和准确性之间的平衡。无论您是处理学术论文、法律文档还是混合内容文件,选择合适的方法都可以显著提高 RAG 的有效性。通过迭代和优化分块方法,您可以适应不断变化的文档类型和用户需求,确保您的检索系统保持稳健和高效。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

<think>嗯,用户问的是关于“需解析PDF手册中的表格/图示(上下文长度≥16k tokens)”的意思。我需要先理解这个问题的核心在哪里。用户可能在使用DeepSeek这样的AI生成代码时,遇到了处理长文档的问题,特别是PDF中的表格和图片,这需要模型具备处理长上下文的能力。 首先,我应该解释“上下文长度”是什么。上下文长度指的是AI模型在一次处理中可以接收的最大文本量,通常用token数量来衡量。比如,16k tokens大约相当于1.2万个汉字,这对处理技术文档来说很重要,尤其是像芯片手册这样的复杂文档。 接下来,用户提到的PDF手册中的表格和图示是关键。技术文档中的表格通常包含寄存器配置、引脚定义等重要信息,而图示可能展示模块结构或数据流。这些内容如果被转换成文本,会占据大量token。比如,一个复杂的寄存器表可能有几十行,每行多个字段,转换成文本后token数会很高。 然后,我需要说明为什么需要上下文长度≥16k tokens。技术手册的结构通常较长,比如TI的芯片手册可能有几百页。用户需要AI在生成代码时,能够参考手册中的多个部分,比如配置步骤、寄存器地址等,这就需要模型能够处理足够长的上下文,否则可能会遗漏关键信息,导致生成的代码不准确。 还要提到处理这些长上下文的技术挑战。比如,即使模型支持长上下文,处理效率和准确性也可能存在问题。可能需要使用RAG(检索增强生成)技术,将长文档分块处理,先检索相关部分再生成,这样可以减少一次性处理的token数量,同时保持准确性。 另外,用户可能关心实际应用中的例子。比如,当用户要求生成CAN通信驱动的代码时,模型需要同时查看寄存器映射表、时钟配置部分和中断设置等内容,这些分布在手册的不同章节,需要模型能够记住或检索到这些信息,长上下文能力就显得尤为重要。 还要注意用户可能的误区,比如认为只要模型支持长上下文就足够,但实际上还需要结合其他技术如向量数据库和检索策略,才能高效准确地处理复杂文档。同时,硬件资源也是一个考虑因素,处理长上下文需要更高的显存和计算能力,用户需要根据实际情况选择合适的配置。 最后,总结一下,解释清楚上下文长度的定义,其在处理技术文档中的必要性,以及实际应用中如何结合其他技术来优化处理效果。这样用户不仅能理解术语,还能明白实际应用中的挑战和解决方案。</think>在AI模型处理技术文档(如芯片手册)时,“**上下文长度≥16k tokens**”是一个关键技术指标,其含义和必要性如下: --- ### **一、核心概念解析** #### 1. **上下文长度(Context Length)** - **定义**:指AI模型单次处理的最大文本容量,以token(语义单元)为单位 - **换算关系**: - 英文:1 token ≈ 4字符(如`"CAN"=1 token`) - 中文:1 token ≈ 2汉字(如`"寄存器"=2 tokens`) - **16k tokens ≈ 12,000汉字 或 24,000英文字符** #### 2. **技术文档的特殊性** | 文档元素 | Token消耗示例 | 必要性 | |----------------|-----------------------------------|---------------------------| | **寄存器表格** | 一个8x10寄存器表≈500 tokens | 决定代码生成的硬件配置准确性 | | **时序图** | SVG转文字描述≈800 tokens | 影响中断服务程序逻辑 | | **配置流程图** | 带注释的流程图≈300 tokens | 确保初始化顺序正确 | --- ### **二、为何需要长上下文?** #### 1. **典型文档结构** 以**TI F28035数据手册**为例: ```plaintext 第5章 时钟系统(约2000 tokens) |- PLL配置公式 |- 时钟树框图(转文本描述) 第15章 eCAN模块(约3500 tokens) |- 寄存器映射表(16个32位寄存器) |- 波特率计算公式 |- FIFO配置流程图 ``` #### 2. **代码生成需求** 当用户请求生成**CAN初始化代码**时,模型需要同时参考: - **时钟配置**(确定CAN模块时钟源) - **引脚复用表**(选择GPIO24/25作为CAN引脚) - **eCAN寄存器定义**(设置验收滤波器和波特率) **若上下文不足**: 模型可能遗漏关键参数(如忽略GPIO复用控制寄存器),导致生成代码无法通过编译。 --- ### **三、16k上下文的技术挑战** #### 1. **长文本处理难点** | 问题类型 | 具体表现 | 解决方案 | |----------------|----------------------------------|--------------------------| | **注意力稀释** | 关键表格信息被淹没在长文本中 | 使用RAG检索增强 | | **位置编码衰减** | 模型对远端文本的记忆能力下降 | 采用RoPE等新型编码方案 | | **显存爆炸** | 16k tokens需要约24GB显存(FP16) | 使用FlashAttention优化 | #### 2. **实际处理流程** ```python # 文档预处理示例 def process_manual(pdf_path): # 提取表格并转换为Markdown格式 tables = extract_pdf_tables(pdf_path) # 每个表增加约200-500 tokens # 将图示转换为Alt文本 images = describe_figures(pdf_path) # 每个图增加约50-300 tokens # 组合文本 context = f"{tables}\n{images}\n{main_text}" return truncate_to_max_tokens(context, 16000) # 确保不超过模型限制 ``` --- ### **四、扩展应用场景** #### 1. **跨章节关联** 当用户提问涉及**多个模块协作**时: ```prompt "请生成ADC采样触发CAN发送的代码,要求: - ADC使用EPWM1触发 - CAN数据包含12位采样值" ``` 模型需要同时理解: - **EPWM模块**(第8章,约1500 tokens) - **ADC模块**(第11章,约2000 tokens) - **CAN中断**(第15章,约1800 tokens) #### 2. **数学公式解析** 手册中的**波特率计算公式**: $$ \text{BRP} = \frac{T_{\text{SYSCLK}} \times (T_{\text{SEG1}} + T_{\text{SEG2}} + 3)}{2 \times T_{\text{bit}}} - 1 $$ 需要模型将公式转换为代码中的预分频值计算。 --- ### **五、性能优化建议** 1. **文档预处理** - 对重复性表格(如寄存器汇总表)建立索引数据库 - 使用OCR+文本摘要技术压缩图示描述 2. **模型选择** - 优先选用支持**滑动窗口注意力**的模型(如DeepSeek-Coder) - 对固定结构内容(如寄存器表)采用**结构化prompt模板**: ``` [寄存器表开始] 地址 | 名称 | 位域描述 0x00 | CAN_CTL | [31:16]保留, [15:8]波特率预分频... [寄存器表结束] ``` 3. **硬件配置** - 使用**KV缓存压缩技术**,将16k上下文的显存需求从24GB降至18GB - 对高频查询内容(如GPIO复用表)建立内存缓存 --- 通过以上设计,长上下文处理能力确保了代码生成时能**准确捕获硬件细节**,避免因信息缺失导致的低级错误。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值