01.固定大小分块
固定大小的分块将文档拆分为预定义大小的块,通常按字数、标记数或字符数。
当您需要一种简单明了的方法并且文档结构并不重要时。它在处理较小、不太复杂的文档时效果很好。
优势:
- 易于实施。
- 一致的块大小。
- 快速计算。
弊:
- 可能会断开句子或段落,从而丢失上下文。
- 对于保持含义很重要的文档来说,这并不理想。
02.基于句子分块
此方法根据自然句子边界对文本进行分块。每个块都包含一定数量的句子,保留语义单元。保持连贯的思想是至关重要的,在句子中间拆分会导致失去意义。
优势:
- 保留句子级别的含义。
- 更好的上下文保留。
弊:
- 块大小不均匀,因为句子的长度不同。
- 当句子太长时,可能会超过模型中的标记限制。
import spacynlp = spacy.load("en_core_web_sm") def sentence_chunk(text): doc = nlp(text) return [sent.text for sent in doc.sents] # Applying Sentence-Based Chunkingsentence_chunks = sentence_chunk(sample_text)for chunk in sentence_chunks: print(chunk, '\n---\n')
03.基于段落分块
此策略根据段落边界拆分文本,将每个段落视为一个块。最适合结构化文档,如报告或论文,其中每个段落都包含一个完整的想法或论点。
优势:
- 自然文档分割。
- 在段落中保留较大的上下文。
弊:
- 段落长度不同,导致块大小不均匀。
- 长段落可能仍会超出标记限制。
def paragraph_chunk(text): paragraphs = text.split('\n\n') return paragraphs # Applying Paragraph-Based Chunkingparagraph_chunks = paragraph_chunk(sample_text)for chunk in paragraph_chunks: print(chunk, '\n---\n')
04.基于语义的分块
此方法使用机器学习模型(如 transformers)根据语义含义将文本拆分为块。当保留最高级别的上下文至关重要时,例如在复杂的技术文档中。
优势:
- 具有上下文意义的块。
- 捕获句子之间的语义关系。
弊:
- 需要高级 NLP 模型,这些模型在计算上非常昂贵。
- 实现起来更复杂
def semantic_chunk(text, max_len=200): doc = nlp(text) chunks = [] current_chunk = [] for sent in doc.sents: current_chunk.append(sent.text) if len(' '.join(current_chunk)) > max_len: chunks.append(' '.join(current_chunk)) current_chunk = [] if current_chunk: chunks.append(' '.join(current_chunk)) return chunks # Applying Semantic-Based Chunkingsemantic_chunks = semantic_chunk(sample_text)for chunk in semantic_chunks: print(chunk, '\n---\n')
05.基于多模态的分块
此策略分别处理不同的内容类型(文本、图像、表格)。每种模态都根据其特征独立分块。适用于包含各种内容类型的文档,如 PDF 或具有混合媒体的技术手册。
优势:
- 专为混合媒体文档量身定制。
- 允许对不同模态进行自定义处理。
弊:
- 实施和管理复杂。
- 每种模式需要不同的处理逻辑。
def modality_chunk(text, images=None, tables=None): # This function assumes you have pre-processed text, images, and tables text_chunks = paragraph_chunk(text) return {'text_chunks': text_chunks, 'images': images, 'tables': tables} # Applying Modality-Specific Chunkingmodality_chunks = modality_chunk(sample_text, images=['img1.png'], tables=['table1'])print(modality_chunks)
06.滑动窗口分块
滑动窗口分块会创建重叠的数据块,从而允许每个数据块与下一个数据块共享其部分内容。当您需要确保块之间上下文的连续性时,例如在法律或学术文档中。
优势:
- 跨数据块保留上下文。
- 减少数据块边界处的信息丢失。
弊:
- 可能会通过在多个块中重复内容来引入冗余。
- 需要更多处理。
def sliding_window_chunk(text, chunk_size=100, overlap=20): tokens = text.split() chunks = [] for i in range(0, len(tokens), chunk_size - overlap): chunk = ' '.join(tokens[i:i + chunk_size]) chunks.append(chunk) return chunks # Applying Sliding Window Chunkingsliding_chunks = sliding_window_chunk(sample_text)for chunk in sliding_chunks: print(chunk, '\n---\n')
07.分层分块
分层分块在多个级别划分文档,例如部分、小节和段落。对于高度结构化的文档,如学术论文或法律文本,维护层次结构是必不可少的。
优势:
- 保留文档结构。
- 在多个粒度级别维护上下文。
弊:
- 实现起来更复杂。
- 可能导致块状不均匀。
def hierarchical_chunk(text, section_keywords): sections = [] current_section = [] for line in text.splitlines(): if any(keyword in line for keyword in section_keywords): if current_section: sections.append("\n".join(current_section)) current_section = [line] else: current_section.append(line) if current_section: sections.append("\n".join(current_section)) return sections # Applying Hierarchical Chunkingsection_keywords = ["Introduction", "Overview", "Methods", "Conclusion"]hierarchical_chunks = hierarchical_chunk(sample_text, section_keywords)for chunk in hierarchical_chunks: print(chunk, '\n---\n')
08.内容感知分块
此方法根据内容特征(例如,在段落级别对文本进行分块,将表格作为单独的实体)进行调整。对于内容异构的文档,例如电子书或技术手册,分块必须根据内容类型而变化。
优势:
- 灵活且可适应不同的内容类型。
- 保持多种格式的文档完整性。
弊:
- 需要复杂的动态分块逻辑。
- 对于内容结构多样的文档,难以实现。
def content_aware_chunk(text): chunks = [] current_chunk = [] for line in text.splitlines(): if line.startswith(('##', '###', 'Introduction', 'Conclusion')): if current_chunk: chunks.append('\n'.join(current_chunk)) current_chunk = [line] else: current_chunk.append(line) if current_chunk: chunks.append('\n'.join(current_chunk)) return chunks # Applying Content-Aware Chunkingcontent_chunks = content_aware_chunk(sample_text)for chunk in content_chunks: print(chunk, '\n---\n')
09.表感知分块
此策略通过将文档表提取为独立的块并将其转换为 markdown 或 JSON 等格式以便于处理来专门处理文档表。对于包含表格数据的文档,例如财务报告或技术文档,其中的表格包含重要信息。
优势:
- 保留表结构以进行高效的下游处理。
- 允许独立处理表格数据。
弊:
- 在转换过程中,格式可能会丢失。
- 需要对具有复杂结构的表进行特殊处理。
import pandas as pd def table_aware_chunk(table): return table.to_markdown() # Sample table datatable = pd.DataFrame({ "Name": ["John", "Alice", "Bob"], "Age": [25, 30, 22], "Occupation": ["Engineer", "Doctor", "Artist"]}) # Applying Table-Aware Chunkingtable_markdown = table_aware_chunk(table)print(table_markdown)
10.基于令牌分块
基于标记的分块根据固定数量的标记而不是单词或句子来拆分文本。它使用来自 NLP 模型的分词器。对于对 Token 进行作的模型,例如具有 Token 限制的基于 transformer 的模型(例如 GPT-3 或 GPT-4)。
优势:
- 适用于基于 transformer 的模型。
- 确保遵守令牌限制。
弊:
- 分词可能会拆分句子或破坏上下文。
- 并不总是与自然语言边界保持一致。
from transformers import GPT2Tokenizer tokenizer = GPT2Tokenizer.from_pretrained("gpt2") def token_based_chunk(text, max_tokens=200): tokens = tokenizer(text)["input_ids"] chunks = [tokens[i:i + max_tokens] for i in range(0, len(tokens), max_tokens)] return [tokenizer.decode(chunk) for chunk in chunks] # Applying Token-Based Chunkingtoken_chunks = token_based_chunk(sample_text)for chunk in token_chunks: print(chunk, '\n---\n')
11.基于实体分块
基于实体的分块利用命名实体识别 (NER) 根据识别的实体(如人员、组织或位置)将文本分成多个块。对于特定实体必须作为上下文单元进行维护的文档,例如简历、合同或法律文档。
优势:
- 保持命名实体不变。
- 可以通过关注相关实体来提高检索准确性。
弊:
- 需要经过训练的 NER 模型。
- 实体可能会重叠,从而导致复杂的块边界。
def entity_based_chunk(text): doc = nlp(text) entities = [ent.text for ent in doc.ents] return entities # Applying Entity-Based Chunkingentity_chunks = entity_based_chunk(sample_text)print(entity_chunks)
12.基于主题分块
用于涵盖多个主题的文档,例如新闻文章、研究论文或具有不同主题的报告。
优势:
- 将相关信息分组在一起。
- 有助于根据特定主题进行重点检索。
弊:
- 需要额外的处理 (主题建模)。
- 对于简短的文档或重叠的主题,可能并不精确。
13.基于页面分块
根据页面边界拆分文档,页面边界通常用于 PDF 或格式化文档,其中每个页面都被视为一个块。对于页面边界具有语义重要性的页面文档,如 PDF 或可打印报表。
优势:
- 易于使用 PDF 文档实现。
- 遵守页面边界。
弊:
- 页面可能与自然文本分隔符不对应。
- 页面之间的上下文可能会丢失。
def page_based_chunk(pages): # Split based on pre-processed page list (simulating PDF page text) return pages # Sample pagespages = ["Page 1 content", "Page 2 content", "Page 3 content"] # Applying Page-Based Chunkingpage_chunks = page_based_chunk(pages)for chunk in page_chunks: print(chunk, '\n---\n')
14.基于关键字分块
此方法根据表示主题转移的预定义关键字或短语(例如,“Introduction”、“Conclusion”)对文档进行分块。适合遵循清晰结构的文档,例如科学论文或技术规范。
优势:
- 根据关键字捕获自然的主题分隔符。
- 适用于结构化文档。
弊:
- 需要一组预定义的关键字。
- 不适应非结构化文本。
def keyword_based_chunk(text, keywords): chunks = [] current_chunk = [] for line in text.splitlines(): if any(keyword in line for keyword in keywords): if current_chunk: chunks.append('\n'.join(current_chunk)) current_chunk = [line] else: current_chunk.append(line) if current_chunk: chunks.append('\n'.join(current_chunk)) return chunks # Applying Keyword-Based Chunkingkeywords = ["Introduction", "Overview", "Conclusion", "Methods", "Challenges"]keyword_chunks = keyword_based_chunk(sample_text, keywords)for chunk in keyword_chunks: print(chunk, '\n---\n')
15.混合分块
根据内容类型和文档结构组合了多个分块策略。例如,文本可以按句子分块,而表格和图像是分开处理的。用于包含各种内容类型的复杂文档,如技术报告、业务文档或产品手册。
优势:
- 高度适应各种文档结构。
- 允许对不同的内容类型进行精细控制。
弊:
- 实现起来更复杂。
- 需要自定义逻辑来处理每种内容类型。
defhybrid_chunk(text): paragraphs = paragraph_chunk(text) hybrid_chunks = [] forparagraphin paragraphs: hybrid_chunks += sentence_chunk(paragraph) return hybrid_chunks # Applying Hybrid Chunkinghybrid_chunks = hybrid_chunk(sample_text)forchunkin hybrid_chunks: print(chunk, '\n---\n')
在构建检索增强生成 (RAG) 时,针对特定用例和文档类型优化分块至关重要。不同的场景根据文档大小、内容多样性和检索速度有不同的要求。让我们根据这些因素探讨一些优化策略。
选择正确的分块策略取决于多个因素,包括文档类型、上下文保留的需求以及检索速度和准确性之间的平衡。无论您是处理学术论文、法律文档还是混合内容文件,选择合适的方法都可以显著提高 RAG 的有效性。通过迭代和优化分块方法,您可以适应不断变化的文档类型和用户需求,确保您的检索系统保持稳健和高效。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。