如何直接从剪贴板加载文本到Document对象-CSDN博客

本文链接：https://blog.csdn.net/eahba/article/details/146451050

在技术开发中，有时候我们需要快速处理从别处复制粘贴的文本数据。在这种情况下，我们不必通过DocumentLoader来加载文档，而是可以直接构造一个Document对象。今天，我们将介绍如何使用Python语言直接将复制粘贴的文本加载到Document对象中，并添加相关的元数据信息。

技术背景介绍

在应用开发中，处理各种格式和来源的文档数据是很常见的任务。LangChain库提供了一个名为Document的类，可以将原始文本包装到一个文档对象中，便于后续的自然语言处理（NLP）操作。

核心原理解析

直接构造Document对象主要依赖于LangChain库中的Document类。通过传递文本数据和元数据，我们可以快速生成一个可以用于分析的文档对象。

代码实现演示

以下代码展示了如何使用LangChain的Document类来加载直接从剪贴板复制的文本：

from langchain_core.documents import Document

# 复制粘贴的文本
text = "这是一段从某个网页上复制下来的文本。"

# 构造文档对象
doc = Document(page_content=text)

# 添加元数据以记录信息来源
metadata = {"source": "internet", "date": "Friday"}
doc_with_metadata = Document(page_content=text, metadata=metadata)

# 打印文档对象
print(doc)
print(doc_with_metadata)