帮我写一个nodejs中使用sanitize-html过滤所有文章内容中html标签并截取传参长度(如:1/3, .5, "80%")的例子

时间: 2025-08-11 15:11:29 AIGC 浏览: 32
<think>我们使用sanitize-html库来过滤HTML标签,然后根据参数截取指定长度的纯文本内容。 步骤: 1. 安装sanitize-html库:`npm install sanitize-html` 2. 引入sanitize-html 3. 编写函数,该函数接受两个参数:html内容字符串和需要截取的长度(可选,如果不提供则返回全部) 4. 使用sanitize-html过滤HTML标签,得到纯文本(同时可以设置一些选项,比如允许某些标签等,但这里我们只需要纯文本) 5. 截取指定长度的字符串(注意:截取时避免截断单词,可以按单词截取,但题目没有特别要求,我们可以先简单截取,然后考虑中文和英文的差异,但题目没有要求,所以按字符截取) 6. 如果截取后不是完整句子,可以加上省略号(可选) 注意:由于sanitize-html会去除所有标签,所以我们得到的纯文本可能包含多个连续空格(因为原来标签之间的空格被保留),我们可以用正则表达式将多个空格替换成一个空格。 但是,根据需求,我们只需要截取指定长度的内容,所以我们可以先过滤,然后处理空格,再截取。 示例代码: 我们将编写一个函数,名为`getExcerpt`,它有两个参数:`html`和`maxLength`(可选,默认值为200)。 具体步骤: 1. 使用sanitize-html去除所有HTML标签,只保留文本内容(不保留任何标签,包括换行符等,所以连续空格会被保留)。 2. 将多个连续空格(包括换行符等)替换成一个空格。 3. 如果指定了`maxLength`,则截取前`maxLength`个字符,如果截断的位置不是一个完整的句子(这里我们简单处理,如果截断在最后一个单词中间,我们不处理,或者可以加上省略号)。 4. 返回处理后的字符串。 但是,如果用户传入的maxLength大于文本长度,则不需要截取。 另外,我们还可以考虑在截取后加上省略号(如果被截断的话)。我们可以判断截取后的字符串长度是否小于原文本长度,如果是,则加上省略号。 注意:省略号占3个字符,所以我们在截取时,如果加上省略号,那么实际截取的长度应该是maxLength-3,然后再加上省略号。但这样可能会导致实际长度超过maxLength(因为截取位置可能在一个字符的中间,比如中文字符)。所以我们先按maxLength截取,然后如果原文本长度大于maxLength,我们再在末尾加上省略号(此时总长度会超过maxLength,但通常可以接受,或者我们截取时预留位置)。 另一种做法:先截取maxLength-3个字符,然后加上省略号,这样总长度不超过maxLength。但是,如果文本长度小于maxLength,则不加省略号。 我们选择第二种做法。 代码示例: 注意:sanitize-html的用法: const sanitizeHtml = require('sanitize-html'); const cleanText = sanitizeHtml(html, { allowedTags: [], // 不允许任何标签 allowedAttributes: {}, // 不允许任何属性 // 其他选项:比如是否保留换行符?默认情况下,sanitize-html会将换行符转换为空格,所以会出现连续空格 }); 然后,我们用正则将连续多个空格替换成一个空格: cleanText.replace(/\s+/g, ' ').trim(); 然后进行截取。 但是,我们也要注意,如果html是空字符串,或者过滤后是空字符串,直接返回空字符串。 编写函数如下:</think>以下是使用 `sanitize-html` 库过滤 HTML 标签并截取内容长度的完整 Node.js 实现: ### 1. 安装依赖 ```bash npm install sanitize-html ``` ### 2. 创建辅助函数 (utils/htmlSanitizer.js) ```javascript // utils/htmlSanitizer.js const sanitizeHtml = require('sanitize-html'); /** * 过滤HTML标签并截取指定长度 * @param {string} html - 原始HTML内容 * @param {number} maxLength - 最大截取长度(可选) * @param {boolean} addEllipsis - 是否添加省略号(可选) * @returns {string} 处理后的纯文本 */ module.exports = function sanitizeAndTruncate(html, maxLength = 0, addEllipsis = true) { // 1. 过滤HTML标签 const cleanText = sanitizeHtml(html, { allowedTags: [], // 禁止所有HTML标签 allowedAttributes: {}, // 禁止所有属性 disallowedTagsMode: 'discard', // 直接丢弃禁用标签 textFilter: (text) => { // 替换连续空白字符为单个空格 return text.replace(/\s+/g, ' '); } }); // 2. 截取指定长度 if (maxLength > 0 && cleanText.length > maxLength) { const truncated = cleanText.substring(0, maxLength); // 查找最后一个空格位置避免截断单词 const lastSpaceIndex = truncated.lastIndexOf(' '); const finalText = lastSpaceIndex > 0 ? truncated.substring(0, lastSpaceIndex) : truncated; return addEllipsis ? finalText + '...' : finalText; } return cleanText; }; ``` ### 3. 在 Express 中使用 ```javascript // app.js const express = require('express'); const sanitizer = require('./utils/htmlSanitizer'); const app = express(); app.use(express.json()); // 示例路由 app.post('/api/content', (req, res) => { const { htmlContent } = req.body; // 使用辅助函数 (截取前200字符) const safeExcerpt = sanitizer(htmlContent, 200); res.json({ originalLength: htmlContent.length, sanitizedLength: safeExcerpt.length, excerpt: safeExcerpt }); }); app.listen(3000, () => { console.log('Server running on port 3000'); }); ``` ### 4. 测试用例 ```javascript // test/sanitizer.test.js const assert = require('assert'); const sanitizer = require('../utils/htmlSanitizer'); // 测试HTML过滤 assert.strictEqual( sanitizer('<script>alleet("xss")</script><p>安全内容</p>'), '安全内容' ); // 测试截断功能 const longText = '这是一段超过二十个字符长度的测试文本需要被截断'; assert.strictEqual( sanitizer(longText, 20), '这是一段超过二十个...' ); // 测试单词边界处理 assert.strictEqual( sanitizer('Hello world this is a test', 15), 'Hello world...' ); console.log('所有测试通过!'); ``` ### 5. 使用示例 ```javascript // 输入HTML内容 const htmlContent = ` <div class="article"> <h1>标题</h1> <p>这是一段包含<b>加粗文本</b>和<a href="#">链接</a>的内容。</p> <script>恶意代码</script> </div> `; // 处理结果 const result = sanitizer(htmlContent, 30); console.log(result); // 输出: "标题 这是一段包含加粗文本和链接的内容。" ``` ### 关键功能说明: 1. **HTML 过滤** 使用 `sanitize-html` 完全移除所有 HTML 标签和属性,防止 XSS 攻击[^1] 2. **智能截断** - 自动处理单词边界(避免截断单词) - 保留最后一个完整单词 - 可选省略号指示截断 3. **空白处理** 使用正则表达式 `/\s+/g` 压缩连续空白字符 4. **安全默认值** - 默认禁用所有 HTML 标签 - 默认启用截断省略号 - 空输入安全处理 ### 应用场景: 1. 博客文章摘要生成 2. 用户评论内容过滤 3. 富文本编辑器内容预览 4. 新闻列表项展示 5. 搜索结果片段显示 ### 相关问题: 1. 如何在保留某些安全标签(如 `<b>`、`<i>`)的情况下过滤 HTML? 2. 如何实现多语言文本的智能截断(如中文、阿拉伯文)? 3. 如何防止 sanitize-html 过滤掉 SVG 图标? 4. 怎样优化大文本处理的性能? 5. 如何结合自然语言处理技术实现语义化摘要? > 引用参考:sanitize-html 官方文档[^1] 和 Web 内容安全处理的最佳实践[^2]
阅读全文

相关推荐

大家在看

recommend-type

密码::unlocked::sparkles::locked:创新,方便,安全的加密应用程序

隐身者 创新,方便,安全的加密应用程序。 加密无限位。 只记得一点。 Crypter是一款跨平台的加密应用程序,它使加密和解密变得很方便,同时仍然保持强大的安全性。 它解决了当今大多数安全系统中最弱的链接之一-弱密码。 它简化了安全密码的生成和管理,并且只需要记住一个位-MasterPass。 是一个加密应用程序,可以解密和加密包括文件和文件夹在内的任意数据。 该版本已发布,并针对macOS(OSX),Linux(适用于所有通过发行的发行版)和Windows(32和64位)进行了全面测试。 所有核心模块(提供核心功能的模块)都经过了全面测试。 会将MasterPass保存在操作系统的钥匙串中,因此您不必在每次打开应用程序时都输入它。 为了帮助加快开发速度,请发送PR剩下的内容做 如果您有任何建议,请打开一个问题,并通过PR进行改进! 还要签出 ( )一个分散的端到端加密消息传递应用程序。 链接到此自述文件: : 内容 安装 适用于所有主要平台的所有预构建二进制文件都可以在。 Crypter也适用于macOS的 。 因此,要安装它,只需在终端中运行以下命令:
recommend-type

基于强化学习的坦克大战python语言实现

该游戏有两个系统。一个是玩家控制的小车。还有一个AI控制的坦克可以自动探寻敌方坦克所在位置,进行攻击。 运行run_examples.py文件,可以实现坦克战斗界面,其中: machine_control() # human_control() 两个函数进行选择性注释,第一个为增强学习后的坦克大战。第二个函数 human_control()为认为操作进行坦克大战。 run_RF.py函数实现了增强学习模型训练过程。 坦克大战功能: 人工操作坦克控制功能 使用pygame库之后,可以检测玩家的控制,当玩家按下按键后,就可以映射到我方坦克上,从而进行操控。基本操作是: w——前进 s——后退 a——向左前进 d——向右前进 空格——发射导弹 Tensorflow(神经网络编程框架) 2.12 Keras(高级神经网络框架) 2.3.4
recommend-type

matlab自相关代码-Ecology-Discovery-via-Symbolic-Regression:通过符号回归揭示复杂生态动力学的代

matlab自相关代码通过符号回归进行生态发现 通过符号回归揭示复杂生态动力学的代码回购 陈以泽,Marco Tulio Angulo和Liu Yang-Yu 被BioEssays接受,2019(作为封面故事),第41卷,第12期 动机 了解复杂生态系统的动态是维持和控制它们的必要步骤。 然而,逆向工程生态系统动力学仍然具有挑战性,这主要是因为生态系统可能会采用非常广泛的动力学类别,这使得选择合适的模型结构来应用参数推论方法具有挑战性。 在这里,我们建议通过符号回归来缩小这种差距,这是一种机器学习方法,可以从时间数据中自动对模型结构和参数进行逆向工程。 关于发现的生态动力学的一些结果 在这里,我们显示了一些生成的样本以及样本的自相关 语言和依存关系 我们使用Matlab来实现该算法。 具体来说,我们使用开源Matlab包在符号回归算法中启用了多基因搜索。
recommend-type

CUDA编程学习(六份pdf)

之前一段时间迷上了用VsCode的markdown插件写笔记,就没怎么在csdn上写,全部生成pdf了,今天给传上去
recommend-type

IAU_SOFA_LIB

IAU子程序集 用于时间 岁差 章动 极移 等计算

最新推荐

recommend-type

使用nodeJS中的fs模块对文件及目录进行读写,删除,追加,等操作详解

在Node.js中,fs(file system)模块是用于进行文件和目录操作的核心模块。这个模块提供了丰富的API,允许开发者执行诸如读取、写入、删除、追加等操作。下面我们将详细探讨fs模块的使用方法。 首先,导入fs模块...
recommend-type

Nodejs抓取html页面内容(推荐)

本篇文章将深入探讨如何使用Node.js实现这一功能,包括两种不同的方法,并结合示例代码进行详细解释。 首先,我们需要了解Node.js的内置模块`http`,它允许我们发送HTTP请求。此外,如果要处理非UTF-8编码的网页,...
recommend-type

nodejs 简单实现动态html的方法

以下是一个简单的登录页面示例,展示了如何处理POST请求并动态生成HTML。 ```javascript var http = require('http'); var formidable = require('formidable'); var fs = require('fs'); var querystring = ...
recommend-type

大模型驱动的财务决策支持系统:架构设计与实证研究.docx

大模型驱动的财务决策支持系统:架构设计与实证研究.docx
recommend-type

P6快速部署自己的yolov509c++-tensorrt部署-linux

【P6】快速部署自己的yolov509c++-tensorrt部署_linux
recommend-type

基于Arduino的智能4x4键盘门锁系统设计与实现

在这个项目中,我们将构建一个基于Arduino UNO的无钥匙门锁系统,该系统将使用一个4x4键盘来输入密钥,并控制一个伺服电机以开启或关闭门锁。以下是对该项目中所使用到的关键技术点的详细解释: ### Arduino UNO和Genuino UNO Arduino UNO和Genuino UNO是开源电子原型平台,基于易于使用的硬件和软件。它们使用ATmega328P微控制器,并拥有众多扩展板和模块兼容,这使得它们在创建各种项目,包括无钥匙门锁系统时,成为非常流行的选项。 ### 4x4键盘输入 4x4键盘由4行4列共16个按键组成,常用的输入方式包括矩阵键盘扫描。在无钥匙门锁系统中,4x4键盘用于输入密码。每个按键按下时,都会产生一个唯一的信号,系统会根据这些信号来确定输入的密码。使用矩阵键盘扫描技术,Arduino可以通过少数几个引脚来检测每个按键的动作,这大大简化了硬件连接。 ### 伺服电机 伺服电机(Tower Pro MG996R)是该项目中的执行器,用于控制门锁的开关。伺服电机可以精确地控制角度,非常适合用来驱动门锁机械部分进行旋转操作。通过编程,Arduino可以向伺服电机发送脉冲信号,从而控制其转动到指定的位置,比如90度用于解锁,0度用于上锁。 ### 跳线和面包板 为了简化电路连接,跳线(通用)和面包板(通用)被用作临时的原型搭建工具。跳线允许模块间进行快速且可重配置的连接,而面包板则提供了一个方便的平台来组建电路,不需要焊接。 ### LED指示灯和蜂鸣器 5毫米LED灯(红色和黄色)以及蜂鸣器都是用于提供用户反馈的组件。红色LED可以指示门锁已锁定,而黄色LED可以指示门锁已被解锁。蜂鸣器用于当输入错误的密码时发出警报声,提示用户输入不正确。 ### Adafruit标准LCD Adafruit标准LCD - 16x2白色蓝色用于显示系统的状态信息,比如“输入密码”、“门已开”或“门已锁”等提示。16x2的LCD表示它有16个字符宽度和2行字符高度,非常适合显示简短的文本信息。 ### Blynk软件应用程序 Blynk是一个为物联网项目设计的手机应用,可以通过Wi-Fi或蓝牙连接到Arduino等微控制器。在这个项目中,Blynk可以用来远程控制门锁,允许用户通过手机应用程序来输入密码解锁门锁。 ### 安全性和加密 这个项目特别提到了安全性的问题,因此在设计上需要考虑密码的加密和存储。为了避免密码被轻易破解,应该使用一种加密算法来保护存储在系统中的密码。同时,还应考虑如何安全地传输密码,尤其是如果使用Blynk这样的远程控制方法。 ### 电路方案和编程 构建这样一个系统需要对Arduino进行编程,以便它可以读取4x4键盘输入的密码,并通过编程逻辑控制伺服电机。编程时,需要编写代码以实现以下功能: 1. 初始化所有硬件组件,包括键盘、LED灯、蜂鸣器和LCD显示屏。 2. 设置键盘扫描程序,以检测按键输入。 3. 检查输入的密码是否正确,通过与存储在代码中的正确密码进行比较。 4. 控制伺服电机解锁或上锁门锁。 5. 使用LED灯和蜂鸣器提供适当的用户反馈。 6. 如果使用Blynk,则需要编写与Blynk服务器通信的代码,以及处理远程输入的密码。 ### 项目文件说明 - `source_code.c`:包含Arduino项目的源代码,用于编程和控制整个系统。 - `FpB_saOmaPgP-e187qEVsYgrz8Qy.png`:可能是项目的原理图或演示图,用于展示电路连接和布局。 - `项目展示.rar`:一个压缩文件,可能包含项目相关的视频、图像或其他演示文件,用于展示项目的实际运行效果。 - `原文地址.txt`:包含指向项目详细说明、教程或发布源的链接,方便用户查看更多项目细节或下载资源。 这个项目结合了多种技术,从物理输入设备的控制到系统软件逻辑编程,再到用户界面的设计,是物联网和嵌入式系统学习的一个很好的实例。通过实施这个项目,可以加深对Arduino平台、外围硬件组件以及简单安全系统的理解。
recommend-type

深入探索TypeScript类型验证与状态管理

### 深入探索 TypeScript 类型验证与状态管理 #### 1. Redux 与 React 组件中的状态管理 在 React 应用中,Redux 是管理状态的强大工具。`useSelector` 是 Redux 提供的一个钩子,它接收两个 TypeScript 泛型参数:整个状态的类型和返回值的类型。通过使用 `useSelector`,我们可以将组件所需的数据限制在必要范围内。例如: ```typescript const state = useSelector<VenueState, VenueState>((state) => state) ``` 这里,直接返回了整个状态
recommend-type

trace切片怎么对齐

由于提供的引用内容未涉及trace切片对齐的方法相关信息,以下是一般情况下trace切片对齐的常见方法: ### 时间戳对齐 确定一个共同的时间基准,将不同trace切片的时间戳映射到该基准上。可以通过找到所有trace切片中最早的时间戳作为起始点,然后将其他时间戳减去这个起始时间,从而实现相对时间的对齐。 ```python import pandas as pd # 假设有两个trace切片,每个切片是一个包含时间戳和事件的DataFrame trace1 = pd.DataFrame({ 'timestamp': [100, 110, 120], 'event': [
recommend-type

Flink与Kafka实时数据充实流测试指南

根据给定的文件信息,我们将详细讨论以下知识点: 1. Apache Flink和Kafka在实时数据处理中的应用: Apache Flink是一个开源的流处理框架,用于在高吞吐量下进行有状态的计算。它特别适合实时数据处理场景,能够快速地处理无边界和有边界的数据流。Kafka是一个分布式流处理平台,主要用于构建实时数据管道和流应用程序。Flink与Kafka结合使用时,可以实现高效且可靠的数据摄入与处理流程,从而完成复杂的实时数据转换和分析任务。 2. 实时数据充实(Data Enrichment)概念: 数据充实是数据工程中的一个常见概念,指的是通过添加额外信息来增强数据的过程。在实时数据流处理中,数据充实通常用于为原始数据添加元数据、上下文信息或其他相关数据,以便对数据进行更全面的分析。例如,在零售行业中,通过实时数据充实,可以将销售数据与库存数据、价格信息等进行关联,从而获取更有价值的业务洞察。 3. 实践操作的先决条件和环境配置: - 在安装Flink之前,应确保系统满足最低硬件要求,即至少4GB可用内存。这是因为实时数据处理和流计算可能会占用较多计算资源,特别是内存资源。 - 存储库中包含的脚本和命令应在Linux或OS X操作系统上执行,这说明了Flink环境对操作系统有一定的要求,以确保最佳的运行效率和兼容性。 - 执行存储库中的脚本前需要确保脚本文件权限正确,即文件应设置为可执行(chmod +x ./start.sh)。这是基本的Linux系统操作,确保脚本文件具有正确的权限,以便能够被系统执行。 4. 本地环境的搭建与运行: - 提供了一个名为“start.sh”的脚本,用于本地环境的搭建和运行。执行此脚本后,需要在浏览器中输入指定的地址(http://localhost:8080和http://localhost:8081),以访问运行中的Flink和Kafka界面。这表明了如何在本地机器上快速搭建和启动一个实时数据处理和展示平台。 - Flink和Kafka的界面地址用于在研讨会期间展示相关数据处理结果,说明了如何利用这些工具的可视化特性来更好地理解和分析数据流处理过程。 5. 内容的表达方式和格式: - 该存储库中的内容主要通过名为“flink-kafka-workshop1”的笔记本进行表达。笔记本格式为一种方便记录和展示数据处理过程的方式,它通常包含一系列的代码、命令和注释,以便开发者更好地理解每一步的操作和结果。 - 笔记本的格式方便进行编码练习和知识分享,它使得实时数据处理的步骤和过程可视化,并且可以作为教学材料和学习资源。 6. Dockerfile的使用: 虽然给定文件中没有直接提及Dockerfile的内容,但根据标签可以推断,该存储库或相关环境可能涉及使用Docker容器技术。Dockerfile用于编写指令集,以自动化构建Docker镜像的过程。它通常包含了操作系统环境配置、依赖安装、服务部署等步骤,用于创建一个可以运行Flink和Kafka等应用程序的轻量级、可移植的容器环境。这说明了如何利用现代的容器化技术来简化大数据应用的部署和分发。 综上所述,该存储库涉及的知识点广泛,包括了实时数据处理、数据丰富、系统环境配置、本地运行环境搭建以及Docker容器技术的应用。通过实践操作,学习者可以深入理解Flink和Kafka在实时数据处理场景下的工作原理和应用方法。
recommend-type

前端应用中异步数据处理与获取的实践指南

### 前端应用中异步数据处理与获取的实践指南 在现代前端开发中,异步数据处理和获取是常见的需求。本文将介绍如何使用 JavaScript 的 `async/await` 语法简化异步操作,以及如何在 Stimulus 和 React 应用中实现数据的获取和更新。 #### 1. 异步操作与 `async/await` 在 JavaScript 中,处理多个异步操作时,传统的 `then` 链式调用可能会使代码变得复杂。例如: ```javascript updateData() { fetch("/sold_out_concerts").then((response) => {