import pandas as pd import jieba import jieba.analyse import re class KeywordExtractor: def __init__(self, custom_dict_path=None, stopwords_path=None): """ 关键词提取器参数: - custom_dict_path: 自定义词典路径 - stopwords_path: 停用词路径 """ # 加载自定义词典以提高分词准确性自定义字典采用懒猫-苏程祥的结果 if custom_dict_path: jieba.load_userdict(custom_dict_path) # 加载停用词 self.stopwords = set() self._load_default_stopwords() # 加载用户自定义停用词停用词为哈工大停用词 if stopwords_path: self._load_custom_stopwords(stopwords_path) # 正则表达式过滤数字过滤商品信息中的规格 self.number_pattern = re.compile(r'\d+') def _load_default_stopwords(self): """加载默认停用词""" default_stopwords = [ '的', '了', '在', '是', '我', '有', '和', '就', '不', '人', '都', '一', '一个', '上', '也', '很', '到', '说', '要', '去', '你', '会', '着', '没有', '看', '好', '自己', '这', '那', '这个', '那个', '啊', '吧', '把', '被', '【', '】', '/', '个', '份', 'ml', 'kg', 'g', 'l', '组合', '系列', '加大', '款' ] self.stopwords.update(default_stopwords) def _load_custom_stopwords(self, stopwords_path): """从文件加载自定义停用词""" try: with open(stopwords_path, 'r', encoding='utf-8') as f: custom_stopwords = [line.strip() for line in f if line.strip()] self.stopwords.update(custom_stopwords) print(f"成功从 {stopwords_path} 加载 {len(custom_stopwords)} 个停用词") except Exception as e: print(f"加载自定义停用词出错: {e}") print("使用默认停用词集") def is_valid_keyword(self, word): """判断关键词是否有效""" # 过滤纯数字 if self.number_pattern.fullmatch(word): return False # 过滤单个字符 if len(word) <= 1: return False # 过滤停用词 if word in self.stopwords: return False return True def hybrid_keywords(self, text, topK=5, tfidf_weight=0.5): """ 融合TF-IDF和TextRank算法提取关键词参数: - text: 输入文本 - topK: 返回关键词数量 - tfidf_weight: TF-IDF算法权重（0.0~1.0），TextRank权重为1-tfidf_weight """ # 使用TF-IDF提取关键词及权重 *2 扩大算法提取的关键词数量避免因关键词过少结果为空 tfidf_words = jieba.analyse.extract_tags( text, topK=topK*2, withWeight=True, allowPOS=('n', 'nr', 'ns', 'nt', 'nz', 'v', 'a') ) # 使用TextRank提取关键词及权重同上 textrank_words = jieba.analyse.textrank( text, topK=topK*2, withWeight=True, allowPOS=('n', 'nr', 'ns', 'nt', 'nz', 'v', 'a') ) # 转换为字典便于处理便于对两个算法的结果进行加权计算 tfidf_dict = {word: weight for word, weight in tfidf_words if self.is_valid_keyword(word)} textrank_dict = {word: weight for word, weight in textrank_words if self.is_valid_keyword(word)} # 融合得分（线性加权） hybrid_scores = {} for word in set(tfidf_dict.keys()).union(set(textrank_dict.keys())): tfidf_score = tfidf_dict.get(word, 0) textrank_score = textrank_dict.get(word, 0) hybrid_scores[word] = tfidf_score * tfidf_weight + textrank_score * (1 - tfidf_weight) # 按得分排序并返回前topK个关键词 return sorted(hybrid_scores.items(), key=lambda x: x[1], reverse=True)[:topK] def process_excel(self, input_path, output_path, sheet_name='Sheet1', text_column='菜单名', topK=5, tfidf_weight=0.5): """ 处理Excel文件并提取关键词参数: - input_path: 输入Excel路径 - output_path: 输出Excel路径 - sheet_name: 工作表名称 - text_column: 文本列名称 - topK: 每个文本提取的关键词数量 - tfidf_weight: TF-IDF权重 """ # 读取Excel文件 try: excel_file = pd.ExcelFile(input_path) df = excel_file.parse(sheet_name) except Exception as e: print(f"读取Excel文件出错: {e}") return False # 对文本列提取融合关键词 df['hybrid_keywords'] = df[text_column].apply(lambda x: [word for word, score in self.hybrid_keywords(x, topK=topK, tfidf_weight=tfidf_weight)]) # 保存结果 try: df.to_excel(output_path, index=False) print(f"关键词提取完成，结果已保存至: {output_path}") return True except Exception as e: print(f"保存Excel文件出错: {e}") return False def main(): """主函数""" # 创建关键词提取器实例，指定自定义停用词路径 extractor = KeywordExtractor( custom_dict_path='E:/Data/VScode/custom_dict.txt', # 自定义词典路径 stopwords_path='E:/Data/VScode/hit_stopwords.txt' # 自定义停用词路径 ) # 处理Excel文件 result = extractor.process_excel( input_path='E:/Data/VScode/test_1.xlsx', # 输入文件路径 output_path='E:/Data/VScode/keywords6.xlsx', # 输出文件路径 sheet_name='Sheet1', # 工作表名 text_column='菜单名', # 文本列名 topK=3, # 提取关键词数量 tfidf_weight=0.8 # > 0.5 偏向TF-IDF算法的权重 < 0.5 偏向于TextRank算法的权重 ) if result: print("关键词提取成功！") else: print("关键词提取失败，请检查文件路径和格式。") if __name__ == "__main__": main() 对上面提供的代码进行分析并给出如何优化代码的建议

10.《红楼梦》中的花是一个非常具有象征含义的意象。曹雪芹用繁花来构筑大观园的四季景色，塑造红楼诸钗的形象与品格,并以此象征大观园的女人如花般脆弱而短暂的生命。请对小说中的花卉按照章回进行统计，并绘制散点图。 [提示]由于无法对jieba库分词结果中的花卉进行很好的界定，因此要事先定义好需要统计的花卉列表:lst_flower =["牡丹","芙蓉","海棠","杏花","梅花","桃花","梨花","芍药","兰花","水仙","桂花","菊花","莲花","玫瑰"]。

import pandas as pd # 定义花卉列表 lst_flower = ['牡丹', '玫瑰', '茉莉', '桃花', '梅花', '荷花', '兰花', '菊花'] # 加载《红楼梦》文本数据 with open('《红楼梦》.txt', 'r', encoding='utf-8') as f: ...

jupyter notebook jieba

import pandas as pd # 假设 data 是包含评论的 DataFrame data = pd.DataFrame({'comment': ['这个产品非常好，我非常喜欢', '服务态度很差，不会再来了']}) data['cut'] = data['comment'].apply(lambda x: list...

机器学习实训jieba的中文分词实战

import pandas as pd import numpy as np def extract_keywords(texts, topK=20): vectorizer = TfidfVectorizer(tokenizer=jieba.lcut_for_search) X = vectorizer.fit_transform(texts) feature_names = np....

# 基于二分类算法的谣言检测项目概述 ## 数据集介绍 - 数据来源：新浪微博不实信息举报平台 - 数据内容：中文谣言数据 - 数据规模： - 谣言：1538条 - 非谣言：1849条 - 数据格式：JSON格式，包含text字段（微博原文文字内容） - 下载地址：https://aistudio.baidu.com/datasetdetail/95286 ## 任务目标根据文本数据对谣言进行分类（二分类问题） ## 设计要求 1. 在Python环境下完成数据读取 2. 选择3种二分类模型实现谣言分类 3. 对三种模型的分类结果进行可视化展示和效果比较 4. 进行模型训练、验证及性能评估 ## 数据准备提示 - 提取JSON文件中text字段的文本内容 - 设置谣言标签（谣言/非谣言）

import pandas as pd import jieba from sklearn.feature_extraction.text import TfidfVectorizer # 读取JSON数据 def load_data(file_path): with open(file_path, 'r', encoding='utf-8') as f: data = json....

为后面添加代码：第5. 可视化分析（需要matplotlib） # 此处可添加主题分布饼图、情感分布直方图等可视化代码最后输出完整的所有代码

import pandas as pd import jieba import jieba.analyse from sklearn.feature_extraction.text import CountVectorizer from sklearn.decomposition import LatentDirichletAllocation from snownlp import ...

我已有汇总数据2.txt文件，对这一文件中的评论进行LDA主题分析，生成前五个主题提取困惑度生成折线图，主题词及其对应概率表格

import pandasas pd importmatplotlib.pyplot as pltfrom sklearn.decomposition import LatentDirichletAllocationfrom sklearn.feature_extraction.textimport CountVectorizerfrom nltk.corpusimport stopwords...

spring-aop-6.2.0.jar中文-英文对照文档.zip

1、压缩文件中包含：中文-英文对照文档、jar包下载地址、Maven依赖、Gradle依赖、源代码下载地址。 2、使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 3、特殊说明：（1）本文档为人性化翻译，精心制作，请放心使用；（2）只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等；（3）不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 4、温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件。 5、本文件关键字： jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册。

neo4j-bolt-connection-netty-6.0.2.jar中文-英文对照文档.zip

1、压缩文件中包含：中文-英文对照文档、jar包下载地址、Maven依赖、Gradle依赖、源代码下载地址。 2、使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 3、特殊说明：（1）本文档为人性化翻译，精心制作，请放心使用；（2）只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等；（3）不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 4、温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件。 5、本文件关键字： jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册。

网络通信面向AI算力服务的城域网架构设计：算力城域网关键技术与多场景应用方案

内容概要：《算力城域网白皮书（2025版）》由中国电信、华为等单位联合编写，系统阐述了算力城域网（COMAN）的概念、架构、关键技术及典型应用场景。白皮书指出，随着AIGC和大模型技术的快速发展，算力需求激增，城域网络需从传统云网协同向以算力为中心的算网一体架构演进。算力城域网通过构建算力POD、云网POP和出口功能区等模块化架构，支持海量数据高效入算、存算分离拉远训练、跨集群协同训练、云边协同训推和推理下发等新型算力业务，具备弹性带宽、广域无损、超高吞吐、智能运维和安全隔离等关键能力，旨在实现算力资源的高效整合与即取即用，支撑数字经济高质量发展。; 适合人群：通信网络、云计算、人工智能基础设施领域的技术人员、架构师、科研人员及政策制定者；具备一定网络与算力基础知识的行业从业者。; 使用场景及目标：①指导运营商和企业构建面向AI时代的城域算力网络；②为算力租赁、大模型训练与推理、边缘智能等业务提供网络支撑方案；③推动算力互联互通、跨域协同和绿色高效发展。; 阅读建议：建议结合实际网络架构演进需求，重点关注算力城域网的技术实现路径与现网验证案例，深入理解SRv6、RDMA无损传输、网络切片、智能调度等关键技术在算力场景中的应用。

单片机技术在烟雾报警器中的应用与设计概述.docx

aws-json-protocol-2.32.31.jar中文-英文对照文档.zip

1、压缩文件中包含：中文-英文对照文档、jar包下载地址、Maven依赖、Gradle依赖、源代码下载地址。 2、使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 3、特殊说明：（1）本文档为人性化翻译，精心制作，请放心使用；（2）只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等；（3）不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 4、温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件。 5、本文件关键字： jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册。

httpclient5-5.2.1.jar中文-英文对照文档.zip

1、压缩文件中包含：中文-英文对照文档、jar包下载地址、Maven依赖、Gradle依赖、源代码下载地址。 2、使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 3、特殊说明：（1）本文档为人性化翻译，精心制作，请放心使用；（2）只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等；（3）不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 4、温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件。 5、本文件关键字： jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册。

云计算与人工智能：SaaS架构实战指南.docx

学生学业压力真实世界数据集

该数据集捕捉了对不同教育阶段学生学业压力水平的真实见解。这些数据是通过 Google 表单从高中、本科和研究生阶段的不同学生群体中收集的。学业压力是全世界学生日益关注的问题，严重影响他们的心理健康和学业成绩。该数据集旨在量化导致学业压力的因素，并为数据驱动的研究、心理健康分析和教育政策改进提供基础。

XX网络安全宣传周活动总结模板.doc

相关推荐

Read data from the Excel spreadsheet.zip_Spreadsheet::Read_excel

fenci.rar_jieba_jieba 批量

dbf.rar_arcgis_arcgis python_site:www.pudn.com

threekingdoms_三个国王_

【数据可视化】：让微博评论爬取项目的数据“说话”

图神经网络训练技巧：如何用GCN提升微博情感分析的准确性

jupyter notebook jieba

机器学习实训jieba的中文分词实战

为后面添加代码：第5. 可视化分析（需要matplotlib） # 此处可添加主题分布饼图、情感分布直方图等可视化代码 最后输出完整的所有代码

我已有汇总数据2.txt文件，对这一文件中的评论进行LDA主题分析，生成前五个主题提取困惑度生成折线图，主题词及其对应概率表格

spring-aop-6.2.0.jar中文-英文对照文档.zip

neo4j-bolt-connection-netty-6.0.2.jar中文-英文对照文档.zip

网络通信面向AI算力服务的城域网架构设计：算力城域网关键技术与多场景应用方案

单片机技术在烟雾报警器中的应用与设计概述.docx

aws-json-protocol-2.32.31.jar中文-英文对照文档.zip

httpclient5-5.2.1.jar中文-英文对照文档.zip

云计算与人工智能：SaaS架构实战指南.docx

学生学业压力真实世界数据集

XX网络安全宣传周活动总结模板.doc

大家在看

MATLAB模型

水头损失计算表格-柯列布鲁克-怀特输水-管道

国家/地区：国家/地区信息应用

XCC.Mixer1.42.zip

deep q_learning

最新推荐

spring-aop-6.2.0.jar中文-英文对照文档.zip

neo4j-bolt-connection-netty-6.0.2.jar中文-英文对照文档.zip

网络通信面向AI算力服务的城域网架构设计：算力城域网关键技术与多场景应用方案

基于Arduino的智能4x4键盘门锁系统设计与实现

深入探索TypeScript类型验证与状态管理

trace切片怎么对齐

Flink与Kafka实时数据充实流测试指南

前端应用中异步数据处理与获取的实践指南

ref，toRef，toRefs区别？

OVER集成文档：虚拟传输与服务集成指南

为后面添加代码：第5. 可视化分析（需要matplotlib） # 此处可添加主题分布饼图、情感分布直方图等可视化代码最后输出完整的所有代码