import os import re import glob import numpy as np import pandas as pd import jieba from collections import defaultdict # ==================== # 第一步:配置参数 # ==================== # 文件路径配置 RAW_FOLDER = "C:/Users/Dawning.Y/Desktop/年报/TXT" PROCESSED_FOLDER = "C:/Users/Dawning.Y/Desktop/年报" STOPWORDS_FOLDER = "C:/Users/Dawning.Y/Desktop/年报/停用词表" # 设置文件夹路径 RAWREPORTSFOLDER = "C:/Users/Dawning.Y/Desktop/年报/TXT" # 修改为您的年报文件夹路径 # 定义公司代码和名称 companies = { "002074": "国轩高科", "002594": "比亚迪", "300014":"亿纬锂能", "300438":"鹏辉能源", "300750":"宁德时代" # 添加其他公司代码和名称 } # 获取所有年报文件 reportfiles = [] for code, name in companies.items(): for year in range(2021, 2025): # 根据需要调整年份范围 pattern = f"{code}{name}{year}.txt" reportfiles.extend(glob.glob(os.path.join(RAWREPORTSFOLDER, pattern))) # 现在reportfiles列表包含了所有匹配的文件路径 # 正则表达式配置 PATTERNNS = { # 页眉页脚模式(示例,需根据实际文本调整) 'header_footer': [ r'(?:[^\s]{2,}(?:公司|集团)\s+\d{4}\s+年度报告(?:全文)?[\s\|]+第\d+页)',

时间: 2025-08-18 15:37:00 AIGC 浏览: 27
<think>好的,用户正在处理年报的TXT文件,需要用Python脚本配置文件路径、正则表达式和数据结构。首先,我需要考虑如何设置文件路径,确保脚本能找到正确的输入目录和输出目录。可能需要用os模块来处理路径,尤其是跨平台兼容性,比如使用os.path.join。 接下来是正则表达式部分。年报文本可能有很多噪音,比如多余的空格、特殊符号或者乱码。用户需要清洗这些数据。例如,匹配连续的空格,可以用\s+,但要注意保留英文之间的空格。同时,可能需要去除中文之间的多余空格,可以用[\u4e00-\u9fa5]来匹配中文字符,并在它们之间替换空格。另外,处理特殊符号,比如书名号或者奇怪的字符,可能需要用正则表达式过滤掉。 然后是数据结构的选择。用户需要存储清洗后的文本,可能用字符串变量直接保存。如果要统计词频,可以用collections模块的Counter,或者用pandas DataFrame来整理结果。比如分词后统计关键词频率,生成表格。 还需要考虑编码问题,TXT文件可能是gbk或utf-8,所以打开文件时要指定正确的编码,避免乱码。异常处理也很重要,比如捕获文件找不到的错误。 用户可能还需要提取特定信息,比如公司名称、财务数据,这时候需要更复杂的正则表达式模式,比如匹配“公司名称:”后面的内容。或者使用正则表达式来识别日期、金额等格式。 最后,配置参数部分,用户可能需要将路径、正则表达式模式、关键词等作为变量放在脚本开头,方便修改。比如INPUT_DIR和OUTPUT_DIR,还有清理模式的正则表达式列表。 可能的问题点包括正则表达式不够全面,比如漏掉某些情况,或者文件路径错误。需要测试不同的年报样本,确保脚本健壮。另外,处理大文件时要注意内存使用,可能需要逐行读取处理。 总结步骤应该是:配置路径→读取文件→应用正则表达式清洗→保存结果。数据结构根据具体需求选择,比如字典存储统计结果,列表存储处理后的文本行等。</think>### 文件路径配置 1. **输入输出路径设置** 使用`os`模块处理跨平台路径兼容性问题,示例: ```python import os INPUT_DIR = os.path.join("data", "annual_reports") # 年报文件存放目录 OUTPUT_DIR = os.path.join("processed_data") # 清洗后文件输出目录 os.makedirs(OUTPUT_DIR, exist_ok=True) # 自动创建输出目录 ``` 2. **文件遍历方法** 通过`glob`模块实现批量文件处理: ```python import glob file_paths = glob.glob(os.path.join(INPUT_DIR, "*.txt")) # 获取所有TXT文件路径 ``` --- ### 正则表达式配置 1. **基础清洗模式** 处理常见文本噪声: ```python CLEAN_PATTERNS = [ (r'\s+', ' '), # 合并连续空白字符 (r'[^\u4e00-\u9fa5a-zA-Z0-9,。!?%、]', ''), # 保留中英文数字及常用标点 (r'(?<![a-zA-Z])\s+(?![a-zA-Z])', ''), # 删除中文间多余空格[^3] ] ``` 2. **高级提取模式** 匹配年报结构化数据: ```python COMPANY_NAME_PATTERN = r'公司名称[::]\s*([^\n]+)' # 提取公司名称 FINANCIAL_DATA_PATTERN = r'净利润\s*[::]\s*([\d,.]+万元)' # 提取财务数据 ``` --- ### 数据结构设计 1. **文本处理流水线** 使用字典存储处理结果: ```python processing_pipeline = { "raw_text": "", # 原始文本 "cleaned_text": "", # 清洗后文本 "keywords": [], # 提取的关键词 "financial_data": {} # 结构化财务数据 } ``` 2. **数据持久化结构** 使用`pandas`保存结构化结果[^2]: ```python import pandas as pd results = [] for file in file_paths: # ...处理逻辑... results.append({ "文件名": os.path.basename(file), "公司名称": extracted_company, "净利润": extracted_profit }) df = pd.DataFrame(results) df.to_csv(os.path.join(OUTPUT_DIR, "financial_report.csv"), index=False) ``` --- ### 完整脚本框架 ```python import re import os import glob import pandas as pd # 配置参数 INPUT_DIR = os.path.join("data", "annual_reports") OUTPUT_DIR = "processed_data" CLEAN_PATTERNS = [...] # 前述正则表达式模式 def text_cleaner(text): for pattern, replacement in CLEAN_PATTERNS: text = re.sub(pattern, replacement, text) return text.strip() def process_reports(): os.makedirs(OUTPUT_DIR, exist_ok=True) file_paths = glob.glob(os.path.join(INPUT_DIR, "*.txt")) results = [] for file_path in file_paths: try: with open(file_path, 'r', encoding='utf-8') as f: raw_text = f.read() cleaned_text = text_cleaner(raw_text) company_match = re.search(COMPANY_NAME_PATTERN, cleaned_text) results.append({ "文件名": os.path.basename(file_path), "公司名称": company_match.group(1) if company_match else None, "清洗后文本": cleaned_text[:200] + "..." # 存储摘要 }) except UnicodeDecodeError: print(f"编码错误: {file_path}") pd.DataFrame(results).to_csv( os.path.join(OUTPUT_DIR, "processed_summary.csv"), index=False, encoding='utf-8-sig' ) if __name__ == "__main__": process_reports() ``` ---
阅读全文

相关推荐

请将下面这段代码中的每一行添加代码注释,并描述功能或者作用 from tkinter import * from tkinter import messagebox from pypylon import pylon from pypylon import genicam import tkinter as tk import serial import crcmod import traceback import cv2 as cv import numpy as np import glob import os import collections import datetime import math import requests import time import winsound import base64 import logging from binascii import a2b_hex import http import re import binascii from http import client from http import HTTPStatus import pickle as pkl import webbrowser import json import threading import queue import linecache import sys import pandas as pd import warnings warnings.filterwarnings("ignore") from pega_inference.v1.sample_client import SampleClient from pega_inference.v1.client.predict_enum import InferenceModelType from keras import backend as K #Sample code for pega-m2mSDK(multi logtype(Master, Vision)) from pega_m2m.m2m_v2 import M2M from pega_m2m.m2m_enum_v2 import M2MStr from pega_m2m import m2m_info #Sample code for Pega_DataCollector import os import shutil ###孪生网络 import tensorflow as tf from PIL import Image, ImageTk import siamese_KB import siamese_label import siamese_CPU import siamese_quyu model_KB = siamese_KB.Siamese() model_label = siamese_label.Siamese() model_CPU = siamese_CPU.Siamese() model_quyu = siamese_quyu.Siamese() ### ----------設置變數 test_status = '測試結果' Total_index = 0 FPY_index = 0 Fail_index = 0 Pass_index = 0 #获取当前时间 today = time.strftime('%Y-%m-%d',time.localtime()) def set_entered(value): global is_entered is_entered = value is_entered = False ### ----------sfis class Sfisws: def __init__(self, host=None, url=None): self.__programid = "TSP_ZDHSB" self.__pwd = "1mQ@e" #_header為sfis xml上實際維護資料, 可查詢sfis function的xml檔案 self.__header = {"Content-type": "text/xml", "charset": "UTF-8", "Accept": "text/plain", "action":"http://www.pegatroncorp.com/SFISWebService/GetDatabaseInformation"} self.__host = host

import os import glob import pandas as pd import numpy as np import torch import torch.nn as nn import torch.optim as optim import random import matplotlib.pyplot as plt # 設定 matplotlib 以支援中文(若系統有中文字型,請根據實際狀況修改) plt.rcParams['font.sans-serif'] = ['WenQuanYi Micro Hei'] plt.rcParams['axes.unicode_minus'] = False # ============================================================================= # (A) 從 station_data 檔案讀取資料 # ============================================================================= def load_station_data(folder_path): """ 從指定資料夾中讀取檔名符合 station_data_out_20250313_*.txt 的檔案, 並解析每行資料,整理成符合模型需求的 DataFrame。 每行範例: ba:92:7a:b0:b7:50 -71 39.0 MBit/s 24.0 MBit/s 10 0 256 17.211Mbps 145356 將轉換成以下欄位 (依模型需求): - channel:預設填入 0(環境 reset 時會重新分配) - total_throughput:從 throughput 欄位取得(去掉 "Mbps") - pdr:這裡暫用 parts[6](例如 10) - snr:這裡暫用接收速率 parts[4](例如 24.0) - rssi:直接取 signal 值 (parts[1]) - noise:取 parts[7](例如 0) """ pattern = os.path.join(folder_path, "station_data_out_20250313_*.txt") files = glob.glob(pattern) data = [] for file in files: with open(file, "r", encoding="utf-8") as f: for line in f: line = line.strip() if not line: continue parts = line.split() if len(parts) != 11: # 欄位數不正確時略過此行 continue try: mac = parts[0] signal = int(parts[1]) # throughput 從 parts[9] 去除 "Mbps" throughput = float(parts[9].rstrip("Mbps")) channel = 0 # 初始值,reset 時會重新分配 AP pdr = float(parts[6]) snr = float(parts[4]) rssi = signal noise = float(parts[7]) except Exception as e: print(f"解析錯誤: {line}\n{e}") contin

最新推荐

recommend-type

appstream-0.15.2-beta-javadoc.jar

appstream-0.15.2-beta-javadoc.jar
recommend-type

Node.js构建的运动咖啡馆RESTful API介绍

标题《sportscafeold:体育咖啡馆》指出了项目名称为“体育咖啡馆”,这个名字暗示了该项目可能是一个结合了运动和休闲主题的咖啡馆相关的网络服务平台。该项目运用了多种技术栈,核心的开发语言为JavaScript,这从标签中可以得到明确的信息。 从描述中可以提取以下知识点: 1. **Node.js**:体育咖啡馆项目使用了Node.js作为服务器端运行环境。Node.js是一个基于Chrome V8引擎的JavaScript运行环境,它能够使得JavaScript应用于服务器端开发。Node.js的事件驱动、非阻塞I/O模型使其适合处理大量并发连接,这对于RESTFUL API的构建尤为重要。 2. **Express Framework**:项目中使用了Express框架来创建RESTFUL API。Express是基于Node.js平台,快速、灵活且极简的Web应用开发框架。它提供了构建Web和移动应用的强大功能,是目前最流行的Node.js Web应用框架之一。RESTFUL API是一组遵循REST原则的应用架构,其设计宗旨是让Web服务通过HTTP协议进行通信,并且可以使用各种语言和技术实现。 3. **Mongoose ORM**:这个项目利用了Mongoose作为操作MongoDB数据库的接口。Mongoose是一个对象文档映射器(ODM),它为Node.js提供了MongoDB数据库的驱动。通过Mongoose可以定义数据模型,进行数据库操作和查询,从而简化了对MongoDB数据库的操作。 4. **Passport.js**:项目中采用了Passport.js库来实现身份验证系统。Passport是一个灵活的Node.js身份验证中间件,它支持多种验证策略,例如用户名和密码、OAuth等。它提供了标准化的方法来为用户登录提供认证,是用户认证功能的常用解决方案。 5. **版权信息**:项目的版权声明表明了Sportscafe 2015是版权所有者,这表明项目或其相关内容最早发布于2015年或之前。这可能表明该API背后有商业实体的支持或授权使用。 从【压缩包子文件的文件名称列表】中我们可以了解到,该文件的版本控制仓库使用的是“master”分支。在Git版本控制系统中,“master”分支通常用于存放当前可部署的稳定版本代码。在“master”分支上进行的更改通常都是经过测试且准备发布到生产环境的。 综上所述,我们可以知道体育咖啡馆项目是一个利用现代JavaScript技术栈搭建的后端服务。它包含了处理HTTP请求的Express框架、连接MongoDB数据库的Mongoose库和实现用户身份验证的Passport.js中间件。该项目可用于构建提供体育信息、咖啡馆菜单信息、预约服务等的Web应用或API服务,这为体育咖啡馆的营销、用户体验和数据管理提供了可能。 考虑到文档资料的提及,该项目的安装和API文档应该包含在项目资料中,可能在项目的README文件或其他说明文档中。对于项目的使用者或者开发者而言,这部分文档非常重要,因为它们可以提供详细的信息和指导,帮助用户快速部署和使用该API。 总结来说,这是一套针对体育咖啡馆相关业务的后端解决方案,它使用了流行的开源技术栈,可以灵活地应用于体育咖啡馆的网络服务中,如信息发布、在线预约、会员管理等。
recommend-type

【LNR优化与用户体验】:一文看透互操作优化如何提升用户感知

# 摘要 LNR(邻区关系优化)是提升移动通信网络性能与用户体验的关键技术。本文系统阐述了LNR优化的基本概念、理论基础与技术实现路径,构建了包括信道质量评估、干扰建模及关键性能指标分析在内的数学模型,并探讨了参数配置、邻区管理及AI与大数据在LNR优化中的应用。通过量化用户感知指标,分析了LNR优化对视频流畅度、页面加载速度及切换性能的实际改善效果,并结合典型场景验证了其优化成效。本文进一步展望了LNR技术在5G及未来网络中的发展趋势与技术挑战。
recommend-type

Java1.8 的编程语言、使用场景、版本号、厂商、是否开源、发行日期、终止日期、可替代产品、推荐产品是什么

以下是关于 **Java 1.8** 的全面信息汇总,涵盖其编程语言特性、使用场景、版本号、厂商、是否开源、发行日期、终止支持日期、可替代产品和推荐产品。 --- ## ✅ Java 1.8 综合信息表 | 项目 | 内容 | |------|------| | **编程语言** | Java | | **版本号** | Java 1.8(也称为 Java 8) | | **厂商** | Oracle、Adoptium、Amazon(Corretto)、Azul(Zulu)、Red Hat、IBM 等 | | **是否开源** | ✅ 是(OpenJDK 1.8 是开源的,Oracle
recommend-type

Java开发的教区牧民支持系统介绍

根据给定文件信息,下面将详细阐述相关知识点: ### 标题知识点 #### catecumenus-java: 教区牧民支持系统 - **Java技术栈应用**:标题提到的“catecumenus-java”表明这是一个使用Java语言开发的系统。Java是目前最流行的编程语言之一,广泛应用于企业级应用、Web开发、移动应用等,尤其是在需要跨平台运行的应用中。Java被设计为具有尽可能少的实现依赖,所以它可以在多种处理器上运行。 - **教区牧民支持系统**:从标题来看,这个系统可能面向的是教会管理或教区管理,用来支持牧民(教会领导者或牧师)的日常管理工作。具体功能可能包括教友信息管理、教区活动安排、宗教教育资料库、财务管理、教堂资源调配等。 ### 描述知识点 #### 儿茶类 - **儿茶素(Catechin)**:描述中提到的“儿茶类”可能与“catecumenus”(新信徒、教徒)有关联,暗示这个系统可能与教会或宗教教育相关。儿茶素是一类天然的多酚类化合物,常见于茶、巧克力等植物中,具有抗氧化、抗炎等多种生物活性,但在系统标题中可能并无直接关联。 - **系统版本号**:“0.0.1”表示这是一个非常初期的版本,意味着该系统可能刚刚开始开发,功能尚不完善。 ### 标签知识点 #### Java - **Java语言特点**:标签中明确提到了“Java”,这暗示了整个系统都是用Java编程语言开发的。Java的特点包括面向对象、跨平台(即一次编写,到处运行)、安全性、多线程处理能力等。系统使用Java进行开发,可能看重了这些特点,尤其是在构建可扩展、稳定的后台服务。 - **Java应用领域**:Java广泛应用于企业级应用开发中,包括Web应用程序、大型系统后台、桌面应用以及移动应用(Android)。所以,此系统可能也会涉及这些技术层面。 ### 压缩包子文件的文件名称列表知识点 #### catecumenus-java-master - **Git项目结构**:文件名称中的“master”表明了这是Git版本控制系统中的一个主分支。在Git中,“master”分支通常被用作项目的主干,是默认的开发分支,所有开发工作都是基于此分支进行的。 - **项目目录结构**:在Git项目中,“catecumenus-java”文件夹应该包含了系统的源代码、资源文件、构建脚本、文档等。文件夹可能包含各种子文件夹和文件,比如src目录存放Java源代码,lib目录存放相关依赖库,以及可能的build.xml文件用于构建过程(如Ant或Maven构建脚本)。 ### 结合以上信息的知识点整合 综合以上信息,我们可以推断“catecumenus-java: 教区牧民支持系统”是一个使用Java语言开发的系统,可能正处于初级开发阶段。这个系统可能是为了支持教会内部管理,提供信息管理、资源调度等功能。其使用Java语言的目的可能是希望利用Java的多线程处理能力、跨平台特性和强大的企业级应用支持能力,以实现一个稳定和可扩展的系统。项目结构遵循了Git版本控制的规范,并且可能采用了模块化的开发方式,各个功能模块的代码和资源文件都有序地组织在不同的子文件夹内。 该系统可能采取敏捷开发模式,随着版本号的增加,系统功能将逐步完善和丰富。由于是面向教会的内部支持系统,对系统的用户界面友好性、安全性和数据保护可能会有较高的要求。此外,考虑到宗教性质的敏感性,系统的开发和使用可能还需要遵守特定的隐私和法律法规。
recommend-type

LNR切换成功率提升秘籍:参数配置到网络策略的全面指南

# 摘要 LNR(LTE to NR)切换技术是5G网络部署中的关键环节,直接影
recommend-type

How to install watt toolkit in linux ?

安装 Watt Toolkit(原名 Steam++)在 Linux 系统上通常可以通过编译源码或者使用预编译的二进制文件来完成。Watt Toolkit 是一个开源工具,主要用于加速 Steam 平台的下载速度,支持跨平台运行,因此在 Linux 上也能够很好地工作。 ### 安装步骤 #### 方法一:使用预编译的二进制文件 1. 访问 [Watt Toolkit 的 GitHub 仓库](https://github.com/BeyondDimension/SteamTools) 并下载适用于 Linux 的最新版本。 2. 解压下载的压缩包。 3. 给予可执行权限: ```
recommend-type

PHP实现用户墙上帖子与评论的分享功能

根据给定文件信息,我们可以推导出与“userwallposts”相关的知识点。这里涉及的关键概念包括用户墙面墙(User Wall)、帖子(Posts)和评论(Comments),以及它们在编程语言PHP中的实现方式。用户墙是一种允许用户发布信息,并让他们的朋友或跟随者查看并参与讨论的功能,常见于社交网站。 ### 用户墙概念 用户墙类似于现实生活中的一面墙,用户可以在上面贴上“帖子”来分享自己的想法、照片、视频等信息。其他用户可以在这些帖子下面进行“评论”,类似于在墙上留言。这种互动方式构建了一个社区式的交流环境,增加了用户之间的互动性和参与感。 ### 用户墙的实现 在PHP中实现用户墙功能需要处理前端用户界面和后端服务器逻辑。前端负责展示用户墙、帖子和评论的界面,而后端则负责存储、检索和管理这些数据。 1. **前端实现**:前端可以使用HTML、CSS和JavaScript来构建用户墙的界面。使用AJAX技术可以让用户无需刷新页面即可提交和获取新的帖子和评论。此外,可能还会用到模板引擎(如Twig或Smarty)来动态生成页面内容。 2. **后端实现**:后端PHP代码将负责处理前端发送的请求,如帖子和评论的添加、删除和检索。数据库(如MySQL)将用于存储用户信息、帖子内容、评论以及它们之间的关联关系。 3. **数据库设计**: - 用户表(users):存储用户信息,例如用户名、密码(加密存储)、用户状态等。 - 帖子表(posts):存储帖子信息,例如帖子ID、帖子内容、发帖时间、所属用户ID等。 - 评论表(comments):存储评论信息,包括评论ID、评论内容、评论时间、所属帖子ID和用户ID等。 4. **PHP与数据库交互**:使用PDO(PHP Data Objects)或mysqli扩展来执行SQL语句与数据库进行交互。PDO提供了数据库访问的抽象层,可以连接多种数据库系统,而mysqli则针对MySQL进行了优化。 5. **安全性**: - 输入验证:为了防止SQL注入等安全问题,需要对用户输入进行验证和清理。 - 输出编码:在将数据输出到浏览器之前,应将特殊字符转换为HTML实体。 - 用户认证:用户登录系统时,应采取安全措施如使用会话管理(session management)和防止跨站请求伪造(CSRF)。 6. **功能实现细节**: - 发布帖子:用户输入帖子内容并提交,后端接收并存储到帖子表中。 - 显示帖子:从帖子表中检索所有帖子并展示在用户墙上,包括帖子标题、内容、发布时间和发帖人等信息。 - 发布评论:用户对特定帖子发表评论,后端接收评论信息并将其存储到评论表中。 - 显示评论:为每个帖子显示其下的所有评论,包括评论内容、时间、评论者等。 ### 开源项目实践 “userwallposts-master”暗示了可能存在一个与用户墙帖子和评论相关的开源项目或代码库。这个项目可能包含预设的代码和文件结构,允许开发者下载、安装和配置来创建他们自己的用户墙功能。开发人员可以使用这个项目作为起点,根据自己的需求进一步定制和扩展功能。 在实际开发过程中,还需要考虑系统的可扩展性和维护性。例如,可以设计RESTful API让前端和后端分离,或者使用现代的PHP框架(如Laravel、Symfony等)来简化开发流程和提高代码的组织性。 在总结上述内容后,我们可以了解到用户墙是社交平台中常见的一种功能,其核心功能包括发布帖子和评论。在PHP环境下实现这样的功能需要对前端界面和后端逻辑有深入的理解,以及对数据库设计和交互的安全性有一定的认识。开源项目如“userwallposts-master”可能提供了一个基础框架,帮助开发者快速构建和部署一个用户墙系统。
recommend-type

【LNR信令深度解析】:MR-DC双连接建立全过程技术揭秘

# 摘要 本文系统探讨了LNR信令与MR-DC双连接技术的基本原理、架构组成及其关键信令流程。深入分析了MR-DC的网络架构分类、核心网元功能、无线承载管理机制以及双连接建立过程中的关键信令交互路径。同时,文章解析了LNR信令消息的结构特征与关键字段,探讨了MR-DC场景下的性能评估指标与优化策略,包括信令压缩、负载均衡及节能调度机制。最后,文章展望了MR-DC技术在5G
recommend-type

计算机类:得全方位考,不能局限软考这句话的含义

计算机类考试的全面性要求考生不仅要掌握理论知识,还要具备实践能力、分析能力和对行业发展趋势的理解。考试内容通常涵盖计算机基础、核心技术和应用、前沿技术以及行业标准和规范。考生需要全方位掌握知识体系,不能仅限于软考(软件水平考试)的内容,还需结合实际应用场景和新兴技术的发展。 在计算机类考试中,基础知识的掌握是关键。例如IP地址的分类(如引用[1]中提到的A、B、C、D和E类地址),需要理解其划分规则、网络ID和主机ID的表示方式以及如何根据需求选择合适的IP地址类别。这类知识是网络设计和管理的基础,考试中可能会涉及实际案例分析,要求考生能够灵活运用这些知识解决具体问题。 此外,随着信息技术