# 研报数据预处理
这个工作主要是将PDF转为MD格式,并对同一公司多份研报进行归纳提取。
其中,我基于MARKER将PDF转MD格式,后通过deepseek大模型提取有效信息。
## 1. 文件功能
**marker_all.sh** 脚本用于将所有文件夹下的pdf文件通过marker工具转为md格式,注意这里的marker用于对一个文件夹下的所有pdf文件进行处理的指令(请查看PDFS_COMPANY的格式),若有单份需求,需要修改。
**file_out** 脚本用于将marker生成的同一公司的所有研报md文件放在同一级别目录下,因为在实际操作中发现marker之后对于每一个pdf都会创建一个单独的文件夹去存放json文件和md文件,这样处理后方便后续大模型数据读取。
**scritps/data_extraction.py** 用于将数据送给大模型,并生成提取后资料。
## 2. 如何使用
下面是基本使用流程:
1. `./file_out.sh`
2. `./marker_all.sh`
3. `python3 scritps/data_extraction.py`
注意,由于这个是随手写的,并没有做健壮性工作,所以注意路径的正确性以及文件结构的正确性。
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论






























收起资源包目录










共 6 条
- 1
资源评论


xinkai1688
- 粉丝: 416
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 税收征管信息化发展和应用.ppt
- 工程施工阶段的项目管理.docx
- 《d游戏设计》-计算机图形学基础.ppt
- 女性网络购物的消费心理及行为特征.doc
- 计算机网络安全技术与防范策略.docx
- 互联网监管与网络道德建设标准标准答案.doc
- 例解JavaWeb页面传参方法-参数传递.docx
- 电子信息工程自动化技术分析.docx
- 项目管理之怎样对研发人员形成有效的激励.docx
- 简析电气工程及其自动化的智能化技术应用.docx
- 如何确保人工智能安全可靠可控?.docx
- 单片机控制实时时钟X1226设计方案.doc
- 企业业务流程信息化及发展展望.docx
- 信息技术对大学生网络舆论引导的研究.docx
- 基于单片机的多功能数字钟的方案设计书08112.doc
- 毕业设计·电阻炉单片机检测控制系统[].doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
