# SciPDF Parser
A Python parser for scientific PDF based on [GROBID](https://github.com/kermitt2/grobid).
## Installation
Use `pip` to install from this Github repository
```bash
pip install git+https://github.com/titipata/scipdf_parser
```
**Note**
* We also need an `en_core_web_sm` model for spacy, where you can run `python -m spacy download en_core_web_sm` to download it
* You can change GROBID version in `serve_grobid.sh` to test the parser on a new GROBID version
## Usage
Run the GROBID using the given bash script before parsing PDF
```bash
bash serve_grobid.sh
```
This script will download GROBID and run the service at default port 8070 (see more [here](https://grobid.readthedocs.io/en/latest/Grobid-service/)).
To parse a PDF provided in `example_data` folder or direct URL, use the following function:
```python
import scipdf
article_dict = scipdf.parse_pdf_to_dict('example_data/futoma2017improved.pdf') # return dictionary
# option to parse directly from URL to PDF, if as_list is set to True, output 'text' of parsed section will be in a list of paragraphs instead
article_dict = scipdf.parse_pdf_to_dict('https://www.biorxiv.org/content/biorxiv/early/2018/11/20/463760.full.pdf', as_list=False)
# output example
>> {
'title': 'Proceedings of Machine Learning for Healthcare',
'abstract': '...',
'sections': [
{'heading': '...', 'text': '...'},
{'heading': '...', 'text': '...'},
...
],
'references': [
{'title': '...', 'year': '...', 'journal': '...', 'author': '...'},
...
],
'figures': [
{'figure_label': '...', 'figure_type': '...', 'figure_id': '...', 'figure_caption': '...', 'figure_data': '...'},
...
],
'doi': '...'
}
xml = scipdf.parse_pdf('example_data/futoma2017improved.pdf', soup=True) # option to parse full XML from GROBID
```
To parse figures from PDF using [pdffigures2](https://github.com/allenai/pdffigures2), you can run
```python
scipdf.parse_figures('example_data', output_folder='figures') # folder should contain only PDF files
```
You can see example output figures in `figures` folder.
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
面对每天海量的arxiv论文,以及AI极速的进化,我们人类必须也要一起进化才能不被淘汰。 作为中科大强化学习方向的博士生,我深感焦虑,现在AI的进化速度,我开脑洞都赶不上。 因此我开发了这款ChatPaper,尝试用魔法打败魔法。 ChatPaper是一款论文总结工具。AI用一分钟总结论文,用户用一分钟阅读AI总结的论文。 它可以根据用户输入的关键词,自动在arxiv上下载最新的论文,再利用ChatGPT3.5的API接口强大的总结能力,将论文总结为固定的格式,以最少的文本,最低的阅读门槛,为大家提供最大信息量,以决定该精读哪些文章。 也可以提供本地的PDF文档地址,直接处理。 一般一个晚上就可以速通一个小领域的最新文章。我自己测试了两天了。 祝大家在这个极速变化的时代中,能够和AI一起进化! 快速刷特定关键词的论文,不插图的话,每张篇文章需要花一分钟,阅读时间差不多一分钟。 本项目可以用于跟踪领域最新论文,或者关注其他领域的论文,可以批量生成总结,最大可生成1000(如果你能等得及的话)。 虽然Chat可能有瞎编的成分,但是在我的规范化提问的框架下,它的主要信息是保熟
资源推荐
资源详情
资源评论




























收起资源包目录





































































































共 121 条
- 1
- 2
资源评论

- 老奥人2024-12-19怎么能有这么好的资源!只能用感激涕零来形容TAT...

electrical1024
- 粉丝: 2290
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 机房网络安全隐患及网络安全技术和对策的应用分析.docx
- 《福建专业技术人员继续教育信息化能力建设》在线测验考试参考答案(简化版).doc
- 企业档案信息化建设探究.docx
- VMware-Horizon-View7桌面虚拟化部署图文教程.docx
- 2015年中级通信工程师考试综合真题(标准答案)...doc
- 产万水泥粉磨生产线项目管理工程.doc
- 新时期医院人事档案管理信息化建设路径研究.docx
- 基于 Yolov5 算法的目标检测技术研究与应用
- 校园网络系统设计方案.doc
- 汇编实现交通灯控制模拟程序设计.doc
- 以创新创业能力培养为核心的计算机类公共选修课课程教学改革.docx
- 【大学本科设计】PLC的变频调速恒压供水系统自动化等专业.doc
- 加工产品现场检查项目管理.doc
- 单片机多功能电子钟研究报告.doc
- android天气预报系统设计方案.docx
- 并行计算概述-云计算.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
