# table_creeper **Repository Path**: xywdy/table_creeper ## Basic Information - **Project Name**: table_creeper - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2018-10-31 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # table_creeper #### 项目介绍 本项目是对一些复杂的报表解析爬取列表数据,以国家网为例(大家最好换一个网站),会自动根据数据库配置text(数据库为字典方式),进行 点击树形结构,然后input下拉框内时间,并选择省(时间和省由配置文件配置),但下拉列表的xpath没有数据库化,现阶段是写死在代码中 项目开始由递归进行判定是否为最后一层,字典表可配置N层,看你网站的复杂度 请加入QQ群:943841699 技术 Python3.6 selenium(如果对selenium不了解,可参考博客 https://blog.csdn.net/wudaoshihun/article/details/82982596 https://blog.csdn.net/wudaoshihun/article/details/82990670 https://blog.csdn.net/wudaoshihun/article/details/82990920 https://blog.csdn.net/wudaoshihun/article/details/82947091) 本项目采用谷歌浏览器内核,需安装谷歌及匹配的driver 参考:https://blog.csdn.net/wudaoshihun/article/details/82353056 并且linux无界面,需要配置无界面方式进行爬取 参考:https://blog.csdn.net/wudaoshihun/article/details/82948013 #### 使用说明 1. 把resource文件下SQL拷贝并导入数据库 2. 配置config.py 3. 根据技术目录指引安装完毕 4. 现阶段只有一张表,class_type为类型,若不同类型网站,则class_type不同, group_code为分组编码,可根据00000000,每个位代表不同含义,与自己库中的分类对应。