
爬虫开发
数据获取
影雀
公宗号-爬虫与大模型开发;砥砺前行,为梦前行!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型加持下js逆向效率倍增
介绍使用大模型可以帮助小白或者初入爬虫行业的同学带来一个新的思路,在一些特定的加密且可逆的情况下,可以借助AI大模型快速的推理出加密的元数据!原创 2025-06-04 17:14:47 · 1564 阅读 · 0 评论 -
爬虫玩转Scrapy单机及分布式(一)
Scrapy是一个高效的Python开源爬虫框架,具有异步并发、模块化设计等特点。文章介绍了Scrapy的核心组件(Spider、Item、Pipeline等)及工作流程,并通过名人名言爬取案例展示实际应用。此外还讲解了分布式爬虫扩展Scrapy-Redis的安装与配置。该框架适合大规模数据抓取,支持跨平台运行和自定义扩展,开发者可通过命令行工具快速创建和管理项目。后续将推出更多Scrapy使用及源码分析文章。原创 2025-06-04 17:12:52 · 640 阅读 · 0 评论 -
服务端反爬也不过如此 看完小白都能破
使用getItemWithExpiration()这个函数接受一个参数以search2_+关键词的小写格式,猜测是是获取缓存数据,如果缓存存在则获取缓存中的数据并更新当前页面的搜索结果代码,否则就发送一个ajax请求异步获取数据.到这边我们就确定了我们需要的搜索结果数据来自于这个接口,这个接口method是post,请求的参数三个一个是搜索词,一个固定的字符串,一个是当前页面获取到的搜索token,返回的是html的数据类型.这个站点的分析到此就完成了,主要分享了站点的搜索接口的参数分析思路。原创 2024-10-18 10:58:47 · 610 阅读 · 0 评论 -
大模型开发企业AI智能小助手应用高级篇
第二篇大模型开发企业AI智能小助手应用高级篇自从2020年大模型被人熟知,到现在的人尽皆知的,基本上每个人都或多或少的使用过大模型的能力。由于知识点很多,我准备分4篇文章,从系统环境配置>知识库搭建>提示词优化>系统调优>对接web系统开发一个完整的大模型应用项目!第一篇大模型应用开发系统环境配置第二篇大模型应用知识库搭建上下篇第三篇大模型应用模型及提示词优化第四篇大模型应用与halo系统对接。原创 2024-11-11 17:05:01 · 897 阅读 · 0 评论 -
python â\x89¥ 95%编码错误
1.遇到的问题: 大于等号≥编码错误:â\x89¥ 95%(正确≥ 95%)解决方法:对源代码使用编码:response = requests.get(url=url)response.encoding = response.apparent_encoding成功!原创 2021-04-27 16:02:55 · 507 阅读 · 0 评论 -
pymysql 报错 pymysql.err.ProgrammingError: (1064, “You have an error in your SQL syntax;
1.报错使用了:pymysql.escape_string()可以解决字符串转化单双引号的问题2.第一种方法需要排查出那个字符串有问题,可以打印出sql语句查看,发现字符串中只有一个双引号的问题(本人遇到的问题字符串中有一个左上双引号),解决这个问题的方法是找到对应的词加上第一步的方法。3.最好的方法就是所有都加上pymysql.escape_string()的方法,避免其他在遇到此类问题!...原创 2021-04-26 09:07:17 · 11923 阅读 · 0 评论 -
文本生成词云图wordcloud
1.安装 jieba :pip install jieba pip install retext = """ """ 一串待处理的文本2.文本预处理 1.使用正则表达式去除文本中的无用字符及特殊符号import reimport jieba# wenbenpattern = re.compile(u'[a-zA-Z\u4E00-\u9FA5]')pattern1 = re.compile(r'[0-9]')d = pattern.findall(text.encode(...原创 2021-04-25 17:45:42 · 953 阅读 · 1 评论 -
Scrapy POST不支持发送payload参数
1.使用scrapy发送post请求,参数为payload类型一般使用:return scrapy.FormRequest(url=url,formdata=data,headers=headers)到这步思路没有问题,问题就处在scrapy暂时不支持post发送payload类型。源码貌似formdata一般用于表单发送数据,为dict类型,而非str,所以获取会报错解决方法:使用如下方法:return scrapy.Request(url=url,原创 2021-04-22 11:39:13 · 374 阅读 · 0 评论 -
消息队列在爬虫开发上的应用
1.什么是消息队列消息队列一般可以作为数据缓存,在实际应用上用来存储经常需要交互的数据,以此提高访问数据的速度及提高网站的用户体验。2.有哪些数据库是消息队列redis、MQ、celery、mongodb等3.为什么使用消息队列在爬虫中使用消息队列可以开发分布式爬虫,也是分部式爬虫中很重要的技术。目前的分布式爬虫架构主要以redis为主,原因在于缓存的速度快,数据可持久化。常规的爬虫使用的是内存缓存的方式,只有在爬虫运行时,数据暂存在内存中,这样的爬虫速度也是很快的,但是由于数据不可原创 2021-04-06 23:03:20 · 561 阅读 · 0 评论 -
python3 tkinter实现GUI开发
1.使用tkinter开发桌面GUI应用,将常用的数据库操作,开发成桌面的应用。正对的数据库为:Mongodb数据库使用frame框架以及grid布局方式使用的组件:lable标签、entry输入框、text文本、button按钮使用的数据库的语法。查询总数、查询当天的采集数,修改采集状态、查询一段时间的采集量使用案例如下:import tkinterimport pymongoimport datetimefrom PIL import Image,ImageTkdef原创 2020-11-12 15:45:58 · 493 阅读 · 0 评论 -
python3打包并传递参数
使用python写脚本,但脚本里的参数是变动的、可修改的,有想将文件打包成exe,这时候可以看看本片博文:1.使用pyinstaller包进行打包安装:pip install pyinstaller通过cmd传递参数主要通过:sys.argv[1]代表第一个参数sys.argv[2]代表第二个参数使用案例:import requestsimport sysdef getBaiduHtml(keyword): url = 'https://www.baidu.com/原创 2020-11-12 15:36:37 · 950 阅读 · 1 评论 -
VPS性能优劣与使用
场景;爬虫开发,需要大量ip,可以购买vps服务器。vps服务器优点:是通过拨号上网,切换网卡,更换获取新的IP,对于大批量的爬虫来说,一旦网站被封,需要更换ip,考虑成本的问题,这时候的vps就是最佳的选择,价格几十块钱一个月,还是很便宜的。稳定性也是不错的。vps服务的缺点:由于是拨号上网,所以需要先断开网络之后,在连接网络。在断网再联这个期间ip是不可用的,失效的。其次频繁的拨号上网会使得网卡卡死,更换ip失败,这个时候就需要重启vps.,但也还有更优的方法,就是定时拨号更换,防止网卡卡死。原创 2020-11-12 15:59:29 · 312 阅读 · 0 评论 -
python3打包项目并传参
1.使用pyinstaller包进行打包安装:pip install pyinstaller通过cmd传递参数主要通过:sys.argv[1]代表第一个参数sys.argv[2]代表第二个参数例:import requestsimport sysdef getBaiduHtml(keyword): url = 'https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=bai..原创 2020-11-12 15:08:08 · 678 阅读 · 1 评论 -
Gerapy部署爬虫
1.先安装pip install gerapy初始化gerapy init 会在当前目录下创建一个gerapy文件 里面有一个projects文件夹用于存放要部署的 scrapy文件,可以放置多个文件等待调度Cd gearpy 目录下 运行 创建数据库 gerapy migrate在当前目录下创建了sqlite.db数据库需要创建账号 gerapy createsuperuser输入账号名 邮件号 密码运行 gerapy runserver...原创 2020-11-12 15:28:34 · 449 阅读 · 0 评论 -
fiddler抓包视频
""" 解析视频 可以抓包也可以控制台查看 下载VIP视频 --哪吒之魔童降世 cmd 下合并视频copy/b *.ts 哪吒.mp4"""from multiprocessing import Poolimport requestsclass Vip(object): #构造urls def get_urls(sel...原创 2020-11-12 15:58:09 · 6006 阅读 · 12 评论 -
Python爬虫:爬取app短视频
"""夜神模拟器+fiddler+Python爬取app抖音小视频下载fiddler配置网络与端口下载夜神配置网络下载认证下载app最后抓包"""class DouYinApp(): #页面请求 def get_page(self,url): response = requests.get(url) r...原创 2019-10-15 14:26:42 · 8253 阅读 · 5 评论 -
Python爬虫:获取京东商城商品信息
爬取京东商城商品信息爬取 :商品价格 商品名商品评论数 商品购买值 店铺 详情页商品指标直接上代码:from selenium import webdriverimport requestsfrom multiprocessing.pool import Poolfrom lxml import etree#爬取京东商城browser = webdriver.P...原创 2019-08-07 21:47:42 · 18482 阅读 · 1 评论 -
Python爬虫:爬取城市景点信息
爬取详情页面的所有信息景点名称,地址 、简介、类型、时间、门票等直接就上代码;import requestsfrom lxml import etreefrom multiprocessing.pool import Poolheaders = { 'Referer': 'https://yancheng.cncn.com/jingdian/dazonghu/', ...原创 2019-08-07 21:35:12 · 3408 阅读 · 0 评论 -
Python爬虫:多线程爬取盗墓笔记
用到的库函数import requestsimport timefrom lxml import etreefrom multiprocessing.pool import Pool爬取用xpath爬取盗墓笔记的标题、章节、正文直接上代码:页面获取;def get_info(url): headers = { 'Accept'...原创 2019-08-03 15:41:09 · 744 阅读 · 0 评论 -
scrapy :爬取小说
速度是相当的快的爬取整站的小说最后结果保存至mongodb数据库pycharm开发还是很好用的创建项目:scrapy startproject daomubiji 运行项目:scrapy crawl daomubisettingsDEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,app...原创 2019-08-04 21:31:12 · 516 阅读 · 0 评论 -
Python爬虫:selenium+xpath爬取淘宝商品信息
爬取内容:商品名称、价格、销售量、店铺名、商家地址1 导入库函数:from selenium import webdriverimport timefrom lxml import etreeimport csv2、driver = webdriver.Firefox()#火狐浏览器模拟请求3、解析函数def get_info(url, page):#页面请求解析函数...原创 2019-07-05 12:45:11 · 2636 阅读 · 0 评论 -
Python爬虫:selenium+xpath爬取腾讯招聘
#selenium 爬取javascript编写的网页#使用xpath#爬取职位名称以及基本介绍直接上代码!!!from selenium import webdriverfrom lxml import etree# 创建tecent类class tencent(object): # 构造函数带参数url def __init__(self, url):...原创 2019-06-24 18:23:54 · 1002 阅读 · 0 评论 -
python 爬虫:爬取91job竞赛题库
#http://ycit.91job.gov.cn/contest/question#本次爬去的是91job竞赛的题库#共52题#爬去题目与正确答案#保存为doc格式#由于需要登陆所以我采用的是cookie#但是可能在你使用这部分代码是cookie已经失效了 你可以用自己的账号#xpath是一款十分好用的提取数据的方法#由于爬取简单就直接上代码了import ...原创 2019-06-07 13:08:25 · 5913 阅读 · 4 评论 -
Python爬虫:爬取西刺dail
网址:#https://www.xicidaili.com/nn/1vscode爬取:xpath提取数据:ip,port,local,hidden,kind,check_time程序是有用, 只是由于过多的请求爬取,最后电脑访问不了西刺代理网站了,但有兴趣的朋友可以复制到自己电脑试试。应该是可以的还是希望你朋友们对网站温柔点吧!上代码:需要的库:import re...原创 2019-05-10 21:35:55 · 1566 阅读 · 0 评论 -
爬取我爱我家房源信息
1、创建项目scrapy startproject pachong创建文件scrapy genspider woaiwojia2、编辑items.py自定义要爬取的字段域class Pachong2Item(scrapy.Item): apartment = scrapy.Field() total_price = scrapy.Field()编辑se...原创 2019-04-04 19:48:35 · 1676 阅读 · 3 评论 -
scrapy:爬取天堂图片库
用scrapy爬取天堂图片库:文件目录items.py文件:定义字段import scrapyclass ScraPictureItem(scrapy.Item): pic_url = scrapy.Field()spiders/pic.py:函数的主程序# -*- coding: utf-8 -*-import scrapyfrom Scra_P...原创 2019-05-08 10:01:02 · 718 阅读 · 0 评论 -
scrapy基础框架入门介绍
scrapy框架通常用于爬取大数据量的爬取应用上首先要在电脑上安装scrapy可用pip install scrapy如果不成功就到官网下载在安装,具体操作不在这写了首先创建scrapy项目:scrapy startproject [项目名]创建爬虫文件:scrapy genspider [文件名]运行爬虫:scrapy crawl [文件名]几种常见的命令行的保存文...原创 2019-04-04 19:35:35 · 280 阅读 · 0 评论 -
MongoDB数据库基础入门操作
创建数据库用于保存爬虫数据,节省电脑空间Python对数据库的基本的操作链接数据前1、必须确保已经正确安装了数据库2、必须打开数据库3、为了增加视图效果需下载数据库可视化软件import pymongo# 连接数据库client = pymongo.MongoClient(host='localhost', port=27017)# 指定链接数据库名为testdb...原创 2019-04-04 18:49:49 · 242 阅读 · 0 评论 -
Python爬虫: 爬取图片
爬取网上的图片,为网站提供图片丰富的素材具体爬取过程如下:import requestsfrom lxml import etree# 爬取天堂图片网图片class Picture(object): def __init__(self, url): self.headers = {'User-Agent': 'Mozilla/5.0 (Windows...原创 2019-04-04 18:45:03 · 579 阅读 · 0 评论 -
爬取某爱某家网二手房源信息
# xpath爬取# 爬取小区名称、户型、地区、售价、总价1、导入模块import requestsimport csvfrom lxml import etree2、创建类# 创建我爱我家类class Woaiwojia:3、类函数定义编写# 创建页面获取函数 def get_page(self, url): self.url = u...原创 2019-03-01 16:29:44 · 3398 阅读 · 9 评论 -
Python爬虫:正则表达式爬取校花网
#正则表达式爬取校花网# 网址 url = 'http://www.xiaohuar.com'#分页爬取大学校花图片共16页640张美图1、导入模块import requestsimport re2、定义页面爬取函数get_page(url)def get_page(url): response = requests.get(url) #获取HTML代码 ...原创 2019-02-20 15:03:46 · 571 阅读 · 0 评论 -
Python爬虫:爬去韩国电视剧信息
最近看韩剧想重温一下以前看的韩剧 但是就记得剧情 到网站上找了 太多点的太麻烦,网上问了也回答不了 找的几个片名都不对,所以就想写个爬虫爬去某站上所有的韩剧信息,可以方便查找想看的韩剧爬取具体如下:# 爬去网站韩国电视剧的信息# 爬去片面、时间、地区、主演、简介1、导入模块import requestsimport timefrom lxml import etree...原创 2019-03-21 16:45:16 · 1973 阅读 · 0 评论 -
Python爬虫:正则表达式爬取猫眼电影
#正则表达式爬取猫眼电影#网址http://maoyan.com#爬取猫眼电影排行前一百名电影#爬去排名、图片、片名、演员、时长、得分1、导入模块import requestsimport reimport json2、#定义页面获取函数def get_one_page(url): headers = { "User-Agent":"Mozil...原创 2019-02-20 15:15:05 · 1098 阅读 · 0 评论 -
Python爬虫:爬取抽屉网
#用xpath爬取抽屉网#翻页爬取抽屉网的段子#爬取内容为段子的作者、点赞数、评论数、内容1、导入模块import requestsimport timefrom lxml import etree2、#创建保存函数def save_info(contents): with open('./段子.doc', 'a', encoding='utf-8', newl...原创 2019-02-15 16:04:30 · 613 阅读 · 0 评论 -
Python爬虫:Q房网房源信息
#爬虫项目采取xpath解析#爬取Q房源网的详情信息并保存为csv文件#爬取具体内容有:"小区名称", "户型", "面积", "装修", "楼层", "朝向",# "售价", "总价/万", "详情" 1、导入模块import requestsimport timefrom lxml import etre原创 2019-02-15 12:16:17 · 4830 阅读 · 7 评论 -
Python爬虫: 爬取链家淮安经纪人信息
Python 爬取链家淮安经纪人信息#爬取链家房源经纪人信息#有xpath解析爬取:人名,负责区域#定义csv保存函数1、导入模块import requestsfrom lxml import etreeimport csvimport time2、创建页面抓取主函数def lianjia_spider(list_url):def lianjia_spider(...原创 2019-02-14 13:53:33 · 720 阅读 · 0 评论 -
Python爬虫: 爬取淮安出租房源信息56页1111套
Python爬虫:# 爬取淮安出租房源信息1111套# 爬取内容为小区名、户型、面积、价格、地址# 本次爬取使用xpath进行数据的提取1、导入模块 import requests from lxml import etree import threading2、定义huaian_chuzu_house(i)函数进行页面爬取def hua...原创 2019-02-14 12:24:56 · 326 阅读 · 0 评论 -
Python爬取电影信息
利用火狐浏览器模拟登录爬取源码 ! 爬取电影天堂的影片进行多页爬取1、导入模块from bs4 import BeautifulSoupimport reimport requestsfrom selenium import webdriverimport time2、构建浏览器爬取多页代码 for i in range(1, 4):#爬去第一页到第三页的信息...原创 2019-01-01 11:26:39 · 3295 阅读 · 0 评论 -
Python多线程爬虫:爬取红盾网
import requestsimport timeimport csvimport pymongofrom lxml import etreefrom multiprocessing import Pool"""本项目只用于学习,不用于获取倒卖任何信息获取网页所有地区的链接详情页信息Windows10Pycharm2018xpath多线程数据库"""clas...原创 2019-09-27 18:36:05 · 404 阅读 · 0 评论