通过Python 读取 拍拍店信息

本文介绍了一种使用Python爬虫技术抓取拍拍网站上产品序列号的方法。通过urllib.request模块获取网页内容,并利用正则表达式re.compile匹配产品链接及编号。该程序能够自动抓取指定页面范围内的产品序列号并保存到本地文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

拍拍产品序列

 

代码如下:

 

# coding=gbk
#取和拍拍所有产品的编号
import urllib.request
import re
all_data = []
RootPath = 'd:/pydir/'
ourl = 'http://*.paipai.com/'
for i in range(1,11):
 print(i)
 url = ourl+'0000000000-'+str(i)+'-1/shop.html' # 后面不能再加:?keyword=#item之类的,不然会造成读取数据出错.
 print(url)
 data = urllib.request.urlopen(url).read()
 data = data.decode('GBK')#转成字符串,不然会是乱码,一直提示说:can't use a string pattern on a bytes-like object
 r1 = re.compile('<a href="http://auction1.paipai.com/([^"]+)(.*)>([^<>]+?)</a>',re.I)#忽略大小写
 c_t = r1.findall(data)
 print(c_t)
 c_t = c_t[6:len(c_t)]#前六种商品都是推荐的产品
 for i,x in enumerate(c_t):
  c_t[i] = x[0]+','+x[2]
  all_data.append(c_t[i])
 print(c_t)
 

filehandler = open(RootPath+'paipai.txt','w')      #以追加模式打开文件,如果文件不存在则创建
filehandler.write('/n'.join(all_data))
filehandler.close()
#print(data)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值