通过Python 读取拍拍店信息

最新推荐文章于 2025-08-12 18:06:10 发布

原创最新推荐文章于 2025-08-12 18:06:10 发布 · 2.8k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #产品 #url #import #c #object

Python 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种使用Python爬虫技术抓取拍拍网站上产品序列号的方法。通过urllib.request模块获取网页内容，并利用正则表达式re.compile匹配产品链接及编号。该程序能够自动抓取指定页面范围内的产品序列号并保存到本地文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

拍拍产品序列

代码如下:

# coding=gbk
#取和拍拍所有产品的编号
import urllib.request
import re
all_data = []
RootPath = 'd:/pydir/'
ourl = 'http://*.paipai.com/'
for i in range(1,11):
print(i)
url = ourl+'0000000000-'+str(i)+'-1/shop.html' # 后面不能再加:?keyword=#item之类的,不然会造成读取数据出错.
print(url)
data = urllib.request.urlopen(url).read()
data = data.decode('GBK')#转成字符串,不然会是乱码,一直提示说:can't use a string pattern on a bytes-like object
r1 = re.compile('<a href="http://auction1.paipai.com/([^"]+)(.*)>([^<>]+?)</a>',re.I)#忽略大小写
c_t = r1.findall(data)
print(c_t)
c_t = c_t[6:len(c_t)]#前六种商品都是推荐的产品
for i,x in enumerate(c_t):
c_t[i] = x[0]+','+x[2]
all_data.append(c_t[i])
print(c_t)