创新项目实训(三)
前言
我们组打算搭建一个国内旅游比价网站,
而我负责的部份是各大订酒店网站的数据获取及整理
国内网站:携程、途牛、去哪儿、飞猪、马蜂窝等
国外网站:Booking、Agoda、Trip、Airbnb
主要参考版上的经验分享+自己的修改理解
小白0经验入门记录、边爬边学习ing
有错误或更好的建议都可以指教讨论
飞猪酒店
跟其他比起来稍稍复杂一些,cookie过段时间会过期要重新登入
目前还在尝试看有没有办法解决
采用python+request
目标获取酒店名称、星级、用户评分、评论数、最低价格
先上个结果图
还是阳春的呈现方式
正片开始
搜索上海的酒店,需要登入才能看到价格
url构成
https://hotel.fliggy.com/hotel_list3.htm?cityName={城市名}&city={程式码}&keywords=&checkIn={入住时间}&checkOut=2{退房时间}&_output_charset=utf8
按F12
翻下一页可以看到多了一个hotelList
GET方法,request URL满满的参数
需要注意的参数
currentPage: 2
totalItem: 20790
city: 310100
detailLinkCity: 310100
cityName: 上海
checkIn: 2021-04-20
checkOut: 2021-04-21
userClientIp:
userSessionId:
totalPage: 1040
_ksTS: 1618812490673_4129
callback: jsonp4130
- City跟detailLinkCity是行政区划代码,网上搜得到档案,下载直接调用就行
- 更改currentPage可以获取其他页面的数据
- _ksTS 跟callback是特别的时间戳参数,网上搜到构造办法
ktsts = time.time()
_ksTS = '%s_%s' % (int(ktsts * 1000), str(ktsts)[-3:])
callback = "jsonp%s" % (int(str(ktsts)[-3:]) + 1)
再来我们来获取totalPage跟totalItem
搜一下可以看到Doc有个hotel_List是搜索结果的第一页
里面也有totlaItem
这样先获取这页文档拿到totalItem
def getTotal(city,checkin,checkout):
cityCode = getCityId(city)
url = 'https://hotel.fliggy.com/hotel_list3.htm?_input_charset=utf-8&cityName={}&city={}&keywords=&checkIn={}&checkOut={}&_output_charset=utf8'.format(p.quote(city),cityCode,checkin,checkout)
header ={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36 Edg/89.0.774.75',
'cookie': ' 自己的cookie'
}
param ={
'_input_charset': 'utf-8',
'cityName': city,
'city': cityCode,
'keywords': '',
'checkIn': checkin,
'checkOut': checkout,
'_output_charset': 'utf8'
}
res =requests.get(url=url,headers=header,params=param)
# list转str,找总数
total_item = "".join(re.findall(r'totalItem\"\:(.*?)\,', res.text))
page = math.ceil(int(total_item) / 20)
return total_item,page
这样所有的参数就有了
获得数据后,提取所需的资料
#正则表达式
ID_Name = re.findall(r'\"shid\"\:(.*?)\,\"name\"\:\"(.*?)\"\,', list)
Score = re.findall(r'\"rateScore\"\:\"(.*?)\"\,', list)
Star = re.findall(r'\"star\"\:\"(.*?)\"\,', list)
Price = re.findall(r'\"priceDesp\"\:\"(.*?)\"\,', list)
Comment = re.findall(r'\"rateNum\"\:(.*?)\,', list)
url = 'https://hotel.fliggy.com/hotel_detail2.htm?shid={}&city={}&checkIn={}&checkOut={}&searchId=4811e8b3defc48fe92d7698b9842bbb5&_output_charset=utf8'.format(ID_Name[i][0],citycode,checkin,checkout)
最后for循环获得所有页面即可
(更改每页的currentPage就完成了)