创新项目实训(三)

最新推荐文章于 2024-01-05 08:34:44 发布

原创最新推荐文章于 2024-01-05 08:34:44 发布 · 322 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

创新项目实训专栏收录该内容

12 篇文章

订阅专栏

创新项目实训(三)

前言

我们组打算搭建一个国内旅游比价网站，
而我负责的部份是各大订酒店网站的数据获取及整理

国内网站:携程、途牛、去哪儿、飞猪、马蜂窝等
国外网站:Booking、Agoda、Trip、Airbnb

主要参考版上的经验分享+自己的修改理解
小白0经验入门记录、边爬边学习ing
有错误或更好的建议都可以指教讨论

飞猪酒店

跟其他比起来稍稍复杂一些，cookie过段时间会过期要重新登入
目前还在尝试看有没有办法解决

采用python+request
目标获取酒店名称、星级、用户评分、评论数、最低价格

先上个结果图

还是阳春的呈现方式

在这里插入图片描述

正片开始

搜索上海的酒店,需要登入才能看到价格

url构成
https://hotel.fliggy.com/hotel_list3.htm?cityName={城市名}&city={程式码}&keywords=&checkIn={入住时间}&checkOut=2{退房时间}&_output_charset=utf8

按F12

翻下一页可以看到多了一个hotelList
GET方法，request URL满满的参数

在这里插入图片描述

需要注意的参数

currentPage: 2
totalItem: 20790
city: 310100
detailLinkCity: 310100
cityName: 上海
checkIn: 2021-04-20
checkOut: 2021-04-21
userClientIp:
userSessionId:
totalPage: 1040
_ksTS: 1618812490673_4129
callback: jsonp4130

City跟detailLinkCity是行政区划代码，网上搜得到档案，下载直接调用就行
更改currentPage可以获取其他页面的数据
_ksTS 跟callback是特别的时间戳参数，网上搜到构造办法

 ktsts = time.time()
_ksTS = '%s_%s' % (int(ktsts * 1000), str(ktsts)[-3:])
 callback = "jsonp%s" % (int(str(ktsts)[-3:]) + 1)

再来我们来获取totalPage跟totalItem
搜一下可以看到Doc有个hotel_List是搜索结果的第一页
里面也有totlaItem

在这里插入图片描述
这样先获取这页文档拿到totalItem

在这里插入图片描述

def getTotal(city,checkin,checkout):
    cityCode = getCityId(city)
    url = 'https://hotel.fliggy.com/hotel_list3.htm?_input_charset=utf-8&cityName={}&city={}&keywords=&checkIn={}&checkOut={}&_output_charset=utf8'.format(p.quote(city),cityCode,checkin,checkout)
    header ={
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36 Edg/89.0.774.75',
        'cookie': ' 自己的cookie'
    }
    param ={
        '_input_charset': 'utf-8',
        'cityName': city,
        'city': cityCode,
        'keywords': '',
        'checkIn': checkin,
        'checkOut': checkout,
        '_output_charset': 'utf8'
    }
    res =requests.get(url=url,headers=header,params=param)
    # list转str，找总数
    total_item = "".join(re.findall(r'totalItem\"\:(.*?)\,', res.text))
    page = math.ceil(int(total_item) / 20)
    return total_item,page

这样所有的参数就有了

获得数据后，提取所需的资料

在这里插入图片描述

	#正则表达式
	ID_Name = re.findall(r'\"shid\"\:(.*?)\,\"name\"\:\"(.*?)\"\,', list)
    Score = re.findall(r'\"rateScore\"\:\"(.*?)\"\,', list)
    Star = re.findall(r'\"star\"\:\"(.*?)\"\,', list)
    Price = re.findall(r'\"priceDesp\"\:\"(.*?)\"\,', list)
    Comment = re.findall(r'\"rateNum\"\:(.*?)\,', list)
    url = 'https://hotel.fliggy.com/hotel_detail2.htm?shid={}&city={}&checkIn={}&checkOut={}&searchId=4811e8b3defc48fe92d7698b9842bbb5&_output_charset=utf8'.format(ID_Name[i][0],citycode,checkin,checkout)