爬虫数据分析携程酒店:pandas结合matplotlib

本文通过数据提取、清洗和可视化手段,分析了7000多条酒店数据,展示了酒店档次分布及用户点评的情感分析,利用Python的pandas、matplotlib、jieba和wordcloud等库进行数据处理和展示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#本篇主要是针对抓取下来的数据进行进一步的清晰和提取有用信息,并且可视化

1.数据提取,这部分我就直接用之前的数据,总共7000多条
在这里插入图片描述

2.读取和实现,我把代码先放上,具体有备注

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl  # 配置字体
import jieba
from  wordcloud import WordCloud


mpl.rcParams["font.sans-serif"] = ["Microsoft YaHei"] #配置字体,不然汉字有的显示不正常

df=pd.read_csv(r"C:\Users\Administrator\bjjiudiannew.csv",encoding="utf-8")
df=df.fillna(0)
b=df.shape
print(b)
print(type(b))
# aa=df[df["星级"]>3]["星级"]
# bb=df[df["星级"]>3]["评分"]
# print(aa)
# plt.bar(bb)
# plt.show()
df["档次"].value_counts().plot(kind='bar',rot=33,) #rot为偏移斜度,
plt.show()
df["档次"].value_counts().plot(kind='pie',rot=33,autopct='%1.2f%%', explode =np.linspace(0,0.5,8)) #autopct百分数小数,explode 8一定为整个份数相同
plt.show()

#因为分词不支持分数字,之前空值填充了0,所以取小个范围测试
nn=""
for n in range(20):
    lists=list(jieba.cut(df["用户点评"][n]))
    print(lists)
    for mm in lists:
        nn=nn+mm
        print(type(mm))
#
mylist=WordCloud(font_path=r"C:\Windows\Fonts\simkai.ttf",width=1900,height=1500).generate(nn)
plt.imshow(mylist)
plt.axis("off")
plt.show()

a)分析酒店档次分布

在这里插入图片描述
在这里插入图片描述

b)用户点评分词云图分析
在这里插入图片描述

c)多因子分析(档次,星级,推荐),这是通过可视化分析平台http://app.rawgraphs.io/ 实现
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

loong_XL

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值