目录
本例中将使用Airbnb的数据。Airbnb是一个旅行服务短期租赁的社区,它拥有广泛的用户出行场景数据,通过这些数据,锁定潜在的目标客群并制定相应的营销策略是Airbnb业务发展的基石。
第一部:导包和数据导入
#调包
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
#数据导入
airbnb=pd.read_csv('w3_airbnb.csv')
airbnb.head()
字典数据及解释:
- id:唯一的用户id
- date_account_created:用户创建时间
- date_first_booking:第一次订房日期
- gender:性别
- Age:年龄
- Married:已婚
- Children:小孩数量
- Android:曾在安卓App中预定
- Moweb:曾在手机移动网页中预定
- web:曾在电脑网页版预定
- ios:曾在iso app预定
- Language_EN:使用英文语言
- Language_ZH:使用中文语言
- Country_US:目的地是美国
- Country_EUR:目的地是欧洲国家
导入数据后,我们可以看到,数据中有两个日期,一个是用户注册日期,一个是订房日期,然后还有用户个人信息,渠道信息和基本的网页使用信息。这三类基本信息的分析即可以帮助我们分析人群的基本特征。
本案例中,我们依然遵循数据分析的基本流程,如下所示:
在使用info()和describe()函数查看数据之后,我们发现值得注意的点:
- date_account_created和date_first_booking是时间变量,需要做调整
- gender是字符型变量,同样需要调整
- 我们数据中的gender包括F(Female)和M(Male),在很多时候,网站为了尊重客户隐私,还会出现U,就是unknown
1.数据清洗:
1.1年龄清洗
发现年龄最小为2,最大为2014,属于异常数据,进行数据清洗,这里保留用户年龄在18-80岁之间的群体。
airbnb=airbnb[airbnb['age']>=18]
airbnb=airbnb[airbnb['age']<=80]