天池_短租数据分析
数据源:https://tianchi.aliyun.com/competition/entrance/231715/information
导入模块
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline plt.rc("font",family="SimHei",size="12") #解决中文无法显示的问题
导入数据
#导入数据 listings=pd.read_csv('F:\\python\\天池_短租数据分析\\listings.csv')
简单的数据查看
listings.info() listings.head(5) listings.shape listings.describe()
<class 'pandas.core.frame.DataFrame'> RangeIndex: 28452 entries, 0 to 28451 Data columns (total 16 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 id 28452 non-null int64 1 name 28451 non-null object 2 host_id 28452 non-null int64 3 host_name 28452 non-null object 4 neighbourhood_group 0 non-null float64 5 neighbourhood 28452 non-null object 6 latitude 28452 non-null float64 7 longitude 28452 non-null float64 8 room_type 28452 non-null object 9 price 28452 non-null int64 10 minimum_nights 28452 non-null int64 11 number_of_reviews 28452 non-null int64 12 last_review 17294 non-null object 13 reviews_per_month 17294 non-null float64 14 calculated_host_listings_count 28452 non-null int64 15 availability_365 28452 non-null int64 dtypes: float64(4), int64(7), object(5) memory usage: 3.5+ MB
数据情况如上面截图,主要是有关可租房屋的信息,字段含义和英文含义基本一致,主要包括:房东ID、房东姓名、所属行政区、经纬度、房间类型、价格、最小可租天数、评论数量、最后一次评论时间、每月评论占比、可出租房屋、每年可出租时长等
查看数据缺失情况
#数据缺失计算 missing=listings.isnull().sum() missing[missing>0].plot.bar()
缺失比例
#数据缺失比例计算 missing=listings.isnull().sum()/len(listings) missing[missing>0].plot.bar()
可以看出来,一共有四个字段有缺失,其中有一个字段缺失特别严重,缺失比例达到了100%,可以删除,还有2个缺失40%左右,也可以考虑将此删除
区分数据特征个类别特征
#数据特征 numeric_features = listings.select_dtypes(include=[np.number]) numeric_features.columns #类别特征 categorical_features = listings.select_dtypes(include=[np.object]) categorical_features.columns
类别特征
查看类别特征的值的个数
for cat_fea in categorical_features: print(cat_fea + "的特征分布如下:") print("{}特征有个{}不同的值".format(cat_fea, listings[cat_fea].nunique())) print(listings[cat_fea].value_counts())
类别特征['name', 'host_name', 'neighbourhood', 'room_type', 'last_review']
只保留neighbourhood,'/'前面的值
#使用str.split,记住不要忘记.str,不然会出错 listings['neighbourhood']=listings['neighbourhood'].str.split('/').str[0]
原来是这样:
0 朝阳区 / Chaoyang 1 密云县 / Miyun 2 东城区 3 东城区 4 朝阳区 / Chaoyang Name: neighbourhood, dtype: object
现在是这样:
0 朝阳区 1 密云县 2 东城区 3 东城区 4 朝阳区 Name: neighbourhood, dtype: object
分析neighbourhood和room_type对和price的关系
#按照neighbourhood和room_type分组,计算每个值的个数和price的均值 neigh_roomtype=listings.groupby(['neighbourhood','room_type']).agg({'id':'size','price':'mean'}) #将ID改为number neigh_roomtype=neigh_roomtype.rename(columns={'id':'number'}) #先对number计算统计可视化等 number_n_r=neigh_roomtype.unstack()['number'] number_n_r.plot(figsize=(12,5),title='图1:不同房屋类型在不同地区的数量')
画条形图
#条形图 number_n_r.plot.bar(figsize=(12,5),title='图1:不同房屋类型在不同地区的数量')
画饼图
#画饼图(sum(1)是按行求和) number_n_r.sum(1).sort_values().plot.pie(figsize=(6,6),autopct='%.2f%%',title='图2:房屋地区占比')
#画饼图(按列求和) number_n_r.sum(0).sort_values().plot.pie(figsize=(6,6),autopct='%.2f%%',title='图3:房屋类型占比')
不同区域不同房子类型的均价
#先对price计算统计可视化等 price_r=neigh_roomtype.unstack()['price'] price_r.plot.bar(figsize=(12,5),title='图1:不同房屋类型在不同地区的均价') #先对price计算统计可视化等 price_r=neigh_roomtype.unstack()['price'] price_r.plot(figsize=(12,5),title='图1:不同房屋类型在不同地区的均价')
计算不同房源均价
#计不同地区均价 listings.groupby('neighbourhood')['price'].mean().sort_values().plot.bar(figsize=(8,8),title='图4:不同地区房源均价')
不能是这样,因为这样没有考虑个数,直接使用三个值平均,这种做法是错误了
price_r.mean(1).sort_values().plot.bar(figsize=(6,6),title='图2:房屋地区占比')
计算不同房屋类型均价
#不同房屋类型均价 listings.groupby('room_type')['price'].mean().sort_values().plot.bar(figsize=(8,8),title='图5:不同房屋类型均价')
不同房源地区不同房屋类型均价
#不同房源地区和房子类型均价 n_r_data=listings.groupby(['neighbourhood','room_type'])['price'].mean() plt.figure(figsize=(8,8)) plt.title('图6:不同房屋类型在不同地区的均价') sns.barplot(x='neighbourhood',y='price',hue='room_type',data=n_r_data.reset_index()) #或者是这样子 #先对price计算统计可视化等 price_r=neigh_roomtype.unstack()['price'] price_r.plot.bar(figsize=(12,5),title='图1:不同房屋类型在不同地区的均价')
查看name 和host_name
listings[['name', 'host_name']].head()
房东名字应该是没有什么信息的,可以考虑去掉,name可以从中提取一些特征
查看最后last_review
listings['last_review'].head()
0 2019-03-04 1 2017-10-08 2 2019-02-05 3 2016-12-03 4 2018-08-01 Name: last_review, dtype: object
可以构造一些有用的特征
数值特征
查看数值特征的值的分布,连续还是离散的
''' Index(['id', 'host_id', 'neighbourhood_group', 'latitude', 'longitude', 'price', 'minimum_nights', 'number_of_reviews', 'reviews_per_month', 'calculated_host_listings_count', 'availability_365'], dtype='object') ''' for i in numeric_features.columns: print(i,listings[i].value_counts())
1.id和host_id是没有什么信息的可以删除
#可以先保留一下id ,然后再删除 id=listings['id'] listings=listings.drop(['id', 'host_id'],axis=1)
2.由于neighbourhood_group的值全部一样,都是空值,因此将此删除
listings=listings.drop('neighbourhood_group',axis=1)
3.经纬度,可能和房源区域强相关
sns.regplot('latitude','price',data=listings) sns.regplot('longitude','price',data=listings)
4.最小可租天数
sns.regplot('minimum_nights','price',data=listings)
sns.boxplot('minimum_nights',data=listings)
这肯定有异常值了,而且一般不都是最小入住天数是1天吗
#看的出来最小入住天数是1晚,还有30天这个值还挺多的有609个,应该是月租 listings['minimum_nights'].value_counts().sort_index()
5.评论数量、最后一次评论时间(单独拿出来)、每月评论占比、可出租房屋、每年可出租时长
for i in ['number_of_reviews', 'calculated_host_listings_count', 'availability_365']: sns.regplot(i,'price',data=listings) plt.show()
目标变量price
sns.boxplot(listings['price']) sns.distplot(listings['price'])
大于10000的值影响太大了,可以只画10000以下的
sns.distplot(listings[listings['price']<=10000]['price'])
查看一下描述性
listings['price'].describe()
count 28452.000000 mean 611.203325 std 1623.535077 min 0.000000 25% 235.000000 50% 389.000000 75% 577.000000 max 68983.000000 Name: price, dtype: float64
再看一下1000以下的
sns.distplot(listings[listings['price']<=1000]['price'])
为什么会有0,好诡异,青年旅馆吗
listings['price'].value_counts().sort_index() #0 3
log一下
sns.distplot(np.log(listings['price']+1)) sns.distplot(np.log(listings[listings['price']<=1000]['price']+1))
特征工程
先复制一份数据,省得对原数据造成影响
train=listings.copy()
先对类别特征进行构造特征
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人