从某一列中截取字符信息——extract()的使用
爬虫获取某网站杭州到丽江的旅游信息,进行分析
(1)导入数据
df = pd.read_csv("travel.csv")
(2)从路线信息中提取旅游天数、酒店等级、酒店评分、旅游价格等信息
df["天数"]=df.路线信息.str.extract('(\d+)天\d+晚').apply(lambda x: int(x))
df["酒店评分"]=df.酒店信息.str.extract('(\d\.\d)分').apply(lambda x: float(x))
df["酒店等级"]=df.酒店信息.str.extract('\n(.*)')
df["价格"]=df.路线信息.str.extract('(\d+)起/人').apply(lambda x: int(x))
(3)将酒店等级(定类数据)修改为数值型数据,方便在此基础上建模
class_map = {"其他":0,"经济型":1,"舒适型":2,"高档型":3,"豪华型":4}
df["酒店等级"]=df["酒店等级"].map(class_map)
(4)在此基础上可以使用线性回归等建模
重点知识(以前自己不知道的小知识点):
从字符串中提取数据,只知道find()....今天终于学会了新的依照,extract(),新知识总是让人开心哈!!!!!
使用extract方法提取数字:它的第一个参数是正则表达式,括号表示要提取的部分