从某一列中截取字符信息——extract()的使用

爬虫获取某网站杭州到丽江的旅游信息,进行分析

(1)导入数据

  df = pd.read_csv("travel.csv")

(2)从路线信息中提取旅游天数、酒店等级、酒店评分、旅游价格等信息

  df["天数"]=df.路线信息.str.extract('(\d+)天\d+晚').apply(lambda x: int(x))
  df["酒店评分"]=df.酒店信息.str.extract('(\d\.\d)分').apply(lambda x: float(x))
  df["酒店等级"]=df.酒店信息.str.extract('\n(.*)')
  df["价格"]=df.路线信息.str.extract('(\d+)起/人').apply(lambda x: int(x))

(3)将酒店等级(定类数据)修改为数值型数据,方便在此基础上建模

  class_map = {"其他":0,"经济型":1,"舒适型":2,"高档型":3,"豪华型":4}
  df["酒店等级"]=df["酒店等级"].map(class_map)

(4)在此基础上可以使用线性回归等建模

重点知识(以前自己不知道的小知识点):

  从字符串中提取数据,只知道find()....今天终于学会了新的依照,extract(),新知识总是让人开心哈!!!!!

  使用extract方法提取数字:它的第一个参数是正则表达式,括号表示要提取的部分

 

posted @ 2018-07-26 23:18  小叶子666  阅读(1041)  评论(0编辑  收藏  举报