摘要: 1、词集模型 将每个词的出现与否作为一个特征,不考虑词频。也就是一个词在文本在文本中出现1次和多次特征处理是一样的。 2、词袋模型 与词集相比,会考虑词频 sklearn中 CountVectorizer与 CountVectorizer: 会以每一个词作为特征,求出每一个词的词频 http://w 阅读全文
posted @ 2018-06-19 15:09 zhaop 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 1、Bike Sharing Demand kaggle: https://www.kaggle.com/c/bike-sharing-demand 目的:根据日期、时间、天气、温度等特征,预测自行车的租借量 处理:1、将日期(含年月日时分秒)提取出年,月, 星期几,以及小时 2、season, w 阅读全文
posted @ 2018-06-19 10:59 zhaop 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 1、选择对象 1.选择特定列和行的数据 a['x'] 那么将会返回columns为x的列,注意这种方式一次只能返回一个列。a.x与a['x']意思一样。 取行数据,通过切片[]来选择 如:a[0:3] 则会返回前三行的数据。 2.loc是通过标签来选择数据 a.loc['one']则会默认表示选取行 阅读全文
posted @ 2018-06-19 10:00 zhaop 阅读(151) 评论(0) 推荐(0) 编辑