2018 年 6月 19 日随笔档案 - zhaop

2018年6月19日

摘要： 1、词集模型将每个词的出现与否作为一个特征，不考虑词频。也就是一个词在文本在文本中出现1次和多次特征处理是一样的。 2、词袋模型与词集相比，会考虑词频 sklearn中 CountVectorizer与 CountVectorizer: 会以每一个词作为特征，求出每一个词的词频 http://w 阅读全文

posted @ 2018-06-19 15:09 zhaop 阅读(150) 评论(0) 推荐(0) 编辑

kaggle竞赛入门整理

摘要： 1、Bike Sharing Demand kaggle: https://www.kaggle.com/c/bike-sharing-demand 目的：根据日期、时间、天气、温度等特征，预测自行车的租借量处理：1、将日期（含年月日时分秒）提取出年，月，星期几，以及小时 2、season, w 阅读全文

posted @ 2018-06-19 10:59 zhaop 阅读(403) 评论(0) 推荐(0) 编辑

pandas知识点

摘要： 1、选择对象 1.选择特定列和行的数据 a['x'] 那么将会返回columns为x的列，注意这种方式一次只能返回一个列。a.x与a['x']意思一样。取行数据，通过切片[]来选择如：a[0:3] 则会返回前三行的数据。 2.loc是通过标签来选择数据 a.loc['one']则会默认表示选取行阅读全文

posted @ 2018-06-19 10:00 zhaop 阅读(151) 评论(0) 推荐(0) 编辑

zhaop

所谓梦想，不是最初的勇不可当，而是永不停息的疯狂

公告