会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
To be a data scientist
数据科学相关的学习笔记,实践心得
博客园
首页
新随笔
联系
订阅
管理
2017年7月15日
多元线性回归模型的特征压缩:岭回归和Lasso回归
摘要:
阅读全文
posted @ 2017-07-15 11:29 依然很拉风
阅读(3766)
评论(0)
推荐(0)
编辑
2017年7月14日
多元线性回归模型的特征选择:全子集回归、逐步回归、交叉验证
摘要:
阅读全文
posted @ 2017-07-14 09:37 依然很拉风
阅读(21469)
评论(4)
推荐(2)
编辑
2017年4月20日
大规模爬虫流程总结
摘要: 爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1 n这么简单,还会衍生出许多别的问题。 系统的大规模爬虫流程如图所示。 先检查是否有API API是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内
阅读全文
posted @ 2017-04-20 18:26 依然很拉风
阅读(2082)
评论(8)
推荐(1)
编辑
2017年3月16日
Python自动生产表情包
摘要:
表情包不仅仅是一种符号,更是一种文化——是促进社交乃至社会发展的动力之一,就像懒。我们坚持认为,一张优秀的表情包,应该是一幅艺术品,是那忽如一夜春风来的灵感爆发,是那嘈嘈切切错杂弹的情思激荡,是那直挂云帆济沧海的壮志豪情,是那一览天下众山小的迎风胜利——是不可以容忍码农用其惯有的形式固定、流程固定、毫无美感、毫无艺术的变幻和惊喜的直线思维解构。
阅读全文
posted @ 2017-03-16 19:14 依然很拉风
阅读(7796)
评论(4)
推荐(2)
编辑
2017年3月7日
Python拉勾爬虫——以深圳地区数据分析师为例
摘要: 拉勾因其结构化的数据比较多因此过去常常被爬,所以在其多次改版之下变得难爬。不过只要清楚它的原理,依然比较好爬。其机制主要就是AJAX异步加载JSON数据,所以至少在搜索页面里翻页url不会变化,而且数据也不会出现在源代码里。 数据解析 这是 "深圳地区的数据分析师页面" ,用Chrome检查打开。在
阅读全文
posted @ 2017-03-07 20:25 依然很拉风
阅读(1798)
评论(3)
推荐(0)
编辑
2016年7月13日
自助法在分散式投资策略中的应用
摘要:
阅读全文
posted @ 2016-07-13 21:03 依然很拉风
阅读(835)
评论(1)
推荐(0)
编辑
2016年6月20日
KNN算法在保险业精准营销中的应用
摘要:
阅读全文
posted @ 2016-06-20 18:01 依然很拉风
阅读(4656)
评论(1)
推荐(2)
编辑
2016年6月18日
用贝叶斯判别分析再次预测股票涨跌情况
摘要:
阅读全文
posted @ 2016-06-18 01:21 依然很拉风
阅读(10361)
评论(3)
推荐(0)
编辑
2016年6月7日
逻辑回归模型预测股票涨跌
摘要:
阅读全文
posted @ 2016-06-07 15:07 依然很拉风
阅读(17100)
评论(1)
推荐(4)
编辑
2016年6月2日
【R】多元线性回归
摘要:
阅读全文
posted @ 2016-06-02 19:27 依然很拉风
阅读(33863)
评论(1)
推荐(1)
编辑