摘要:
发现了一种巧妙的条件语句实现方式:(是在pattern的README中的一个小例子里面看到的) 得益于python灵活的格式转换, and, or 这些逻辑符号我一直认为计算得到的是布尔值,只能用在判断语句中,比如: 然而当把表达式单独计算时,比如这样: 因此得到的结果并非默认为布尔值,布尔值的转换 阅读全文
摘要:
看scikit-learn的源码时,在benchmark的benchmark_20newsgroups.py(关于20newsgroups数据集看这里)中看到了一个有意思的用法,如下: 如果让我实现的话,我多半会这样: 这两种方法有什么优缺点呢?第一种的写法,行数多了一两行,不够简洁;第二种写法,虽 阅读全文
摘要:
svm原理有关svm教程以及教材已经很多,资料中介绍的都很详细。略过数学证明,用语言直观简洁地描述:svm就是一个可以控制参数改变分隔平面的一个二元分类器,得到1和-1的分类结果。除了分类,svm在加入了eps误差参数之后可根据点距离分隔平面的远近(?)给出具体的回归函数值(?),这时的suppor... 阅读全文
摘要:
Python下有几种安装包的工具,比如easy_install和pip,经常搞不清楚它们的用法和关系,自己写篇总结一下,方便下次用的时候查找。 easy_install的安装(win下)可以参考这篇文章:http://www.cnblogs.com/zhuyp1015/archive/2012/07 阅读全文
摘要:
Nexus 5到手是4.x的系统,系统通知有升级到5.0的包,就直接在后台下载安装了。平面的风格相当喜欢,但是系统占内存貌似比4.x要多,chrome也时常卡顿。然而最无法忍受的是——我用的AnyConnect的客户端只支持到4.x。有一款Openconnect的第三方客户端可以用,但是经常断线,而 阅读全文
摘要:
数据清理的部分很多,其实爬数据的过程中步骤的间隔也要做数据清理,都是很琐碎繁杂的工作。总结经验的话,就是:1、一定要用数据库存储数据 (我因为还不太会数据库,为了“节省学习时间”,所有数据项都用txt存储,直到最后出现了多个种类之间查找,文件夹树变得比较复杂,才觉得当初即使使用MySQL也会提高效率... 阅读全文
摘要:
python2.7.3 on win32 参考了这篇文章http://zzq635.blog.163.com/blog/static/19526448620132845436686/ lxml安装之前,要先安装libxml2, libxslt, zlib, iconv。 依赖关系见这里http:// 阅读全文
摘要:
wap端登陆成功后,就可以安心开始爬取数据了。我这次需要的数据是:(1)用户的近期1000条微博,需要:微博id,转发量,发布时间(2)某条微博的转发列表,需要:转发人,转发时间(3)某个用户的关注数,粉丝数,微博数,最近100条微博的平均转发量相比模拟登陆,爬数据的工作就简单很多。但需要注意几个坑... 阅读全文
摘要:
http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html "你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,我们推荐在现在的项目中使用Beautiful Soup 4 阅读全文
摘要:
===================看了其他人的博客都写的很简洁干净,我这边的排版简直要晕。图和代码一起上,小白每一步都要有讲解。。。===================虽然weibo.com的模拟登陆用http://www.cnblogs.com/houkai/p/3487816.html的代... 阅读全文