随笔分类 -  开源技术 / Python

摘要:大致想来,李丹刘奎还需要解决这么几个基础问题:绘图所依赖的监控原始数据如何收集?如何加工?如何存储?图形如何绘制,各种指标如何叠加?拓扑关系如何绘制? 阅读全文
posted @ 2015-01-23 09:48 老兵笔记 阅读(19814) 评论(7) 推荐(5) 编辑
摘要:Amir Salihefendic(他是Plurk、Todoist的Co-Founder)在今年10月份撰文《How Hacker News ranking algorithm works 》完整地解释了Hacker News的Ranking算法,从中我们才得以知道那个神秘的“1.5”是什么。稍后我们还会拿这个排序规则与Reddit的排序规则做对比。 阅读全文
posted @ 2010-12-15 02:01 老兵笔记 阅读(27942) 评论(3) 推荐(7) 编辑
摘要:有时候需要禁用 RedirectMiddleware 。 阅读全文
posted @ 2010-11-25 17:41 老兵笔记 阅读(4170) 评论(0) 推荐(0) 编辑
摘要:大意是,封装Google语言检测ajax web service的接口,输入一段话,输出语言种类。这个方法是从RssMeme.com看来的,经测试效果还不错,可用于检测微博客消息的语言,如中文、日文、韩文等。但由于Google对过于频繁的请求会重置链接,所以提请注意,这个Web Service不适合大量密集请求提交。 阅读全文
posted @ 2010-10-26 00:24 老兵笔记 阅读(1669) 评论(0) 推荐(0) 编辑
摘要:Artificial Intelligence in Motion发布的博文,谈MongoDB、Python和MapReduce。 阅读全文
posted @ 2010-08-22 17:20 老兵笔记 阅读(4062) 评论(0) 推荐(0) 编辑
摘要:Socket 连接资源耗尽,在 Windows Server 下很常见,如果使用者程序写得没问题的话,一般都是微软(或其他软件厂商)设置的一些默认参数不合时宜导致的。 阅读全文
posted @ 2010-08-10 16:59 老兵笔记 阅读(4483) 评论(2) 推荐(0) 编辑
摘要:关于上节《02-Twisted 构建 Web Server 的 Socket 长链接问题》,还可以继续探讨为何会保持 Socket 长链接。 阅读全文
posted @ 2010-08-10 16:53 老兵笔记 阅读(1693) 评论(0) 推荐(0) 编辑
摘要:Twitter 提供了两种 Streaming 接口,让第三方可以省却轮询,由 Twitter 主动把合适的数据推送过来,近乎实时。 阅读全文
posted @ 2010-06-22 15:53 老兵笔记 阅读(8213) 评论(0) 推荐(0) 编辑
摘要:一般让爬虫在一个进程内多线程并发,有几种方法。 阅读全文
posted @ 2010-05-18 16:12 老兵笔记 阅读(8061) 评论(1) 推荐(2) 编辑
摘要:设置 HTTP 或 Socket 访问超时,来防止爬虫抓取某个页面时间过长。 阅读全文
posted @ 2010-05-18 16:07 老兵笔记 阅读(12079) 评论(0) 推荐(1) 编辑
摘要:我们需要确定网页的内容/标题等文字的编码格式,比如 utf-8 、gb2312 等。 阅读全文
posted @ 2010-05-18 15:57 老兵笔记 阅读(3537) 评论(1) 推荐(1) 编辑
摘要:Parsley是一个挺有意思的小东西,它综合运用了CSS、XPath、正则表达式和JSON,是描述如何从网页里提取结构化数据的简单语言。估计做爬虫(Crawler/Spider)的人都会定义一套类似的模板。只不过Parsley还帮你把具体实现做了,用各种开发语言。 阅读全文
posted @ 2009-11-27 23:57 老兵笔记 阅读(2333) 评论(0) 推荐(0) 编辑
摘要:早前写的注意事项。现放出来,也许对 PubSubHubbub 爱好者有帮助。 阅读全文
posted @ 2009-10-29 19:45 老兵笔记 阅读(1244) 评论(0) 推荐(0) 编辑
摘要:那么,Python 的左移操作为何计算结果如此偏颇呢? 问题何在? 即使是 Python 2.5 乃至最新的 Python 3.1.1 都是这个结果 (只不过Python3执行 100025 的结果是 33554432000 ,没有加L后缀), 莫非这么多年来没人做左移操作吗? 阅读全文
posted @ 2009-10-14 17:20 老兵笔记 阅读(25124) 评论(2) 推荐(1) 编辑
摘要:康爷释出两篇pubsubhubbub入门开发教程《PubSubHubbub工作原理及使用入门》和《[教程]如何使用PubSubHubbub协议》,这里补充几点 阅读全文
posted @ 2009-09-24 19:38 老兵笔记 阅读(1617) 评论(0) 推荐(0) 编辑
摘要:不过,既然 Django 都已经在文档中说“it has been mostly superseded by the simpler mod_wsgi deployment option./mod_python 多半已被更简单的 mod_wsgi 替代了。”那么我们就应该一上手就用 mod_wsgi 。 阅读全文
posted @ 2009-08-11 11:34 老兵笔记 阅读(18846) 评论(1) 推荐(1) 编辑
摘要:把machine参数去掉不传即可,或传空字符串。 即: win32serviceutil.StartService("Apache2.2") 或 win32serviceutil.StartService("Apache2.2","") 可以正常启动本机的Apache,这样无法遥控域内其他服务器了。 阅读全文
posted @ 2009-05-16 01:27 老兵笔记 阅读(2947) 评论(0) 推荐(0) 编辑
摘要:结论:不是什么严重问题。只是当html代码中在标签的属性中写javascript时,需要注意到此种特性,如果出现“>”符号,就会导致SGMLParser以及使用SGMLParser的其他库解析失当。 阅读全文
posted @ 2008-01-15 14:42 老兵笔记 阅读(1591) 评论(2) 推荐(0) 编辑
摘要:针对sqlserver,似乎互联网上没有人提及如何连,而且上面mysql的这种简洁写法也不再适用。一个原因在于python中的_mssql库并不是DB-SIG compliant module,只有与之一同打包的pymssql库(其实pymssql就是在_mssql的基础上按照规范封装了一层罢了)才是。折腾了许久,在google code里也搜索了不少DBUtil python代码,终于摸索出这么一条路子: 阅读全文
posted @ 2007-12-28 00:28 老兵笔记 阅读(4091) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示