scrapy中的canonicalize_url【转】

摘要: 转自:http://www.leyle.com/archives/canonicalize_url.html思考一下:对url进行规范化处理是否是必须的?因为这一步处理涉及到编码转换,对于一个网页的新链发现来说是比较耗时的。为什么需要格式化 url?比如下面几个url:http://www.exam... 阅读全文
posted @ 2016-01-24 22:29 chybot 阅读(594) 评论(0) 推荐(0) 编辑

phantomjs学习资料

摘要: http://blog.csdn.net/mecho/article/details/45888465phantomjs的使用说明,尤其是webpage创建,资源加载前后的处理方法。 阅读全文
posted @ 2015-12-22 19:30 chybot 阅读(137) 评论(0) 推荐(0) 编辑

lxml.etree去除子节点

摘要: 去除etree中的某个子节点有两种方法:1、parentnode.remove(node)2、etree.strip_elements(html, 'element_name', with_tag=True/False)但是在实际使用的时候如果要删除的node.tail不为空,则会把node.tai... 阅读全文
posted @ 2015-12-14 19:33 chybot 阅读(2494) 评论(0) 推荐(0) 编辑

python StringIO类

摘要: python的stringIO类用来处理字符串,由于其操作类似文件操作,可以视为内存中的文件。1.创建stringIO2.常用操作:write,writelines、getvalue、seek、readline、readlines>>> from StringIO import StringIO>>... 阅读全文
posted @ 2015-11-23 20:35 chybot 阅读(411) 评论(0) 推荐(0) 编辑

[转]Python的getattr(),setattr(),delattr(),hasattr()

摘要: getattr()函数是Python自省的核心函数,具体使用大体如下:获取对象引用getattrGetattr用于返回一个对象属性,或者方法classA: def__init__(self): self.name ='zhangjing' #self.age='24'defmethod(self... 阅读全文
posted @ 2015-11-17 18:59 chybot 阅读(174) 评论(0) 推荐(0) 编辑

转:常用svn命令

摘要: 在公司需要提交代码,常用的就是co、ci、add、up、和log首先 svn help 可以看到 svn 所支持的全部命令:命令不多,如果用过Tortoise SVN的客户端,从字面上也不难理解这些命令所代表的含义。首先我需要把我的项目 Checkout 出来。这个过程使用的命令是 svn chec... 阅读全文
posted @ 2015-11-05 20:59 chybot 阅读(182) 评论(0) 推荐(0) 编辑

如何识别网页类型(wap页面还是wise页面)

摘要: 思路很简单,就是通过网页结构的一些特征来区分,当然也可以通过url的格式来区分,不过这个错误率较高,因为有很多小网站的url设计不规范。网页特征包括两大类:1.meta信息:一般wap页面都会为了适应手机屏幕,而设置一些特殊的meta,比如viewport等;2.doctype:doctype定义了... 阅读全文
posted @ 2015-10-25 10:14 chybot 阅读(1516) 评论(0) 推荐(0) 编辑

[转]手机web HTML头信息解释和viewport meta标签解释

摘要: 分别定义:1、编码Unicode UTF-82、浏览器图标地址和类型3、Generator 生产者4、网页缩放比例为1:15、控制手机布局,width默认为屏幕大小,也可以为具体数字如240、480,Windows Mobile推荐设置为2406、控制手机放大缩小网页显示7、控制全屏显示(Apple... 阅读全文
posted @ 2015-10-24 15:14 chybot 阅读(319) 评论(0) 推荐(0) 编辑

网页正文抽取

摘要: 转自丕子:http://www.zhizhihu.com/html/y2013/4202.html总结我用过的网页正文抽取工具: decrufthttp://t.cn/S7bVECpython-readabilityhttp://t.cn/zYeoZ8bboilerpipehttp://t.cn/h... 阅读全文
posted @ 2015-10-20 11:48 chybot 阅读(605) 评论(0) 推荐(0) 编辑

python 去除不可见的控制字符

摘要: 尤其是在json load的时候,字符串中的不可见控制字符可能会导致错误,应该先对字符串进行控制字符过滤。对网页文本同样适用,最好在处理网页文本时先进性控制字符清洗。Replace null bytes in html text with space char to walk around lxml... 阅读全文
posted @ 2015-10-19 20:13 chybot 阅读(7808) 评论(0) 推荐(1) 编辑