摘要: unicode和utf-8编码 PS:数据在内存里,使用unicode编码会方便很多,因为这样占用的bit是统一的,而utf8对于不同的语言占用的bit不同的,但存储文件使用utf8编码会减少很多空间,所以需要灵活转换。 下面是py2中的例子,python存储在内存里的数据是自动转化成unicode 阅读全文
posted @ 2017-10-03 12:28 爬行的龟 阅读(613) 评论(0) 推荐(0) 编辑
摘要: PS:一个网站下除了主域名,还会有多个子域名 需要通过遍历把所有域名取到 深度优先的算法,根据上面的截图,爬取url的顺序是A--B--D--E--I C--F-G--H,实际上深度优先算法是通过递归算法来实现的 而广度优先和深度优先区分开来,会分层爬取,把同一层级的兄弟节点爬取完后,才会继续爬下一 阅读全文
posted @ 2017-10-03 12:28 爬行的龟 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 爬虫需要用到正则,python内置了正则re模块 关于贪婪匹配和懒惰匹配:正则默认匹配模式是贪婪匹配模式: 上面的例子,这种属于贪婪匹配,下面引入? 符号就能看出效果了,?属于懒惰匹配: 没加?的情况: +前面的字符至少出现一次,下面的子字符串‘AA’就不符合要求了: 大括号,限定次数: {m}匹配 阅读全文
posted @ 2017-10-03 12:28 爬行的龟 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 实际上安装scrapy框架时,需要安装很多依赖包,因此建议用pip安装,这里我就直接使用pycharm的安装功能直接搜索scrapy安装好了。 然后进入虚拟环境创建一个scrapy工程: (third_project) bigni@bigni:~/python_file/python_project 阅读全文
posted @ 2017-10-03 12:27 爬行的龟 阅读(3477) 评论(0) 推荐(0) 编辑
摘要: 通过scrapy的Request和parse,我们能很容易的爬取所有列表页的文章信息。 PS:parse.urljoin(response.url,post_url)的方法有个好处,如果post_url是完整的域名,则不会拼接response.url的主域名,如果不是完整的,则会进行拼接 # -*- 阅读全文
posted @ 2017-10-03 12:25 爬行的龟 阅读(1016) 评论(0) 推荐(0) 编辑
如有错误,欢迎指正 邮箱656521736@qq.com