2017 年 10月 3 日随笔档案 - 爬行的龟

2017年10月3日

摘要： unicode和utf-8编码 PS：数据在内存里，使用unicode编码会方便很多，因为这样占用的bit是统一的，而utf8对于不同的语言占用的bit不同的，但存储文件使用utf8编码会减少很多空间，所以需要灵活转换。下面是py2中的例子，python存储在内存里的数据是自动转化成unicode 阅读全文

posted @ 2017-10-03 12:28 爬行的龟阅读(620) 评论(0) 推荐(0) 编辑

第三篇深度优先和广度优先

摘要： PS：一个网站下除了主域名，还会有多个子域名需要通过遍历把所有域名取到深度优先的算法，根据上面的截图，爬取url的顺序是A--B--D--E--I C--F-G--H，实际上深度优先算法是通过递归算法来实现的而广度优先和深度优先区分开来，会分层爬取，把同一层级的兄弟节点爬取完后，才会继续爬下一阅读全文

posted @ 2017-10-03 12:28 爬行的龟阅读(396) 评论(0) 推荐(0) 编辑

第二篇：正则表达式

摘要：爬虫需要用到正则，python内置了正则re模块关于贪婪匹配和懒惰匹配：正则默认匹配模式是贪婪匹配模式：上面的例子，这种属于贪婪匹配，下面引入？符号就能看出效果了，？属于懒惰匹配：没加？的情况： +前面的字符至少出现一次,下面的子字符串‘AA’就不符合要求了：大括号，限定次数： {m}匹配阅读全文

posted @ 2017-10-03 12:28 爬行的龟阅读(242) 评论(0) 推荐(0) 编辑

第五篇 scrapy安装及目录结构，启动spider项目

摘要：实际上安装scrapy框架时，需要安装很多依赖包，因此建议用pip安装，这里我就直接使用pycharm的安装功能直接搜索scrapy安装好了。然后进入虚拟环境创建一个scrapy工程： (third_project) bigni@bigni:~/python_file/python_project 阅读全文

posted @ 2017-10-03 12:27 爬行的龟阅读(3519) 评论(0) 推荐(0) 编辑

第八篇编写spider爬取jobbole的所有文章

摘要：通过scrapy的Request和parse，我们能很容易的爬取所有列表页的文章信息。 PS:parse.urljoin（response.url，post_url）的方法有个好处,如果post_url是完整的域名，则不会拼接response.url的主域名，如果不是完整的，则会进行拼接 # -*- 阅读全文

posted @ 2017-10-03 12:25 爬行的龟阅读(1029) 评论(0) 推荐(0) 编辑

爬行的龟

公告