会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
vorphan
博客园
首页
新随笔
联系
订阅
管理
2017年9月25日
Scrapy摸索爬去New York Time
摘要: 放上一个典型错误 编码错误 1 TypeError: can't concat bytes to str 这段代码错误出现在爬取后没有写入到txt,注释内的是我原来采用的,所以是不需要编码直接写入?编码问题真是玄学...
阅读全文
posted @ 2017-09-25 08:02 vorphan
阅读(145)
评论(0)
推荐(0)
2017年9月4日
多线程爬取百度百科
摘要: 前言:EVERNOTE里的一篇笔记,我用了三个博客才学完...真的很菜...百度百科和故事网并没有太过不一样,修改下编码,debug下,就可以爬下来了,不过应该是我爬的东西太初级了,而且我爬到3000多条链接时,好像被拒绝了...爬取速度也很慢,估计之后要接触一些优化或者多进程,毕竟python是假
阅读全文
posted @ 2017-09-04 23:24 vorphan
阅读(314)
评论(0)
推荐(0)
2017年9月3日
多线程版爬取故事网
摘要: 前言:为了能以更高效的速度爬取,尝试采用了多线程本博客参照代码及PROJECT来源:http://kexue.fm/archives/4385/ 源代码: 1 #! -*- coding:utf-8 -*- 2 import requests as rq 3 import re 4 import t
阅读全文
posted @ 2017-09-03 08:30 vorphan
阅读(386)
评论(0)
推荐(0)
2017年8月31日
第一篇博客(python爬取小故事网并写入mysql)
摘要: 前言: 这是一篇来自整理EVERNOTE的笔记所产生的小博客,实现功能主要为用广度优先算法爬取小故事网,爬满100个链接并写入mysql,虽然CS作为双学位已经修习了三年多了,但不仅理论知识一般,动手能力也很差,在学习的空余时间前前后后DEBUG了很多次,下面给出源代码及所遇到的BUG。 本博客参照
阅读全文
posted @ 2017-08-31 23:17 vorphan
阅读(358)
评论(0)
推荐(0)
公告