摘要: 使用Beautifulsoup模块爬取药智网数据Tips:1.爬取多页时,先用一页的做测试,要不然ip容易被封2.自己常用的处理数据的方法:reg=re.compile('正则表达式')data=reg.sub('要替换的字符串',data)代码(其实没多少) 1 # encoding=utf-8 ... 阅读全文
posted @ 2015-10-30 19:45 简易人生 阅读(1625) 评论(0) 推荐(1) 编辑
摘要: 1.Scrapy安装问题一开始是按照官方文档上直接用pip安装的,创建项目的时候并没有报错,然而在运行scrapy crawl dmoz的时候错误百粗/(ㄒoㄒ)/~~比如:ImportError: No module named _cffi_backendUnhandled error in De... 阅读全文
posted @ 2015-10-30 16:09 简易人生 阅读(1973) 评论(0) 推荐(0) 编辑