Python Scrapy - 随笔分类 - 富坚老贼

常见错误

摘要：1.爬虫插入 mysql时报 "Incorrect string value: '\\xF0\\x9F\\x93\\x9D\\xC2\\xA0...' for column 'con的错误。原因 Mysql的utf8编码最多3个字节，可能有4个字节的字符。utf8mb4兼容utf8，且比utf8能阅读全文

posted @ 2019-02-25 08:26 富坚老贼阅读(141) 评论(0) 推荐(0) 编辑

xpath

摘要：1.根元素 / 必须逐层依次往下找，这个方式像是文件路径查找文件 2.直接定位元素 // 不需要每一层的路径都写上,直接查找它下面所有的标签 3.text() 只查找当前标签内的文字，不查找标签的属性和子标签的内容 *另想查看所有内容末尾不要加/ 也不要加text() 4.@ 按标签的属性查找按阅读全文

posted @ 2019-02-22 11:31 富坚老贼阅读(117) 评论(0) 推荐(0) 编辑

scrapy模拟请求头

摘要：import random USER_AGENT_LIST=[ 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36' "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/53... 阅读全文

posted @ 2019-02-22 11:18 富坚老贼阅读(142) 评论(0) 推荐(0) 编辑

(1)python Scrapy爬虫框架

摘要：1、安装python3 创建一个虚环境项目在项目下更新pip 升级失败了，虚拟环境需要在你创建目录下升级输入上面的提示指令即可 2.下载lxml 3.下载zope.interface 4.下载异步框架报错缺少 VC++14.0，曾经卡在这n次手动下载 64位的对应版本 https://ww 阅读全文

posted @ 2019-02-22 09:49 富坚老贼阅读(198) 评论(0) 推荐(0) 编辑

(22)python PhantomJS

摘要：下载地址 https://bitbucket.org/ariya/phantomjs/downloads/ 安装解压后把bin目录下的phantomjs.exe文件复制到C:\Python27\Scripts路径下配置完成！阅读全文

posted @ 2017-07-18 15:21 富坚老贼阅读(149) 评论(0) 推荐(0) 编辑

(19)python scrapy框架

摘要：安装scrapy pycharm 建个纯python工程 settings里环境变量设置 C:\Python27;C:\Python27\Scripts; 下载win32api https://sourceforge.net/projects/pywin32/files/pywin32/ 找到对应阅读全文

posted @ 2017-07-15 10:20 富坚老贼阅读(330) 评论(0) 推荐(0) 编辑

(18) python 爬虫实战

摘要：一切从最简单开始峰绘网 :http://www.ifenghui.com/ 一个比较好爬的漫画网，之所以选择这个网站，因为查看源代码能直接获得漫画的jpg连接，而且每一话所有的jpg一次性的都展示出来人气排行榜最高的黑水潭爬取单话昆虫学家上 (28p) 把url换成其他话昆虫学家下 ( 阅读全文

posted @ 2017-07-12 15:00 富坚老贼阅读(256) 评论(0) 推荐(0) 编辑

(17)python Beautiful Soup 4.6

摘要：一、安装 1.登陆官网：https://www.crummy.com/software/BeautifulSoup/ 2.下载 3.解压 4.安装 cmd找到文件路径，运行然后输入 5.测试打开python 导入bs4 模块看看是否报错没报错就看安装成功了二、安装解析器 soup=Beaut 阅读全文

posted @ 2017-07-11 10:57 富坚老贼阅读(459) 评论(0) 推荐(0) 编辑

(16)网络爬虫

摘要：爬取整个静态网页代码，并存入文件。 urlopen(url,data,timeout) 第一个参数是网址，要带协议（http）二三参数可选,意思暂时不知道动态的暂时不会。。加request urllib.urlretrieve 将远程数据下载到本地参数 url：网址 filename：参数阅读全文

posted @ 2017-07-10 11:02 富坚老贼阅读(144) 评论(0) 推荐(0) 编辑

富坚老贼

https://github.com/buchizaodian

随笔分类 - Python Scrapy

公告

随笔分类