随笔分类 - Python Scrapy
摘要:1.爬虫插入 mysql时报 "Incorrect string value: '\\xF0\\x9F\\x93\\x9D\\xC2\\xA0...' for column 'con的错误。 原因 Mysql的utf8编码最多3个字节,可能有4个字节的字符。utf8mb4兼容utf8,且比utf8能
阅读全文
摘要:1.根元素 / 必须逐层依次往下找,这个方式像是文件路径查找文件 2.直接定位元素 // 不需要每一层的路径都写上,直接查找它下面所有的标签 3.text() 只查找当前标签内的文字,不查找标签的属性和子标签的内容 *另 想查看所有内容末尾不要加/ 也不要加text() 4.@ 按标签的属性查找 按
阅读全文
摘要:import random USER_AGENT_LIST=[ 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36' "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/53...
阅读全文
摘要:1、 安装python3 创建一个虚环境项目 在项目下更新pip 升级失败了,虚拟环境需要在你创建目录下升级 输入上面的提示指令即可 2.下载lxml 3.下载zope.interface 4.下载异步框架 报错缺少 VC++14.0,曾经卡在这n次 手动下载 64位的对应版本 https://ww
阅读全文
摘要:下载地址 https://bitbucket.org/ariya/phantomjs/downloads/ 安装 解压后把bin目录下的phantomjs.exe文件复制到C:\Python27\Scripts路径下 配置完成!
阅读全文
摘要:安装scrapy pycharm 建个纯python工程 settings里 环境变量设置 C:\Python27;C:\Python27\Scripts; 下载win32api https://sourceforge.net/projects/pywin32/files/pywin32/ 找到对应
阅读全文
摘要:一切从最简单开始 峰绘网 :http://www.ifenghui.com/ 一个比较好爬的漫画网,之所以选择这个网站,因为查看源代码能直接获得漫画的jpg连接,而且每一话所有的jpg一次性的都展示出来 人气排行榜最高的黑水潭 爬取单话 昆虫学家 上 (28p) 把url换成其他话 昆虫学家 下 (
阅读全文
摘要:一、安装 1.登陆官网:https://www.crummy.com/software/BeautifulSoup/ 2.下载 3.解压 4.安装 cmd找到文件路径,运行 然后输入 5.测试 打开python 导入bs4 模块看看是否报错 没报错就看安装成功了 二、安装解析器 soup=Beaut
阅读全文
摘要:爬取整个静态网页代码,并存入文件。 urlopen(url,data,timeout) 第一个参数是网址,要带协议(http) 二三参数可选,意思暂时不知道 动态的暂时不会。。 加request urllib.urlretrieve 将远程数据下载到本地 参数 url:网址 filename:参数
阅读全文