随笔分类 -  Python爬虫

Python爬虫
摘要:代码编写思路: 学习知识点: 1.class=a b(a假设是字体-宋体,b是颜色-蓝色;class中可以同时有两个参数a,b(宋体+蓝色),两者用空格隔开即可) 2.拓展1:想要soup到某个元素,且该元素对应class中含有多个值,我们可以根据class中元素出现的规律,找到共性出现的元素去编写 阅读全文
posted @ 2018-09-19 16:44 猪猪宝丫 阅读(577) 评论(0) 推荐(0) 编辑
摘要:csv文件打开是乱码,怎么办?管用的方法,一个就够 工作中,将python生成的中间结果文件写入CSV,经常这么干是不是?文件保存下来后用excel打开,出现了乱码情况,真心烦。为什么? CSV是用UTF-8编码的,而EXCEL是ANSI编码,由于编码方式不一致导致出现乱码。明白了原因之后,我们只需 阅读全文
posted @ 2018-09-19 16:21 猪猪宝丫 阅读(487) 评论(0) 推荐(0) 编辑
摘要:火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的cms模块参数,自定义发表的内容等有关采集器。对于数据的采集 阅读全文
posted @ 2018-09-05 10:14 猪猪宝丫 阅读(1222) 评论(0) 推荐(0) 编辑
摘要:User-Agent:简称UA,它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别出为爬虫。 那么如何确定自己浏览器的User-Agent信息呢? 步骤如下: 1. 首先打开你的浏览器输入:about 阅读全文
posted @ 2018-09-03 20:09 猪猪宝丫 阅读(4558) 评论(0) 推荐(0) 编辑
摘要:2.激活码激活 优点:Window、Mac、Ubantu都稳定有效,关键是这种激活方式不会产生其他影响 缺点:需要修改hosts文件 优点:Window、Mac、Ubantu都稳定有效,关键是这种激活方式不会产生其他影响 缺点:需要修改hosts文件 阅读全文
posted @ 2018-08-29 10:43 猪猪宝丫 阅读(7012) 评论(0) 推荐(0) 编辑
摘要:要求:取下方篮框中内容并写入csv文件中。用两个for循环将每一行取出来作为一个元素存放到新数组中。 阅读全文
posted @ 2018-07-06 23:26 猪猪宝丫 阅读(10840) 评论(0) 推荐(0) 编辑
摘要:以上代码在3.5环境下运行一下代码可以成功爬到各图片链接 阅读全文
posted @ 2017-11-22 19:52 猪猪宝丫 阅读(876) 评论(0) 推荐(0) 编辑
摘要:爬虫相关笔记: 对于反爬虫网站,我们需要获取网站的浏览器信息+头部信息,可见下方截图中的Requests Header头部信息中的红框部分内容,我们后续会应用这里进行反爬虫网站的代码处理。 实际网站调试过程 除了urllib.urlopen外用requests更简单的获取网页源码方法: reques 阅读全文
posted @ 2017-11-18 18:53 猪猪宝丫 阅读(256) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示