随笔分类 - Python爬虫
Python爬虫
摘要:代码编写思路: 学习知识点: 1.class=a b(a假设是字体-宋体,b是颜色-蓝色;class中可以同时有两个参数a,b(宋体+蓝色),两者用空格隔开即可) 2.拓展1:想要soup到某个元素,且该元素对应class中含有多个值,我们可以根据class中元素出现的规律,找到共性出现的元素去编写
阅读全文
摘要:csv文件打开是乱码,怎么办?管用的方法,一个就够 工作中,将python生成的中间结果文件写入CSV,经常这么干是不是?文件保存下来后用excel打开,出现了乱码情况,真心烦。为什么? CSV是用UTF-8编码的,而EXCEL是ANSI编码,由于编码方式不一致导致出现乱码。明白了原因之后,我们只需
阅读全文
摘要:火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的cms模块参数,自定义发表的内容等有关采集器。对于数据的采集
阅读全文
摘要:User-Agent:简称UA,它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别出为爬虫。 那么如何确定自己浏览器的User-Agent信息呢? 步骤如下: 1. 首先打开你的浏览器输入:about
阅读全文
摘要:2.激活码激活 优点:Window、Mac、Ubantu都稳定有效,关键是这种激活方式不会产生其他影响 缺点:需要修改hosts文件 优点:Window、Mac、Ubantu都稳定有效,关键是这种激活方式不会产生其他影响 缺点:需要修改hosts文件
阅读全文
摘要:要求:取下方篮框中内容并写入csv文件中。用两个for循环将每一行取出来作为一个元素存放到新数组中。
阅读全文
摘要:以上代码在3.5环境下运行一下代码可以成功爬到各图片链接
阅读全文
摘要:爬虫相关笔记: 对于反爬虫网站,我们需要获取网站的浏览器信息+头部信息,可见下方截图中的Requests Header头部信息中的红框部分内容,我们后续会应用这里进行反爬虫网站的代码处理。 实际网站调试过程 除了urllib.urlopen外用requests更简单的获取网页源码方法: reques
阅读全文