Python爬虫 - 随笔分类 - 猪猪宝丫

【Python】百度贴吧-中国好声音评论爬爬【自练OK-csv提取格式及评论提取空格等问题待改进】

摘要：代码编写思路：学习知识点： 1.class=a b(a假设是字体-宋体，b是颜色-蓝色；class中可以同时有两个参数a,b（宋体+蓝色），两者用空格隔开即可) 2.拓展1：想要soup到某个元素，且该元素对应class中含有多个值，我们可以根据class中元素出现的规律，找到共性出现的元素去编写阅读全文

posted @ 2018-09-19 16:44 猪猪宝丫阅读(577) 评论(0) 推荐(0) 编辑

【其他】csv文件打开是乱码，怎么办？

摘要：csv文件打开是乱码，怎么办？管用的方法，一个就够工作中，将python生成的中间结果文件写入CSV，经常这么干是不是？文件保存下来后用excel打开，出现了乱码情况，真心烦。为什么？ CSV是用UTF-8编码的，而EXCEL是ANSI编码，由于编码方式不一致导致出现乱码。明白了原因之后，我们只需阅读全文

posted @ 2018-09-19 16:21 猪猪宝丫阅读(487) 评论(0) 推荐(0) 编辑

【自动化】火车头采集器

摘要：火车采集器(LocoySpider) 是一个供各大主流文章系统，论坛系统等使用的多线程内容采集发布程序。使用火车采集器，你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载，图片批量水印，Flash下载，下载文件地址探测，自制作发表的cms模块参数，自定义发表的内容等有关采集器。对于数据的采集阅读全文

posted @ 2018-09-05 10:14 猪猪宝丫阅读(1222) 评论(0) 推荐(0) 编辑

【Python爬虫】如何确定自己浏览器的User-Agent信息

摘要：User-Agent：简称UA，它是一个特殊的字符串头，可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息，可以伪装为浏览器；如果不加，很可能会被识别出为爬虫。那么如何确定自己浏览器的User-Agent信息呢？步骤如下： 1. 首先打开你的浏览器输入：about 阅读全文

posted @ 2018-09-03 20:09 猪猪宝丫阅读(4558) 评论(0) 推荐(0) 编辑

【Python】Pycharm2018激活方式【亲测好用】

摘要：2.激活码激活优点：Window、Mac、Ubantu都稳定有效，关键是这种激活方式不会产生其他影响缺点：需要修改hosts文件优点：Window、Mac、Ubantu都稳定有效，关键是这种激活方式不会产生其他影响缺点：需要修改hosts文件阅读全文

posted @ 2018-08-29 10:43 猪猪宝丫阅读(7012) 评论(0) 推荐(0) 编辑

【Python】两个for循环嵌套练习

摘要：要求：取下方篮框中内容并写入csv文件中。用两个for循环将每一行取出来作为一个元素存放到新数组中。阅读全文

posted @ 2018-07-06 23:26 猪猪宝丫阅读(10840) 评论(0) 推荐(0) 编辑

【Python项目篇】【爬妹子图】

摘要：以上代码在3.5环境下运行一下代码可以成功爬到各图片链接阅读全文

posted @ 2017-11-22 19:52 猪猪宝丫阅读(876) 评论(0) 推荐(0) 编辑

【Python】Python基础

摘要：爬虫相关笔记：对于反爬虫网站，我们需要获取网站的浏览器信息+头部信息，可见下方截图中的Requests Header头部信息中的红框部分内容，我们后续会应用这里进行反爬虫网站的代码处理。实际网站调试过程除了urllib.urlopen外用requests更简单的获取网页源码方法： reques 阅读全文

posted @ 2017-11-18 18:53 猪猪宝丫阅读(256) 评论(0) 推荐(0) 编辑

随笔分类 - Python爬虫

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论