爬虫 - 随笔分类 - o云淡风轻o

Scrapy框架爬取豆瓣

摘要：Scrapy框架爬取豆瓣参考链接：https://blog.csdn.net/qq_38588845/article/details/98256172 下载Scrapy 下载命令 conda install scrapy（使用这个命令必须安装Anaconda）验证是否安装成功在cmd窗口输入【阅读全文

posted @ 2022-05-26 10:58 o云淡风轻o 阅读(283) 评论(0) 推荐(1) 编辑

python爬虫之用senenium设置google代理

摘要：设置代理IP可以避免一些封IP的问题。那么代理分为需要用户名密码的代理和无需用户名密码的代理。无密码代理设置： options = webdriver.ChromeOptions() options.add_argument("--proxy-server-http://112.247.176.1 阅读全文

posted @ 2022-02-17 17:47 o云淡风轻o 阅读(3) 评论(0) 推荐(0) 编辑

python之request post数据的方法

摘要：参考网站：https://blog.csdn.net/weixin_46129834/article/details/107182433 今天学习一下request的几种post方式一、以data的形式post import requests def main(): post_data = { ' 阅读全文

posted @ 2022-01-08 09:26 o云淡风轻o 阅读(5893) 评论(0) 推荐(0) 编辑

百度云文字识别使用

摘要：实现一个功能，截一张图片，利用百度文字识别技术识别出图片内容，然后利用在线翻译网站翻译此内容。实现此功能的前提是电脑有截屏功能，此文利用的是QQ截屏的功能，当然也可以使用微信截屏功能等，只不过快捷键不同罢了。第一步，清空剪切板，需要导入from ctypes import windll, c_i 阅读全文

posted @ 2020-05-26 20:50 o云淡风轻o 阅读(1129) 评论(0) 推荐(0) 编辑

XPath语法

摘要：看到一篇很好看的博客，分享给大家：https://www.cnblogs.com/xufengnian/p/10788195.html#_labelTop 博客界面清爽，简洁明了，排版很喜欢。进入正题，XPath语法。博主写的很详细，直接引用吧。语法： # 1.选取节点 ''' / 如果是在最前面阅读全文

posted @ 2020-05-26 10:50 o云淡风轻o 阅读(343) 评论(0) 推荐(0) 编辑

爬取千千小说 -- xpath

摘要：今天以其中一本小说为例，讲一下下载小说的主体部分，了解正常的爬取步骤，用到的是request和xpath。爬取数据三步走：访问url --》爬取数据 --》保存数据一、访问千千小说网址: https://www.qqxsnew.com/ 二、随便选一部小说，打开章节目录界面（比方说魔道祖师）:h 阅读全文

posted @ 2020-05-26 09:07 o云淡风轻o 阅读(1392) 评论(0) 推荐(0) 编辑

正则爬取我要个性网的头像

摘要：爬取网址：https://www.woyaogexing.com/touxiang/qinglv/ 一、访问网址 html = requests.get(url, headers=headers).content.decode("utf-8") 得到的是html，很直观的可以右击检查查看elemen 阅读全文

posted @ 2020-05-20 09:43 o云淡风轻o 阅读(421) 评论(0) 推荐(0) 编辑

图灵机器人

摘要：图灵机器人网址：http://www.turingapi.com/ 步骤：注册一个账号 --> 登录 --> 创建机器人 --> 打开机器人 --> 获取apikey --> 打开api使用文档 --> 接入教程 --> API V2.0接入文档 --> 获取接口地址那么现在开始写程序： play 阅读全文

posted @ 2020-05-08 09:33 o云淡风轻o 阅读(563) 评论(0) 推荐(0) 编辑

爬取房价信息并制作成柱状图XPath，pyecharts

摘要：以长沙楼盘为例，看一下它的房价情况如何url = https://cs.newhouse.fang.com/house/s/b91/ 一、页面二、分析页面源代码我们要获得的数据就是名字和价格，先来分析一下源代码，鼠标右键Inspect，并且打开xpath，第一步，找到需要提取数据的区域，选中定位阅读全文

posted @ 2020-05-06 19:17 o云淡风轻o 阅读(585) 评论(0) 推荐(0) 编辑

bs4爬取笔趣阁小说

摘要：参考链接：https://www.cnblogs.com/wt714/p/11963497.html 模块：requests，bs4，queue，sys，time 步骤：给出URL--> 访问URL --> 获取数据 --> 保存数据第一步：给出URL 百度搜索笔趣阁，进入相关网页，找到自己想要看阅读全文

posted @ 2020-04-25 16:12 o云淡风轻o 阅读(1180) 评论(0) 推荐(0) 编辑

第十八篇 -- QTreeWidget应用篇 -- kuwo

摘要：效果图：最近学习QTreeWidget，总想着做些什么，正好学习过一点简单的爬虫，就做了一个简易的“酷我音乐下载器”，界面可能不太好看，以后继续优化。 ui_kuwo.py # -*- coding: utf-8 -*- # Form implementation generated from r 阅读全文

posted @ 2020-04-21 16:46 o云淡风轻o 阅读(456) 评论(0) 推荐(0) 编辑

bs4抓取糗事百科

摘要：抓取糗事百科内容及评论，不包含图片信息。user-agent填入浏览器的即可。user-agent对应的value，360极速浏览器的话，可以在地址栏输入about:version，回车，用户代理后面的一长串就是需要填入''里面的内容。其他的可以自行百度 import urllib.request 阅读全文

posted @ 2018-09-09 23:41 o云淡风轻o 阅读(256) 评论(0) 推荐(0) 编辑

第六篇 - bs4爬取校花网

摘要：环境：python3 pycharm 模块：requests bs4 urlretrieve os time 第一步：获取网页源代码第二步：下载美女图片第三步：可选打印多少页，代码所示下载5页也可以采用多线程阅读全文

posted @ 2018-08-18 22:29 o云淡风轻o 阅读(327) 评论(0) 推荐(0) 编辑

第五篇 - Selenium突破反爬获取qq邮件标题

摘要：1 from selenium import webdriver 2 from selenium.webdriver import ActionChains 3 4 #1.打开登陆页面 5 wd = webdriver.Chrome() 6 wd.implicitly_wait(10) 7 wd.get('https://mail.qq.com/') 8 9 #2.切换到账... 阅读全文

posted @ 2018-08-17 23:31 o云淡风轻o 阅读(771) 评论(0) 推荐(0) 编辑

第四篇 - 爬取前程无忧python相关工作

摘要：环境：python3 pycharm 模块：requests,xlwt,urllib.request,re 正常三步走： 1.获取源代码 2.匹配源代码，获得目标数据 3.存储到文件中直接上代码，列举两种获取源代码的方式，存储3中文件的方式。自由选择即可。第一个标红部分引号里面的是网站url，太阅读全文

posted @ 2018-08-16 23:40 o云淡风轻o 阅读(884) 评论(0) 推荐(0) 编辑

第三篇 - 爬取豆瓣电影网

摘要：环境：python 3.6 pycharm 模块：requests,json 一、将爬取到的内容存放到txt文件中 1 import requests 2 import json 3 4 #请求头 5 headers = { 6 'Accept' : '*/*', 7 'Accept-Encodin 阅读全文

posted @ 2018-08-15 22:40 o云淡风轻o 阅读(251) 评论(0) 推荐(0) 编辑

第二篇 - python爬取免费代理

摘要：代理的作用参考https://wenda.so.com/q/1361531401066511?src=140 免费代理很多，但也有很多不可用，所以我们可以用程序对其进行筛选。以能否访问百度为例。 1.获取网页内容。对于一般网站像这样获取源代码就可以了，不过，这个网站有反爬机制，所以得用如下代码。阅读全文

posted @ 2018-08-14 00:42 o云淡风轻o 阅读(1180) 评论(0) 推荐(0) 编辑

第一篇 - bsp抓取python中文开发者社区中的所有高级教程

摘要：工具：python3.6 pycharm 库：bs4 + urllib 第一步：读取html源码第二步：获取内容和标题第三步：在当前目录下新建一个lesson的文件夹，将文件存储在此文件夹下数据爬取完毕。注：以上完成一个页面的抓取，若想多抓取页面的话，可用以下代码：阅读全文

posted @ 2018-08-09 23:05 o云淡风轻o 阅读(656) 评论(0) 推荐(0) 编辑

自信人生二百年,会当水击三千里

随笔分类 - 爬虫

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论