随笔分类 - 爬虫
爬取网页数据
摘要:Scrapy框架爬取豆瓣 参考链接:https://blog.csdn.net/qq_38588845/article/details/98256172 下载Scrapy 下载命令 conda install scrapy(使用这个命令必须安装Anaconda) 验证是否安装成功 在cmd窗口输入【
阅读全文
摘要:设置代理IP可以避免一些封IP的问题。那么代理分为需要用户名密码的代理和无需用户名密码的代理。 无密码代理设置: options = webdriver.ChromeOptions() options.add_argument("--proxy-server-http://112.247.176.1
阅读全文
摘要:参考网站:https://blog.csdn.net/weixin_46129834/article/details/107182433 今天学习一下request的几种post方式 一、以data的形式post import requests def main(): post_data = { '
阅读全文
摘要:实现一个功能,截一张图片,利用百度文字识别技术识别出图片内容,然后利用在线翻译网站翻译此内容。 实现此功能的前提是电脑有截屏功能,此文利用的是QQ截屏的功能,当然也可以使用微信截屏功能等,只不过快捷键不同罢了。 第一步,清空剪切板,需要导入from ctypes import windll, c_i
阅读全文
摘要:看到一篇很好看的博客,分享给大家:https://www.cnblogs.com/xufengnian/p/10788195.html#_labelTop 博客界面清爽,简洁明了,排版很喜欢。进入正题,XPath语法。博主写的很详细,直接引用吧。 语法: # 1.选取节点 ''' / 如果是在最前面
阅读全文
摘要:今天以其中一本小说为例,讲一下下载小说的主体部分,了解正常的爬取步骤,用到的是request和xpath。 爬取数据三步走:访问url --》爬取数据 --》保存数据 一、访问千千小说网址: https://www.qqxsnew.com/ 二、随便选一部小说,打开章节目录界面(比方说魔道祖师):h
阅读全文
摘要:爬取网址:https://www.woyaogexing.com/touxiang/qinglv/ 一、访问网址 html = requests.get(url, headers=headers).content.decode("utf-8") 得到的是html,很直观的可以右击检查查看elemen
阅读全文
摘要:图灵机器人网址:http://www.turingapi.com/ 步骤:注册一个账号 --> 登录 --> 创建机器人 --> 打开机器人 --> 获取apikey --> 打开api使用文档 --> 接入教程 --> API V2.0接入文档 --> 获取接口地址 那么现在开始写程序: play
阅读全文
摘要:以长沙楼盘为例,看一下它的房价情况如何url = https://cs.newhouse.fang.com/house/s/b91/ 一、页面 二、分析页面源代码 我们要获得的数据就是名字和价格,先来分析一下源代码,鼠标右键Inspect,并且打开xpath,第一步,找到需要提取数据的区域,选中定位
阅读全文
摘要:参考链接:https://www.cnblogs.com/wt714/p/11963497.html 模块:requests,bs4,queue,sys,time 步骤:给出URL--> 访问URL --> 获取数据 --> 保存数据 第一步:给出URL 百度搜索笔趣阁,进入相关网页,找到自己想要看
阅读全文
摘要:效果图: 最近学习QTreeWidget,总想着做些什么,正好学习过一点简单的爬虫,就做了一个简易的“酷我音乐下载器”,界面可能不太好看,以后继续优化。 ui_kuwo.py # -*- coding: utf-8 -*- # Form implementation generated from r
阅读全文
摘要:抓取糗事百科内容及评论,不包含图片信息。user-agent填入浏览器的即可。user-agent对应的value,360极速浏览器的话,可以在地址栏输入about:version,回车,用户代理后面的一长串就是需要填入''里面的内容。其他的可以自行百度 import urllib.request
阅读全文
摘要:环境:python3 pycharm 模块:requests bs4 urlretrieve os time 第一步:获取网页源代码 第二步:下载美女图片 第三步:可选打印多少页,代码所示下载5页 也可以采用多线程
阅读全文
摘要:1 from selenium import webdriver 2 from selenium.webdriver import ActionChains 3 4 #1.打开登陆页面 5 wd = webdriver.Chrome() 6 wd.implicitly_wait(10) 7 wd.get('https://mail.qq.com/') 8 9 #2.切换到账...
阅读全文
摘要:环境:python3 pycharm 模块:requests,xlwt,urllib.request,re 正常三步走: 1.获取源代码 2.匹配源代码,获得目标数据 3.存储到文件中 直接上代码,列举两种获取源代码的方式,存储3中文件的方式。自由选择即可。 第一个标红部分引号里面的是网站url,太
阅读全文
摘要:环境:python 3.6 pycharm 模块:requests,json 一、将爬取到的内容存放到txt文件中 1 import requests 2 import json 3 4 #请求头 5 headers = { 6 'Accept' : '*/*', 7 'Accept-Encodin
阅读全文
摘要:代理的作用参考https://wenda.so.com/q/1361531401066511?src=140 免费代理很多,但也有很多不可用,所以我们可以用程序对其进行筛选。以能否访问百度为例。 1.获取网页内容。 对于一般网站像这样获取源代码就可以了,不过,这个网站有反爬机制,所以得用如下代码。
阅读全文
摘要:工具:python3.6 pycharm 库:bs4 + urllib 第一步:读取html源码 第二步:获取内容和标题 第三步:在当前目录下新建一个lesson的文件夹,将文件存储在此文件夹下 数据爬取完毕。 注:以上完成一个页面的抓取,若想多抓取页面的话,可用以下代码:
阅读全文