摘要:
一、思路分析: 在之前写拉勾网的爬虫的时候,总是得到下面这个结果(真是头疼),当你看到下面这个结果的时候,也就意味着被反爬了,因为一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会禁止这个IP的访问: 对于拉勾网,我们要 阅读全文
摘要:
此次要实现的目标是登录12306网站和查看火车票信息。 具体步骤 一、登录 登录功能是通过使用selenium实现的,用到了超级鹰来识别验证码。没有超级鹰账号的先注册一个账号,充值一点题分,然后把下载这个Python接口文件,再在里面添加一个use_cjy的函数,以后使用的时候传入文件名就可以了(验 阅读全文
摘要:
此次的目标是爬取网易云音乐上指定歌曲所有评论并生成词云 具体步骤: 一:实现JS加密 找到这个ajax接口没什么难度,问题在于传递的数据,是通过js加密得到的,因此需要查看js代码。 通过断掉调试可以找到数据是由core_8556f33641851a422ec534e33e6fa5a4.js?855 阅读全文
摘要:
首先你需要一个GitHub的账号,然后点击new repository新建一个公共仓库,如下图: 然后点击Create repository就可以了,这样我们就成功新建了一个公共仓库,那我们要怎么把代码上传到GitHub呢? 有两种办法,一种是使用Git,另一种是使用GitHubDesktop。(我 阅读全文
摘要:
一、目标: 下载网易云音乐热门歌单 二、用到的模块: requests,multiprocessing,re。 三、步骤: (1)页面分析:首先打开网易云音乐,选择热门歌单,可以看到以下歌单列表,然后打开开发者工具 因此我们需要请求的url就是https://music.163.com/discov 阅读全文
摘要:
经过测试,可以下载要付费下载的歌曲(n_n) 准备工作:Python3.5+Pycharm 使用到的库:requests,re,json,time,fakeuseragent 步骤: 打开酷狗音乐的官网,输入想要搜索的歌曲(例如《天后》),然后回车搜索,得到如下页面: 右键检查或者按F12打开开发者 阅读全文
摘要:
selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。 环境配置: 1、Windows系统 阅读全文
摘要:
Python版本:3.5 IDE:Pycharm 今天跟着网上的教程做了第一个Scrapy项目,遇到了很多问题,花了很多时间终于解决了== 一、Scrapy终端(scrapy shell) Scrapy终端是一个交互终端,供我们在未启动spider的情况下尝试及调试爬取代码。 其本意是用来测试提取数 阅读全文
摘要:
Python版本:3.5 系统:Windows 一、准备工作 需要先安装几个库(pip,lxml,pywin32,Twisted,pyOpenSSL),这些都比较容易,如果使用的是Pycharm,就可以更方便的安装模块,在settings里可以选择版本进行下载。 如果在命令行模式下输入pip -V出 阅读全文