摘要: 反爬虫 的技术大概分为四个种类: 注:文末有福利! 一、通过User-Agent来控制访问: 无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requests headers: 这里面的大多数的字段都是浏览器向服务器”表明身份“用的对于爬虫程序 阅读全文
posted @ 2018-04-01 17:19 Lovebugs.cn 阅读(9519) 评论(8) 推荐(4) 编辑
摘要: 自己的博客终于成功部署上线了,回过头来总结记录一下整个项目的部署过程! 测试地址:47.94.154.205:8084 注:文末有福利! 一、Linux下应用Shell通过SSH连接云服务器 二、开始搭建SpringBoot的运行环境 1.安装JDK并配置环境变量 1) 打开JDK官网 www.or 阅读全文
posted @ 2018-03-30 19:16 Lovebugs.cn 阅读(3841) 评论(1) 推荐(0) 编辑
摘要: 由于要抓取的是悦音台mv的排行榜,这个排行榜是实时更新的,如果要求不停地抓取,这将有可能导致悦音台官方采用反爬虫的技术将ip给封掉。所以这里要应用一些反爬虫相关知识。 目标网址:http://vchart.yinyuetai.com/vchart/trends?area=ML 网站结构: 上面红线圈 阅读全文
posted @ 2017-07-27 14:30 Lovebugs.cn 阅读(549) 评论(0) 推荐(0) 编辑
摘要: 反爬虫 的技术大概分为四个种类: 注:文末有福利! 一、通过User-Agent来控制访问: 无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requests headers: 这里面的大多数的字段都是浏览器向服务器”表明身份“用的对于爬虫程序 阅读全文
posted @ 2017-07-27 11:25 Lovebugs.cn 阅读(2381) 评论(7) 推荐(5) 编辑
摘要: 1.目标网址:http://dianying.2345.com/top/ 需要找到的信息:电影的名字,主演,简介,和标题图片 2.查看页面结构: 容易看到,需要的主题部分,都被包裹在‘<ul>“列表标签里, 那么简单的用bs4库找到 "<ul>" tag并迭代取出每一条“<li>”tag, 最后再从 阅读全文
posted @ 2017-07-27 10:53 Lovebugs.cn 阅读(396) 评论(0) 推荐(0) 编辑
摘要: 一、目标 排行榜的地址:http://www.qu.la/paihangbang/ 找到各类排行旁的的每一部小说的名字,和在该网站的链接。 二、观察网页的结构 很容易就能发现,每一个分类都是包裹在: 之中,这种条理清晰的网站,大大方便了爬虫的编写。 在当前页面找到所有小说的连接,并保存在列表即可。 阅读全文
posted @ 2017-07-26 20:07 Lovebugs.cn 阅读(1568) 评论(3) 推荐(0) 编辑
摘要: 贴吧地址 : http://tieba.baidu.com/f?kw=%E7%94%9F%E6%B4%BB%E5%A4%A7%E7%88%86%E7%82%B8&ie=utf-8 Python版本 : 3.6浏览器: Chrome 一、目标: 二、分析: 地址中这些都是中文字符,%E7%94%9F% 阅读全文
posted @ 2017-07-26 15:55 Lovebugs.cn 阅读(679) 评论(1) 推荐(0) 编辑
摘要: 一、Templates过滤器 过滤器属于django模板语言 修改模板中的变量,从而显示不同内容 {{ value | filter }} 举例:{{ list_nums | length}} 表示list的长度 {{ value | filter | filter | filter }} 可叠加 阅读全文
posted @ 2017-07-19 19:17 Lovebugs.cn 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 博客页面的修改文章和添加新文章 从主页点击不同文章的超链接进入文章页面,就是传递了一个id作为参数,然后后台代码根据这个参数从数据库中取出来对应的文章,并把它传递到前端页面 修改文章和添加新文章,是要进入编辑页面,但编辑页面一个有内容,一个内容为空 根据上述思路,通过id 来区分不同的编辑页面(添加 阅读全文
posted @ 2017-07-18 11:00 Lovebugs.cn 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 在template中添加add_article.html页面 (form input)请求方法使用post 这个页面涉及到了两个响应函数 1)显示页面的响应函数 2)表单提交的响应函数 add_article.html如下: 1)显示页面的响应函数 views.py: 配置url,urls.py: 阅读全文
posted @ 2017-07-17 19:41 Lovebugs.cn 阅读(586) 评论(1) 推荐(0) 编辑