2018 年 12月 29 日随笔档案 - bitterz

2018年12月29日

摘要：爬虫 selenium+HeadlessChrome [TOC] 之前的笔记已经提到过selenium+chromedriver爬取Ajax技术加载的数据，但这种方式过于笨重，原因在于，每打开一个页面，都需要浏览器解析数据渲染界面，但实际上我们的爬虫不需要这些操作。所以一个没有界面但又完全可以模拟浏阅读全文

posted @ 2018-12-29 11:53 bitterz 阅读(520) 评论(0) 推荐(0) 编辑

爬虫1.5-ajax数据爬取

摘要：爬虫 ajax数据爬取 [TOC] 1. ajax数据 ajax (异步JavaScript 和 XML)（读作阿贾克斯），ajax可以时网页实现异步更新，一般使用的json数据交互，即在不重新加载整个页面也可以对网页的部分进行更新， ajax技术加载的数据在网页源代码中是看不到的，只能看到url 阅读全文

posted @ 2018-12-29 11:50 bitterz 阅读(662) 评论(0) 推荐(0) 编辑

爬虫1.4-多线程和队列

摘要：爬虫多线程和队列 [TOC] 当我们实现了一个小爬虫之后，会自然而然的考虑如何提升爬虫的效率，因此，我们就需要借助多线程、多进程和数据结构的方法。本次笔记提供一个简单的生产者和消费者模式的框架，并给出了一个实战代码。 1. 生产者和消费者模式这个模式可以从生活实际出发，想想我们去吃自助，生产者（阅读全文

posted @ 2018-12-29 11:45 bitterz 阅读(324) 评论(0) 推荐(0) 编辑

爬虫1.3-数据存储

摘要：爬虫数据存储 [TOC] 1. JSON文件 1.1 JSON数据格式 json是一种轻量级数据交换格式，采用完全独立于编程语言的文本格式来存储和表示数据，简洁清晰，适合前端和后端数据交换 JSON数据格式 1 对象（字典）使用花括号{} 2 数组（数组）使用方括号[] 3 整形、浮点型、布尔阅读全文

posted @ 2018-12-29 11:43 bitterz 阅读(234) 评论(0) 推荐(0) 编辑

爬虫1.2-数据解析

摘要：爬虫数据解析 [TOC] 1. xpath和正则表达式心得 0）推荐安装谷歌浏览器插件xpath helper（谷歌应用商店，需要FQ，后面会提到其缺陷，但初学时效果极佳） 1）xpath获取某标签下的文本使用/text()函数例如//div/p/text() 2）xpath获取标签中属性的值使阅读全文

posted @ 2018-12-29 11:37 bitterz 阅读(131) 评论(0) 推荐(0) 编辑

爬虫1.1-基础知识+requests库

摘要：爬虫基础知识+requests库 [TOC] 关于html的知识，可以到w3school中进行了解学习。http://www.w3school.com.cn/html/index.asp，水平有限，这里不多提及。 1. 状态返回码标志这这一次的请求状态，成功或失败，失败原因大概是什么 200：请阅读全文

posted @ 2018-12-29 11:32 bitterz 阅读(245) 评论(0) 推荐(0) 编辑

论文笔记-巧妙的验证码攻击

摘要：论文题目： Yet Another Text Captcha Solver A Generative Adversarial Network Based Approach 论文原作者： GuixinYe,ZhanyongTang∗,DingyiFang,ZhanxingZhu,YansongFeng 阅读全文

posted @ 2018-12-29 10:55 bitterz 阅读(985) 评论(0) 推荐(0) 编辑

论文笔记-用户危险行为预测

摘要：一篇从用户流量预测用户是否会访问恶意网站的论文阅读全文

posted @ 2018-12-29 10:33 bitterz 阅读(469) 评论(0) 推荐(0) 编辑

bitterz

https://github.com/bitterzzZZ

公告