摘要: 0x01 常见的反爬虫 这几天在爬一个网站,网站做了很多反爬虫工作,爬起来有些艰难,花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面反爬虫:用户请求的He 阅读全文
posted @ 2016-01-22 17:21 BSDR 阅读(17868) 评论(15) 推荐(18) 编辑
摘要: 0x01 Web数据挖掘类型 利用Python爬虫进行Web数据挖掘已经越来越普遍,网上的各种Python爬虫资料教程比较多,但是很少有人对Web数据挖掘进行系统地总结和分析。 从目标上来讲,Web数据挖掘分为三类。最常见的是对于网站内容的爬取,包括文本、图片和文件等;其次是对于网站结构的爬取,包括 阅读全文
posted @ 2016-04-22 01:13 BSDR 阅读(5437) 评论(0) 推荐(3) 编辑
摘要: 0x01 感知机 感知机是一种二类分类的线性分类器,属于判别模型(另一种是生成模型)。简单地说,就是通过输入特征,利用超平面,将目标分为两类。感知机是神经网络和支持向量机的基础。 假设输入空间为,输出空间是.其中,为一个特征向量,。 定义从输入空间到输出空间的函数:为感知机。为感知机的权重,为偏置量 阅读全文
posted @ 2016-04-18 16:59 BSDR 阅读(10299) 评论(0) 推荐(7) 编辑
摘要: 从ZoomEye到BugScan,再到TangScan,大型的Poc/EXP平台越来越多,各种扫描器也层出不穷。Web安全的门槛越来越高,自动化的渗透已经成了一种趋势。我一直梦想着,将来渗透的时候,先打开自己写的各种自动化工具,输入目标,然后喝着咖啡,刷着知乎,最后只需要把工具的分析报告整理整理就可... 阅读全文
posted @ 2016-01-22 19:20 BSDR 阅读(1722) 评论(0) 推荐(0) 编辑