摘要: 一、k-means算法: 1、优缺点: 优点:容易实现。 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。 2、伪代码描述: 阅读全文
posted @ 2018-12-16 22:01 monty12 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 一、k-means算法: 1、优缺点: 优点:容易实现。 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。 2、伪代码描述: 阅读全文
posted @ 2018-12-16 22:00 monty12 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 一、下载文件: 阅读全文
posted @ 2018-12-13 22:29 monty12 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 一、概述: 在页面含有少量链接时,使用selector来提取信息就可以,但如果链接特别多时,就需要用LinkExtractor来提取。 二、LinkExtractor构造器的各个参数: 1、allow 接收一个正则表达式或一个正则表达式列表,提取绝对url与正则表达式匹配的链接,如果改参数为空,就提 阅读全文
posted @ 2018-12-13 22:14 monty12 阅读(781) 评论(1) 推荐(0) 编辑
摘要: 一、k-近邻算法(knn): 1、优点:精度高、对异常值不敏感、无数据输入假定。 2、缺点:计算复杂度高、空间复杂度高。 二、 阅读全文
posted @ 2018-12-12 22:20 monty12 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 一、选取节点: 二、谓词: 注意:在scrapy中用xpath进行搜索时,如果使用相对路径,要加上.,如,不然搜索的是整个文档。 阅读全文
posted @ 2018-12-12 13:56 monty12 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 一、item和field类: 1、使用Item类: 创建了类Bookitem,然后就可以使用: 2、item_pipeline: 我们可以使用item_pipeline对爬取的数据进行处理。 步骤: (1)在items.py文件中定义数据格式: 需要继承Item类。 (2)然后在pipelines. 阅读全文
posted @ 2018-12-11 21:38 monty12 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 一、命令: 1、创建项目: scrapy startproject projectname 2、创建一个爬虫:scrapy genspider spidername 二、创建item:是保存爬取数据的容器,使用方法和字典类似。 1、 三、解析response: 1、css选择器: 与css的用法相同 阅读全文
posted @ 2018-12-01 21:39 monty12 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 一、crawl()方法学习: 1、url:爬去是的url,可以定义单个,可以定义为url列表。 2、callback:回调函数,指定该url使用哪个方法来解析。 3、age:任务的有效时间。 4、priority:爬取任务的优先级,值越大,对应的请求越会优先被调度。 5、retries:定义重试次数 阅读全文
posted @ 2018-12-01 21:03 monty12 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 问题描述: 今天在学习爬虫爬取APP内容时,需要安装crt证书。根据静谧大大的书,前面都挺顺利的。但在我的小米手机上安装crt证书时,出现了错误。手机显示无法安装。 解决之道: 1、不要用小米手机自带的浏览器下载crt文件。 2、安装证书:不要直接点击crt文件进行安装。 (建议看最后一个方法,但前 阅读全文
posted @ 2018-11-27 16:32 monty12 阅读(890) 评论(0) 推荐(0) 编辑