monty12

2018年12月16日

k-均值聚类算法1

摘要：一、k-means算法： 1、优缺点：优点：容易实现。缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。 2、伪代码描述：阅读全文

posted @ 2018-12-16 22:01 monty12 阅读(137) 评论(0) 推荐(0) 编辑

k-均值聚类算法

摘要：一、k-means算法： 1、优缺点：优点：容易实现。缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。 2、伪代码描述：阅读全文

posted @ 2018-12-16 22:00 monty12 阅读(129) 评论(0) 推荐(0) 编辑

2018年12月13日

scrapy 下载图片和文件

摘要：一、下载文件：阅读全文

posted @ 2018-12-13 22:29 monty12 阅读(115) 评论(0) 推荐(0) 编辑

scrapy之使用LinkExtractor提取链接

摘要：一、概述：在页面含有少量链接时，使用selector来提取信息就可以，但如果链接特别多时，就需要用LinkExtractor来提取。二、LinkExtractor构造器的各个参数： 1、allow 接收一个正则表达式或一个正则表达式列表，提取绝对url与正则表达式匹配的链接，如果改参数为空，就提阅读全文

posted @ 2018-12-13 22:14 monty12 阅读(781) 评论(1) 推荐(0) 编辑

2018年12月12日

k近邻算法

摘要：一、k-近邻算法（knn）： 1、优点：精度高、对异常值不敏感、无数据输入假定。 2、缺点：计算复杂度高、空间复杂度高。二、阅读全文

posted @ 2018-12-12 22:20 monty12 阅读(122) 评论(0) 推荐(0) 编辑

python xpath学习

摘要：一、选取节点：二、谓词：注意：在scrapy中用xpath进行搜索时，如果使用相对路径，要加上.，如，不然搜索的是整个文档。阅读全文

posted @ 2018-12-12 13:56 monty12 阅读(136) 评论(0) 推荐(0) 编辑

2018年12月11日

使用item来封装数据：

摘要：一、item和field类： 1、使用Item类：创建了类Bookitem,然后就可以使用： 2、item_pipeline: 我们可以使用item_pipeline对爬取的数据进行处理。步骤：（1）在items.py文件中定义数据格式：需要继承Item类。（2）然后在pipelines. 阅读全文

posted @ 2018-12-11 21:38 monty12 阅读(310) 评论(0) 推荐(0) 编辑

2018年12月1日

scrapy学习

摘要：一、命令： 1、创建项目： scrapy startproject projectname 2、创建一个爬虫：scrapy genspider spidername 二、创建item：是保存爬取数据的容器，使用方法和字典类似。 1、三、解析response： 1、css选择器：与css的用法相同阅读全文

posted @ 2018-12-01 21:39 monty12 阅读(105) 评论(0) 推荐(0) 编辑

pyspider框架学习

摘要：一、crawl()方法学习： 1、url:爬去是的url，可以定义单个，可以定义为url列表。 2、callback:回调函数，指定该url使用哪个方法来解析。 3、age：任务的有效时间。 4、priority：爬取任务的优先级，值越大，对应的请求越会优先被调度。 5、retries:定义重试次数阅读全文

posted @ 2018-12-01 21:03 monty12 阅读(258) 评论(0) 推荐(0) 编辑

2018年11月27日

pc安装完成charles成功，小米安装crt证书失败

摘要：问题描述：今天在学习爬虫爬取APP内容时，需要安装crt证书。根据静谧大大的书，前面都挺顺利的。但在我的小米手机上安装crt证书时，出现了错误。手机显示无法安装。解决之道： 1、不要用小米手机自带的浏览器下载crt文件。 2、安装证书：不要直接点击crt文件进行安装。（建议看最后一个方法，但前阅读全文

posted @ 2018-11-27 16:32 monty12 阅读(890) 评论(0) 推荐(0) 编辑

公告