Fork me on GitHub

03 2019 档案

摘要:本篇文章分为两个部分,前一部分主要简单介绍K近邻,后一部分是一个例子 第一部分--K近邻简介 从字面意思就可以容易看出,所谓的K近邻,就是找到某个样本距离(这里的距离可以是欧式距离,曼哈顿距离,切比雪夫距离等)最近的K个数据,根据最近的K个邻居属于什么分类,来判断这个样本属于什么分类。 简单说一下优 阅读全文
posted @ 2019-03-29 18:05 猿起缘灭 阅读(500) 评论(0) 推荐(0) 编辑
摘要:本文主要介绍决策树的基本概念和如最简单的入门实例 第一部分--基本概念: 什么是决策树? 我不打算搞一段标准的定义放在这里,我个人理解是建立一个树来帮助决策,下面以一个图说明一下(注:图是盗别人的) 这就是一个决策树,从图中可以一目了然的了解决策树的概念,上面的图中只有一个属性来决定这个人是男还是女 阅读全文
posted @ 2019-03-28 22:43 猿起缘灭 阅读(2312) 评论(3) 推荐(0) 编辑
摘要:下面的代码为了每天定时发送监控邮件,监控什么呢?监控当天redis队列中是否有没有消费的数据,和当天mysql中新增的数据量 # -*- coding:utf-8 -*- from common.redis import redisServ from common.mysql import database from email.mime.text import MIMEText from em... 阅读全文
posted @ 2019-03-27 18:22 猿起缘灭 阅读(782) 评论(0) 推荐(0) 编辑
摘要:select @rownum:=@rownum+1 AS rownum,b.* from (SELECT @rownum:=0) r ,goods_description_new b 阅读全文
posted @ 2019-03-27 14:03 猿起缘灭 阅读(135) 评论(0) 推荐(0) 编辑
摘要:import timetime.strftime("%Y-%m-%d %H:%M:%S", time.localtime()) 阅读全文
posted @ 2019-03-27 10:41 猿起缘灭 阅读(210) 评论(0) 推荐(0) 编辑
摘要:select * from table where id in (select max(id) from table group by sku) 说明:id是自增序列,sku是表中的一个字段 阅读全文
posted @ 2019-03-27 10:24 猿起缘灭 阅读(16197) 评论(0) 推荐(0) 编辑
摘要:1.sk-learning安装 由于安装了anaconda,anaconda中带有sklearn,不用重复安装 2.sk-learning的使用 3.读取CSV文件 I.获取列名的方法: df = pandas.read_csv('test.csv') df.columns.values 或者 df 阅读全文
posted @ 2019-03-26 21:33 猿起缘灭 阅读(134) 评论(0) 推荐(0) 编辑
摘要:所报的错误为:pymysql.err.OperationalError: (1213, 'Deadlock found when trying to get lock; try restarting transaction') 产生这个问题的原因: 多个线程同时执行,且是先删除后插入,因为删除获取一 阅读全文
posted @ 2019-03-26 18:20 猿起缘灭 阅读(7214) 评论(0) 推荐(0) 编辑
摘要:由于标题中的错误引发: Message: Tried to run command without establishing a connection 解释: 先说一下我的爬虫架构,用的是firefox+selenium,上面的那个错误是因为浏览器退出之后,爬虫还要浏览器去执行一些命令,所以才报上面 阅读全文
posted @ 2019-03-26 14:57 猿起缘灭 阅读(5914) 评论(4) 推荐(0) 编辑
摘要:背景:项目中引入日志是必须的,这里介绍通过配置文件config.ini的方式配置日志 1.新建config.ini 2.添加配置 阅读全文
posted @ 2019-03-19 17:19 猿起缘灭 阅读(7819) 评论(0) 推荐(0) 编辑
摘要:转载来自: http://www.studyai.com/article/33e22cef42274e8a 阅读全文
posted @ 2019-03-14 11:23 猿起缘灭 阅读(304) 评论(0) 推荐(0) 编辑
摘要:背景:在使用selenium时,在本地使用windows,都会有一个图形界面,但是到了生产环境linux上没有了图形界面怎么部署呢? 解决方案: 1.安装图形化界面,不推荐,因为安装图形化界面会占用很多内存,而且在linux上搞个图形界面,很不爽 2.使用虚拟化图形界面,就跟你的虚拟机一样,也是一套 阅读全文
posted @ 2019-03-07 19:33 猿起缘灭 阅读(1081) 评论(0) 推荐(0) 编辑
摘要:问题描述:在爬取一些反爬机制做的比较好的网站时,经常会遇见一个问题就网站代码是通过js写的,这种就无法直接使用一般的爬虫工具爬取,这种情况一般有两种解决方案 第一种:把js代码转为html代码,然后再使用html代码解析工具爬取,目前常用的工具是selenium和scrapy-splash,我使用的 阅读全文
posted @ 2019-03-02 17:32 猿起缘灭 阅读(4932) 评论(0) 推荐(0) 编辑
摘要:背景:动态页面是页面是通过js代码渲染出来的,无法直接使用scrapy爬虫,这是就需要先把js代码转为静态的html,再用scrapy爬虫就可以解决 解决办法:增加SeleniumMiddlewares中间件 代码: 阅读全文
posted @ 2019-03-01 14:46 猿起缘灭 阅读(3019) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示