摘要:
校对集问题: 比较规则:_bin,_cs,_ci利用排序(order by) 另外两种登录方式: 奇怪的NULL: NULL的特殊性: 阅读全文
摘要:
1.查找数据 2.添加数据 将数据添加到最后: 将数据依顺序排序后,添加到顺序位置,使顺序规律不变: 3.删除数据 BUG:如果有重复的数,只能删除一个;如果输入的数不存在也会出问题。 改进之后如下: Python中的语法: 阅读全文
摘要:
校对集:数据比较方式 校对集有三种格式: _bin:binary,二进制,取出二进制位,从左向右一位一位的比较,区分大小写 _cs:case sensitive,大小写敏感,区分大小写。(很少)(utf8不支持) _ci:case insensitive,大小写不敏感,不区分大小写。 校对集应用:只 阅读全文
摘要:
中文数据问题本质是字符集问题 计算机只识别二进制,人类更多是识别符号,需要有个二进制与字符的对应关系(字符集) 结果:客户端向服务器插入中文数据,没有成功 原因:\xD\xC5\xBD代表的是“张越”在当前编码(字符集)下对应的二进制编码转换成的十六进制:两个汉字=>四个字节(GBK) \x指的是十 阅读全文
摘要:
mac和linux上默认安装着SSH客户端,Windows上需要自己安装个软件。 Windows下SSH客户端的安装:建议从官方网站下载正式程序安装(免费) Putty:https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html Xs 阅读全文
摘要:
朴素贝叶斯 一、概述 1. 条件概率公式 2. 贝叶斯推断 3. 嫁?还是不嫁?这是一个问题…… 二、朴素贝叶斯种类 1. GaussianNB 2. MultinomialNB 3. BernoulliNB 三、朴素贝叶斯之鸢尾花数据实验 1. 导入数据集 2. 切分训练集和测试集 3. 构建高斯 阅读全文
摘要:
什么是urllib urlopen 结果: <!DOCTYPE html> <!--STATUS OK--> <html> <head> <meta http-equiv="content-type" content="text/html;charset=utf-8"> <meta http-equ 阅读全文
摘要:
什么是爬虫? 请求网站并提取数据的自动化程序 爬虫基本流程? 什么是Request和Response? Request中包含什么? Response中包含什么? 能抓怎样的数据? 怎样来解析? 怎样解决JavaScript渲染的问题? 怎样保存数据? 阅读全文
摘要:
每棵树选择的数据量和特征个数要相等。一定要注意的是随机森林有二重随机性:数据采样随机,特征选择随机 所以集成算法的基础模型用树模型。 选择树的数量100~200就差不多了 堆叠算法在一定程度上可以防止过拟合! 阅读全文
摘要:
信息增益率=信息增益/自身熵值 三种方法对比: ID3的缺点,倾向于选择水平数量较多的变量,可能导致训练得到一个庞大且深度浅的树;另外输入变量必须是分类变量(连续变量必须离散化);最后无法处理空值。 C4.5选择了信息增益率替代信息增益。 CART以基尼系数替代熵;最小化不纯度而不是最大化信息增益。 阅读全文