耐烦不急 - 博客园

2018年5月25日

数据库_11_1~10总结回顾+奇怪的NULL

摘要：校对集问题：比较规则：_bin,_cs,_ci利用排序（order by）另外两种登录方式：奇怪的NULL: NULL的特殊性：阅读全文

posted @ 2018-05-25 17:21 耐烦不急阅读(127) 评论(0) 推荐(0) 编辑

2018年5月23日

查找、添加与删除数据

摘要： 1.查找数据 2.添加数据将数据添加到最后：将数据依顺序排序后，添加到顺序位置，使顺序规律不变： 3.删除数据 BUG：如果有重复的数，只能删除一个；如果输入的数不存在也会出问题。改进之后如下： Python中的语法：阅读全文

posted @ 2018-05-23 00:08 耐烦不急阅读(305) 评论(0) 推荐(0) 编辑

2018年5月21日

数据库_10_校对集问题

摘要：校对集：数据比较方式校对集有三种格式： _bin：binary，二进制，取出二进制位，从左向右一位一位的比较，区分大小写 _cs：case sensitive，大小写敏感，区分大小写。（很少）（utf8不支持） _ci：case insensitive，大小写不敏感，不区分大小写。校对集应用：只阅读全文

posted @ 2018-05-21 11:28 耐烦不急阅读(211) 评论(0) 推荐(0) 编辑

2018年5月19日

数据库_9_中文数据问题

摘要：中文数据问题本质是字符集问题计算机只识别二进制，人类更多是识别符号，需要有个二进制与字符的对应关系（字符集）结果：客户端向服务器插入中文数据，没有成功原因：\xD\xC5\xBD代表的是“张越”在当前编码（字符集）下对应的二进制编码转换成的十六进制：两个汉字=>四个字节（GBK） \x指的是十阅读全文

posted @ 2018-05-19 17:54 耐烦不急阅读(194) 评论(0) 推荐(0) 编辑

2018年5月13日

linux_2

摘要： mac和linux上默认安装着SSH客户端，Windows上需要自己安装个软件。 Windows下SSH客户端的安装：建议从官方网站下载正式程序安装（免费） Putty：https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html Xs 阅读全文

posted @ 2018-05-13 22:36 耐烦不急阅读(241) 评论(0) 推荐(0) 编辑

2018年5月12日

机器学习_贝叶斯算法

摘要：朴素贝叶斯一、概述 1. 条件概率公式 2. 贝叶斯推断 3. 嫁？还是不嫁？这是一个问题…… 二、朴素贝叶斯种类 1. GaussianNB 2. MultinomialNB 3. BernoulliNB 三、朴素贝叶斯之鸢尾花数据实验 1. 导入数据集 2. 切分训练集和测试集 3. 构建高斯阅读全文

posted @ 2018-05-12 21:49 耐烦不急阅读(1288) 评论(0) 推荐(0) 编辑

2018年5月10日

系统学习爬虫_2_urllib

摘要：什么是urllib urlopen 结果： <!DOCTYPE html>  <html> <head> <meta http-equiv="content-type" content="text/html;charset=utf-8"> <meta http-equ 阅读全文

posted @ 2018-05-10 16:39 耐烦不急阅读(225) 评论(0) 推荐(0) 编辑

系统学习爬虫_1_爬虫基本原理讲解

摘要：什么是爬虫？请求网站并提取数据的自动化程序爬虫基本流程？什么是Request和Response？ Request中包含什么？ Response中包含什么？能抓怎样的数据？怎样来解析？怎样解决JavaScript渲染的问题？怎样保存数据？阅读全文

posted @ 2018-05-10 14:46 耐烦不急阅读(392) 评论(0) 推荐(0) 编辑

2018年5月9日

机器学习_集成算法与随机森林_案例实战：泰坦尼克获救预测

摘要：每棵树选择的数据量和特征个数要相等。一定要注意的是随机森林有二重随机性：数据采样随机，特征选择随机所以集成算法的基础模型用树模型。选择树的数量100~200就差不多了堆叠算法在一定程度上可以防止过拟合！阅读全文

posted @ 2018-05-09 09:49 耐烦不急阅读(878) 评论(0) 推荐(1) 编辑

2018年5月6日

机器学习_决策树及实战

摘要：信息增益率=信息增益/自身熵值三种方法对比： ID3的缺点，倾向于选择水平数量较多的变量，可能导致训练得到一个庞大且深度浅的树；另外输入变量必须是分类变量（连续变量必须离散化）；最后无法处理空值。 C4.5选择了信息增益率替代信息增益。 CART以基尼系数替代熵；最小化不纯度而不是最大化信息增益。阅读全文

posted @ 2018-05-06 20:15 耐烦不急阅读(760) 评论(0) 推荐(0) 编辑

公告