摘要:
index优化 对于频繁作为查询条件的字段使用索引 注意索引字段类型的隐式转换,数据库类型和应用类型要一致 索引的种类 唯一索引,成为索引的列不能重复 单列索引,一个索引只包含一列 单列前缀索引,有些列较长,不宜使用全长作为索引,可以截取列前面一部分作为索引 复合索引(某几列也可以是前缀索引),一个 阅读全文
摘要:
对数值类数据建模—加权k近邻算法 根据相邻的数据预测出目标的取值情况 算法: 计算给定向量与所有其他数据的距离,并按照距离排序 选出前k位,求前k个数据的加权平均,权重根据距离求得 要点: 计算距离:使用欧几里得距离算法 计算权重算法: 反函数 减法函数 高斯函数 缩放:对于各个变量的取值范围相差较 阅读全文
摘要:
决策树 适合用来处理带有分界点的数据 优点 1. 易于解释:能结合实际数据对受训模型进行合理的解释,便于理解 2. 可以同时接受分类数据和数值数据作为输入 3. 允许数据缺失 缺点 1. 过度拟合:专门针对训练数据创建出来的分支,可能更具有特殊性。解决办法:对决策树进行剪枝 2. 针对不同类型的数据 阅读全文
摘要:
分类 分类方法: 1. 朴素贝叶斯分类法 2. 费舍尔分类法 1.0 1.0 0.75 0.708333333333 0.15625 0.05 good bad unknown bad 0.78013986589 0.356335962833 good bad good bad 阅读全文
摘要:
优化问题 使用随机优化解决写作类问题:存在多种变量的影响,存在许多个可能的解,通过对题解打分,找到一个问题的最优解。 优化的主要思想: 1. 找到影响结果的因素,比如这里旅行的航班价格、花费时间、租车费用等 2. 将考虑到的主要因素根据权重组成,计算出总的成本 3. 利用一定的算法找到成本最小时候的 阅读全文
摘要:
简单的搜索引擎 核心思想就是 1. 爬取指定页面,提取出页面中的url,进行递归爬取,可以指定递归深度 2. 提取网页中的文字内容,根据一定规则进行分词,保存在数据库中,分出的单词和url对应存储 3. 对查询参数分词,然后查询数据库中各个单词对应的url,然后返回 对搜索结果进行排名: 1. 基于 阅读全文
摘要:
聚类 属于无监督学习 目的:找到数据集中的不同群组 分级聚类 主要思想是: 1. 在数据集中找出两个最相似的节点 2. 根据这两个节点生成一个新的聚类节点,这个节点的数据为两个子节点的数据的平均值, 3. 将两个子节点从数据集中去除,将新的聚类节点加入数据 4. 回到1,直至数据集中只剩一个节点 K 阅读全文
摘要:
提供推荐 1. 计算两个人的相似度 2. 本来是推荐平均评分较高的作品,考虑到两个人的爱好相似程度,对评分根据相似度进行加权平均 计算相似度: 1. 欧几里得距离 2. pearson相关度 计算相关度 pearson相关系数计算公式( "参考" ) 0.294298055086 0.3960590 阅读全文
摘要:
在docker中安装redis 使用命令行安装redis 1. 下载并解压 2.编译安装 3. 启动redis服务 使用Dockerfile 阅读全文
摘要:
在docker中安装mysql ubuntu官方镜像是精简的ubuntu系统,很多软件和库没有安装,所以直接安装mysql的话依赖较多,建议直接从源码编译安装mysql 通过命令行安装 先启动一个容器,建议可以创建一个包含常用工具的便于自己使用的基本镜像,比如:包含vim、net tools、添加阿 阅读全文