11 2018 档案

摘要:1. 文本分类 (1)分词: 中文分词系统 -- NLPIR(也叫ICTCLAS2013), 还有庖丁解牛分词器。 召回率(Recall):是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。 精度(Precise):是指检索出的相关文档数与检索出的文档总数的比率,衡量 阅读全文
posted @ 2018-11-29 12:03 一剑侵心 阅读(1936) 评论(0) 推荐(0) 编辑
摘要:协同过滤有两种思路: (1) 邻居方法 (a) 基于用户。系统通过分析一个用户和哪些用户的特征比较像,然后看看这些用户喜欢买哪类的商品,再从这些商品里挑出一些推荐给该用户。 (b) 基于商品。系统通过分析用户的购买行为来判断用户喜欢的商品类型,然后从那些用户喜欢的商品类型里挑出一些推荐给用户。 (2 阅读全文
posted @ 2018-11-22 18:43 一剑侵心 阅读(752) 评论(0) 推荐(0) 编辑
摘要:用户画像要注意的地方: (1) 距离现在时间越近发现的一些物质应该和久远时间发现的物质区别对待。 (2)体现与众不同的特点。 (3) 数字化等级标注。没办法做到数字化的东西是不能计算也不能比较的。 阅读全文
posted @ 2018-11-22 12:11 一剑侵心 阅读(1114) 评论(0) 推荐(0) 编辑
摘要:1. 朴素贝叶斯 贝叶斯决策理论方法是统计模型决策中的一个基本方法,基本思想如下: (1) 已知类条件概率密度参数表达式和先验概率 (2) 利用贝叶斯公式转换成后验概率 (3) 根据后验概率大小进行决策分类。 贝叶斯概率研究的是条件概率,也就是研究的场景是在带有某些前提条件下,或者在某些背景条件的约 阅读全文
posted @ 2018-11-20 19:02 一剑侵心 阅读(401) 评论(0) 推荐(0) 编辑
摘要:1. K-Means 算法 此算法是很常用的一个算法,也是基于向量距离来做聚类。算法步骤: (1) 从 n 个向量对象任意选择 k 个向量作为初始聚类中心 (2) 根据在步骤(1)中设置的 k 个向量(中心对象向量),计算每个对象与这 k 个中心对象各自的距离 (3) 对于步骤(2)中的计算,任何一 阅读全文
posted @ 2018-11-08 08:59 一剑侵心 阅读(736) 评论(0) 推荐(0) 编辑
摘要:1. 线性回归 利用数理统计学中的回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计方法。 表达形式: y = ax + b + e ( e 为误差服从均值为0的正态分布,不是一个定值,也称为残差),当 e 的平方和最小时,可以称之为最佳回归线性方程。 2. 拟合 把平面上一系列的点用一 阅读全文
posted @ 2018-11-06 12:13 一剑侵心 阅读(295) 评论(0) 推荐(0) 编辑
摘要:1. SPSS 挖掘流程: 获取 -- 分析 -- 建模 -- 评估 -- 部署 2. SAS 3. 通用的数据挖掘流程 阅读全文
posted @ 2018-11-05 20:20 一剑侵心 阅读(205) 评论(0) 推荐(0) 编辑
摘要:Nginx 作负载均衡时,由于是每次都需要把请求分发到不同的机器,同一个用户在一台机器上创建了 session,下一次的请求很有可能会转发到另外一台机器,会造成 session 丢失。我们可以使用 Redis 来保存 session。具体步骤如下: 1. https://files.cnblogs. 阅读全文
posted @ 2018-11-03 19:17 一剑侵心 阅读(458) 评论(0) 推荐(0) 编辑
摘要:若信源有 m 种消息,且每个消息是以相等可能产生的,则该信源的信息量可以表示如下: 但是很多情况,事件出现的概率是不一样的。事件出现的概率越小,信息量越大。此时信息量的计算公式如下: Xi 表示一个发生珠事件, P 表示这个事件发生的先验概率。所谓先验概率,就是这个事件按照常理,按照一般性规律发生的 阅读全文
posted @ 2018-11-02 09:27 一剑侵心 阅读(543) 评论(0) 推荐(0) 编辑
摘要:机器学习中用到的一些统计方面的概念。 1. 标准差 公式: 假设一个班有30个学生,每个学生的语文课的考试成绩是 Xi, 平均分是80,标准差 不是每个学生的成绩减去平均分的平方的和,再除以学生数,然后再开方。 意义: 标准差越大,表示学生之间的水平相差较大。 2. 加权均值 平均值计算时,按照权重 阅读全文
posted @ 2018-11-01 16:43 一剑侵心 阅读(1130) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示