摘要:很多人都会发现日常生活已经越来越离不开美团了,这个互联网平台涵盖了吃、住、行、游、购、娱……能帮我们做很多事情,非常接地气。黄色的美团外卖骑手,橙色的摩拜单车,还有美团和大众点评的Logo……会不时出现在各个角落,已经成为我们熟悉的城市风景线。 可这些与科技的关系,大家就不一定都那么清楚了。 我们注
阅读全文
随笔分类 - 机器学习
摘要:背景 作为以科技创新为驱动的娱乐公司,爱奇艺努力为用户提供丰富、高品质和智能化的专业服务。舆情分析是理解用户的一个重要方面。用户在观看视频或使用产品后,通过各种方式表达着自己的情感和观点。如对电视综艺节目内容本身的热议、对演员角色的喜爱和吐槽、对产品的意见都是舆情的内容。针对这些舆情的挖掘和分析可以
阅读全文
摘要:https://www.cnblogs.com/star-zhao/p/10186417.html 目录 1. 逻辑回归 2. 优缺点及优化问题 3. 实际案例应用 4. 总结 正文 在前面所介绍的线性回归, 岭回归和Lasso回归这三种回归模型中, 其输出变量均为连续型, 比如常见的线性回归模型为
阅读全文
摘要:https://www.cnblogs.com/subconscious/p/4107357.html
阅读全文
摘要:https://blog.csdn.net/meyh0x5vDTk48P2/article/details/79303081
阅读全文
摘要:在互联网金融迅猛发展的背景下,风险控制问题已然成为行业焦点,基于大数据的风控模型正在成为互联网金融领域的热门战场。那么,大数据风控到底是怎么一回事呢?与传统风控相比,它又是怎样来进行风险识别的呢?本文对此进行了探讨。 大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐
阅读全文
摘要:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点: 0. 离散特征的增加和减少都很容易,易于模型的快速迭代; 1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 2. 离散化后的特征对异常数据有很强的鲁棒
阅读全文
摘要:特征分类 对特征进行分类,对于不同的特征应该有不同的处理方法。 根据不同的分类方法,可以将特征分为 (1)Low level特征和High level特征。 Low level特征——较低级别的特征,主要是原始特征,不需要或者需要非常少的人工处理和干预。 例如文本特征中的词向量特征,图像特征中的像素
阅读全文
摘要:特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种
阅读全文
摘要:1.TF-IDF原理 TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做词频-逆文档频率。在文本挖掘(Text Mining)和信息检索(Information Retrieval)领域具有广泛的应用。TF-IDF通过计算每个词的TF-IDF
阅读全文
摘要:KNN和K-Means的区别 KNN K-Means 2.监督学习 3.喂给它的数据集是带label的数据,已经是完全正确的数据 2.非监督学习 3.喂给它的数据集是无label的数据,是杂乱无章的,经过聚类后才变得有点顺序,先无序,后有序
阅读全文
摘要:首先这个问题问的很广。做机器学习方向很多,有些公司更偏重于数据挖掘,而有些更倾向于深度学习。同理,相对应的岗位有些偏重理论也有些偏重实践。这些因素叠加造成了机器学习相关的岗位分布广,如数据分析师,算法工程师,机器学习科学家等,很难一概而论。 大概从实习生的时候就开始跟着老板招聘面试机器学习方向的候选
阅读全文
摘要:这里有两个问题,第一个问题,预测是怎么做出来的?第二个问题是:对于同一件事情它是预测出不同的结果,什么结果是好与坏?第一个问题是怎么预测的问题,第二个问题是预测的效果好与坏的问题。这就引出了我的主题,《机器学习对销售预测的研究》。 机器学习是常用的日常分析的方法,另一方面机器学习在海量数据中挖掘其中
阅读全文
摘要:情感分析就是分析一句话说得是很主观还是客观描述,分析这句话表达的是积极的情绪还是消极的情绪。原理比如这么一句话:“这手机的画面极好,操作也比较流畅。不过拍照真的太烂了!系统也不好。” ① 情感词 要分析一句话是积极的还是消极的,最简单最基础的方法就是找出句子里面的情感词,积极的情感词比如:赞,好,顺
阅读全文
摘要:交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓
阅读全文
摘要:一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。那么,物品甲和乙在事务中的出现相互之间是否有规律可循呢?在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说,关联规则
阅读全文
摘要:Apriori算法是一种最有影响的挖掘 0-1 布尔关联规则频繁项集的算法。这种算法利用了频繁项集性质的先验知识(因此叫做priori)。Apriori使用了自底向上的实现方式(如果集合 I 不是频繁项集,那么包含 I 的更大的集合也不可能是频繁项集),k – 1 项集用于探索 k 项集。首先,找出
阅读全文
摘要:这里要理解虚拟变量的真正含义:是要体现出不同省份之间的差异,而并不是所谓的控制变量。而其要充分理解多元线性回归当中参数估计量的真正含义:是偏回归系数,即自变量的边际量,表明了在其他条件不变的情况下,自变量每增加一个单位因变量的变化。如果按照你的理解假设X为地区变量,X的取值为1代表山西;2代表陕西;
阅读全文
摘要:最大似然法,英文名称是Maximum Likelihood Method,在统计中应用很广。这个方法的思想最早由高斯提出来,后来由菲舍加以推广并命名。 最大似然法是要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模型在所有模型中产生已知数据的概率最大。通
阅读全文
摘要:1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。 2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码;
阅读全文