摘要:
### [1 逻辑回归](#lr) ### [2 决策树](#decision_tree) ### 3 支持向量机 ### 4 提升方法 ### 5 聚类 准备在近期复习巩固一下基本机器学期算法的原理和实现,写一些笔记,方便以后自己回顾。 1 逻辑回归 * (1) [理论推导](http://www 阅读全文
摘要:
最近俄乌的局势成为全球焦点,最新的消息报道,美国、欧盟、英国、加拿大发表共同声明,宣布禁止俄罗斯使用环球同业银行金融电讯协会(SWIFT)。 禁止俄罗斯使用SWIFT,被媒体们称为”金融核武器“,那么这个SWIFT到底是什么东西呢? >假如 >A国的小美,在A国的A银行开了个账户, >B国的小明,在 阅读全文
摘要:
Spark Streaming基础总结,包括DStream、Fault Tolerance等。 阅读全文
摘要:
引言 (废话) 我们经常说的“信息量太大了”,其中的”信息量“到底如何度量? Claude Elwood Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”。 这个概念现在看着很简单易懂,但是开创性地提出这样的概念不是容易的事情。 1 Entropy 熵 熵(entr 阅读全文
摘要:
Created by yinhongyu at 2018 4 28 email: hyhyin@163.com 使用jieba和sklearn实现了tf idf的计算 1 读取数据文件 数据爬取自新浪新闻,以"中美贸易战"为关键词,按照相关度搜索,爬取了搜索结果的前100页新闻的正文; 标题 来源 阅读全文
摘要:
逻辑回归 针对二分类问题,若X是特征集合,Y是类别标签(0,1),假设Y的取值服从伯努利分布,即(式1) $P(Y=0|X)=1 p$ $P(Y=1|X)=p$ 再假设p是可以由已知的特征集合X预测的,令(式2) $$p=\frac{1}{1+e^{ {\theta}^{T} x}}=h_{\the 阅读全文
摘要:
原文地址: https://www.cnblogs.com/yongjian/archive/2017/03/29/6640951.html Hive分区的概念与传统关系型数据库分区不同。 传统数据库的分区方式:就oracle而言,分区独立存在于段里, 阅读全文
摘要:
1 FM模型 FM是一般线性模型的推广,一般的线性模型可以表示为(式0): $$y(x)=w_0+\sum_\limits{i=1}^{n}{w_i}x_i$$ 但是上述模型没有考虑特征间的关联,为表示关联特征对$y$的影响,引入多项式模型,以$x_iy_i$表示两特征的组合,有如下二阶多项式模型( 阅读全文