摘要:
## 1. Neo4j 初览 ![](https://img2020.cnblogs.com/blog/1102083/202008/1102083-20200825194557473-843777857.png) 每个圆圈表示一个节点(Nodes),节点用于形成图数据,记录数据的名称,如图一就是n 阅读全文
摘要:
线性空间 用F表示实数全体(R)或者复数全体(C) 定义: 设V是非零空集合,F是R或者C的数域,在V和F上定义两种运算: 加法运算:对 \(\alpha,\beta \in\) V,在V中有唯一的元素与其和对应,我们记此元素为$\alpha+ \beta$,称为$\alpha,\beta$的和; 阅读全文
摘要:
面试session(收集中ing,欢迎读者朋友抛问题哦) 特征不是数字,特别是有些特征是数字,有些是字符型,怎么处理? 特征分布不一致,如特征1范围在(1,100),特征2在(0,1)之间,要不要处理呢? 结果过拟合和欠拟合? 不是二分类是多分类? 线性不可分? 样本不平衡? LR算法的应用场景? 阅读全文
摘要:
1. python 原生实现 这里的原生实现异常粗糙(没有正则项,随机梯度上升),就是上一篇 原理篇 的代码实现,数据集直接来自sklearn iris(3分类问题),另外,手工提出了0,1两类,仅做了两类iris的分类。 对于 \(h(X) = w_0 + w_1 x_1 + w_2 x_2 + 阅读全文
摘要:
R方公式 在机器学习中,首先定义一个样本$(x_i,y_i)\(,预测的y为\)\hat$ 则有: \(\bar{y} = \frac{1}{n} \sum_i^n y_{i}\) \(SS_{tot} = \sum_i(y_i - \hat{y_i})^2\) \(SS_{reg} = \sum_ 阅读全文
摘要:
TF-IDF 简介 TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词。 TF-IDF有两层意思,一层是"词频"(Term Frequency,简称TF),另一层是"逆文档频率"(In 阅读全文
摘要:
1. LR算法简述 LR 全称Logistic Regression,我们喜欢称她为逻辑回归或者逻辑斯蒂克回归,是传统机器学习中的最简单的最常用的分类模型。总之,LR算法简单、高效、易于并行且在线学习的特点,在工业界具有非常广泛的应用。在线学习指得是:可以利用新的数据对各个特征的权重进行更新,而不需 阅读全文
摘要:
混淆矩阵 True Positive(TP):将正类预测为正类数 True Negative(TN):将负类预测为负类数 False Positive(FP):将负类预测为正类数 False Negative(FN):将正类预测为负类数 准确率(accuracy) 计算公式 \(acc = \fra 阅读全文