摘要:
Celery - 概念 简单的灵活可靠的处理大量消息的分布式系统 专注于实时处理的异步任务队列, 同时也支持任务调度 结构图 使用场景 异步任务 将耗时的操作任务提交给 Celery 去异步执行 - 比如发送短信 / 邮件, 消息推送, 音视频处理等 定时任务 类似于 crontab, 比如每日的数 阅读全文
摘要:
应用场景 拼写检查, 关键词检索 文本挖掘 文本分类 机器翻译 客服系统 复杂对话系统 深度学习 手工特征耗时耗力, 还不易拓展 自动特征学习快, 方便扩展 深度学习提供了一种通用的学习框架, 可以用来表示世界, 视觉和语言学信息 深度学习可以无监督学习, 也可以监督学习 语言模型 概念 我 今天 阅读全文
摘要:
安装 能直接安装就再好不过 pip install xgboost 如果不能就下载之后本地安装 安装包下载地址 这里 想要啥包都有 数据集 pima-indians-diabetes.csv 文件 调查印度糖尿病人的一些数据, 最终的预测结果是是否患病 # 1. Number of times pr 阅读全文
摘要:
工作原理 基于集成算法的多个树累加, 可以理解为是弱分类器的提升模型 公式表达 基本公式 目标函数 目标函数这里加入了损失函数计算 这里的公式是用的均方误差方式来计算 最优函数解 要对所有的样本的损失值的期望, 求解最小的程度作为最优解 集成算法表示 集成算法中对所有的树进行累加处理 公式流程分解 阅读全文
摘要:
深度学习背景引入 和机器学习的关系对比 机器学习是很大的一个范围, 包好了深度学习在内的很多内容 卷积神经网络又是深度学习中的一个特化的子类 在数据量不大的程度下, 深度学习和传统的人工智能算法没有太大的区别 但是上限方面就要高得多, 而且数据规模越大差距越大 计算机视觉 深度学习和计算机视觉几乎是 阅读全文
摘要:
PCA 主成分分析 原理概述 用途 - 降维中最常用的手段 目标 - 提取最有价值的信息( 基于方差 ) 问题 - 降维后的数据的意义 ? 所需数学基础概念 向量的表示 基变换 协方差矩阵 协方差 优化目标 降维实例 代码实现 """ 这里假设原始数据集为矩阵 dataMat,其中每一行代表一个样本 阅读全文
摘要:
聚类算法 概述 无监督问题 手中无标签 聚类 将相似的东西分到一组 难点 如何 评估, 如何 调参 基本概念 要得到的簇的个数 - 需要指定 K 值 质心 - 均值, 即向量各维度取平均 距离的度量 - 常用 欧几里得距离 和 余弦线相似度 ( 先标准化 ) 优化目标 - 需求每个簇中的点, 到质心 阅读全文
摘要:
SVM 代码实现展示 相关模块引入 %matplotlib inline import numpy as np import matplotlib.pyplot as plt from scipy import stats import seaborn as sns;sns.set() # 使用se 阅读全文
摘要:
SVM 原理引入 支持向量机( SVM,Support Vector Machine ) 背景 2012年前较为火热, 但是在12年后被神经网络逼宫, 由于应用场景以及应用算法的不同, SVM还是需要有所了解,而且在面试中SVM一般都会问到, 支持向量机是一个非常 经典且高效的分类模型 要解决的问题 阅读全文
摘要:
文本分析概念 停用词 语料中大量出现, 无用数据, 如下类似的这种词语 Tf - 词频统计 TF 的计算方式有很多, 最常见的用 某词文章中出现次数 / 文章总词数 idf - 逆文档频率 TF - idf 关键词提取 相似度 分词 语料库 词频 词频向量 整体流程 语料清洗 (去掉停用词, 去掉大 阅读全文