随笔分类 - Artificial Intelligence
数据分析、机器学习、深度学习、数据挖掘等人工智能方面的知识
摘要:数据来源 通过爬虫,爬取腾讯新闻三个分类每个分类大约1000条左右数据,存入excel 以上是大体的数据,三列分别为title、content、class;由于这里讲的的不是爬虫,爬虫部分省略 项目最终结构 其中主要逻辑在native_bayes.py文件中实现,utils.py为部分工具函数,tr
阅读全文
摘要:分类算法-k近邻算法(KNN): 定义: 如果一个样本在特征空间中的k个最相似 (即特征空间中最邻近) 的样本中的大多数属于某一个类别,则该样本也属于这个类别 来源: KNN算法最早是由Cover和Hart提出的一种分类算法 计算距离公式: 两个样本的距离可以通过如下公式计算,又叫欧氏距离,比如说
阅读全文
摘要:数据集划分: 机器学习一般的数据集会划分为两个部分 训练数据: 用于训练,构建模型 测试数据: 在模型检验时使用,用于评估模型是否有效 sklearn数据集划分API: 代码示例文末! scikit-learn数据集API: 获取数据集的返回类型: 数据集进行分割: 代码示例: 1 import o
阅读全文
摘要:明确: 算法是核心,数据和计算是基础 机器学习开发流程图: 机器学习模型是什么: 定义:通过一种映射关系从输入值到输出值 机器学习算法分类: 监督学习: 分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络 回归:线性回归、岭回归 标注:隐马尔可夫模型 无监督学习: 聚类 k-mea
阅读全文
摘要:特征选择: 特征选择的原因: 冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对预测结果有负影响 特征选择是什么: 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也可以不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一
阅读全文
摘要:特征处理是什么: 通过特定的统计方法(数学方法)将数据转化成为算法要求的数据 sklearn特征处理API: sklearn.preprocessing 代码示例: 文末! 归一化: 公式: 注意:作用于每一列,max为一列的最大值,min为一列的最小值,那么X''为最终结果,mx、mi分别为指定区
阅读全文
摘要:机器学习库scikit-learn,进行特征抽取 特征工程: 特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性 特征工程意义: 直接影响模型的预测结果 字典特征抽取: ['city=上海', 'city=北京', 'city=深圳', 'tempe
阅读全文
摘要:在说numpy库数组的计算之前先来看一下numpy数组形状的知识: 创建一个数组之后,可以用shape来查看其形状,返回一个元组 例如:a = np.array([[1, 2, 3], [4, 5, 6]]) print(a.shape) # 打印出 (2,3) 其它的一维二维或三维数组也是同理,打
阅读全文
摘要:numpy是一个在Python中做科学计算的基础库,重在数值计算,也是大部分Python科学计算库的基础库,多用于在大型、多维数组上执行数值运算 numpy创建数组(矩阵): numpy中的数据类型: 数据类型的操作: 练习代码:
阅读全文
摘要:例题:假设你获取了250部电影的时长(列表a中),希望统计出这些电影时长的分布状态(比如时长为100分钟到120分钟电影的数量,出现的频率)等信息,你应该如何呈现这些数据? 一些概念及问题: 把数据分为多少组进行统计 组数要适当,太少会有较大的统计误差,太多规律不明显 组数:将数据分组,共分为多少组
阅读全文
摘要:练习一:假设你获取到了2017年内地电影票房前20的电影(列表a)和电影票房数据(列表b),那么如何更加直观的展示该数据? 练习二:假设知道了列表a中电影分别在2017-09-14(b_14),2017-09-15(b_15),2017-09-16(b_16)三天的票房,为了展示列表中电影本身的票房
阅读全文
摘要:假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温随时间(天)变化的某种规律?
阅读全文
摘要:折线图: 以折线的上升或下降来表示统计数量的增减变化的统计图 特点:能够显示数据的变化趋势,反映事物的变化情况(变化) 直方图: 由一系列高度不等的纵向条纹或线段表示数据的分布情况,一般用横轴表示数据范围,纵轴表示分布情况 特点:绘制连续性的数据,展示一组或者多组数据的分布状况(统计) 条形图: 排
阅读全文
摘要:matplotlib:最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建 基本使用: x和y的长度必须一致 figure()方法用来设置图片大小 x,y轴的刻度用可迭代对象进行设置,步长影响刻度的密集程度 题目:如果列表a表示10点到12点的每一分钟的
阅读全文