摘要:
使用sklearn训练模型,只能输入数值型变量。因此需要对数据集中的非数值型离散变量进行处理,非数值型离散变量分为两类:有序型与无序型 一、有序型离散变量处理 什么叫有序型离散变量呢,比如说衣服尺码,M、L、XL;学历:小学、初中、高中、本科;这些都属于有序型变量。 在上图数据表格中,size及cl 阅读全文
摘要:
一、列表方法remove(),按值删除,删除首个符合的元素 二、列表方法pop(),按索引删除,默认删除最后一个元素 三、del函数,删除某个变量或者某些元素 阅读全文
摘要:
利用神经网络预测数据时,突然就被一个以前从来没想过的问题困扰了,训练集与测试集应该分别进行归一化还是合并为一个大的矩阵统一进行归一化?如果放在一起,测试集会参与到模型的训练当中,感觉不对。如果分开,怎么对测试集进行归一化呢? 咨询老师,得到了答案,记录如下: 用训练集归一化,并记录归一化需要用到的参 阅读全文
摘要:
Keras是基于python的深度学习库 Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。 安装步骤及遇到的坑: (1)安装tensorflow:CMD命令行输入pip install --upgrade tensorfl 阅读全文
摘要:
一、K-Means聚类算法 优点: (1)原理简单,实现容易,收敛速度快 (2)球形边界效果较好 缺点: (1)k取值不好把握 (2)非球形边界效果较差 (3)对噪音和异常点较敏感 应用: (1)被大多数搜索引擎用于通过相似性对网页进行聚类,并识别搜索结果的相关率,有助于搜索引擎减少用户的计算时间 阅读全文
摘要:
特征工程是将原始数据转变为模型的训练数据的过程,目的是为了获取更好的训练数据特征。特征工程在机器学习中占有非常重要的作用,也是数据分析工作中最消耗时间与精力的一部分工作。 特征工程主要包括特征的获取、特征处理、特征监控三大部分,其中特征处理为特征工程的核心。 一、特征获取 特征获取方案应包括特征如何 阅读全文
摘要:
常用机器学习算法包括分类、回归、聚类等几大类型,以下针对不同模型总结其评估指标 一、分类模型 常见的分类模型包括:逻辑回归、决策树、朴素贝叶斯、SVM、神经网络等,模型评估指标包括以下几种: (1)二分类问题 (a)混淆矩阵 准确率A:预测正确个数占总数的比例 精准率P:正例样本中有多少被预测正确了 阅读全文
摘要:
可视化是本人弱项,加强加强。。。。 颜控,喜欢pyecharts 今天跑回归时,需要直观的去看一下数据,奈何数据量太大,测试集有将近2万条数据,一张图无法完成的情况下,查了一下pyechart多图表显示问题 pyechart提供了一个接口Page,只需要调用方法add("待添加图表名")即可 以下为 阅读全文
摘要:
作为机器学习攻城狮(咳咳:调参员),参数和超参数是最最基础的常识。 1、参数(模型根据数据可以自动学习出的变量) 参数指的是模型内部的配置变量(configuration variable),可通过数据来估计其取值。 从数据中估计或学习得到 通常不被人为设定 常作为最终模型的一部分被保存 参数是机器 阅读全文
摘要:
爬虫获取某网站杭州到丽江的旅游信息,进行分析 (1)导入数据 df = pd.read_csv("travel.csv") (2)从路线信息中提取旅游天数、酒店等级、酒店评分、旅游价格等信息 df["天数"]=df.路线信息.str.extract('(\d+)天\d+晚').apply(lambd 阅读全文