摘要:
探索数据 TODO:使用pandas.get_dummies()对'features_raw'数据进行独热编码 features = pd.get_dummies(features_raw) display(features.head(n = 2)) TODO:将'income_raw'编码成数字值 阅读全文
摘要:
映射技巧 将'income_raw'编码成数字值 income_mapping = {'50K': 1} income = income_raw.map(income_mapping) "很好的编码实例" 阅读全文
摘要:
找对方法 1. 听足100小时 2. 时不时蹦点英语出来 3. 从身边的事物说起 4. 找自己感兴趣的东西学 5. 运用到生活中去 单词学习方法 语法学习方法 巧用汉语拼音 there was such a heavy rain. i was glad of it. i never like I u 阅读全文
摘要:
例子: true positive(真正例): 把 Colin power预测为Colin power(55) false positive(假正例): 把 其他人预测为Colin power(4+1+3+1+3) false negative(假负例): 把 Colin power预测为其他人(8 阅读全文
摘要:
机器学习架构方法论 数据预处理 探索数据 1. 数据的存储格式csv,xls等,每行每列存储的是什么内容 2. 数据的内容,有哪些特征,特征是文本还是数字,是离散还是连续 3.数据的取值范围某几个数据的取值是什么,数据值的分布是什么? 数据处理 1. 对数转换,数据若是非正态分布,进行对数转换;算法 阅读全文
摘要:
Spring Cloud 先决条件 Spring cloud 基于spring boot,spring,java Spring Cloud解决的问题 分布式微服务架构和微服务监控、注册于发现、跟踪等一箩筐功能 Spring Cloud 1. Spring boot actuator 会提供应用程序的 阅读全文
摘要:
为什么交叉验证 1. 一个模型建立起来,首要任务就是要评估这个模型的好坏!然而,交叉验证对模型好坏的评估有至关重要的作用 2. 交叉验证把数据集随机分成训练集和测试集,可以有效评估一个模型的泛化能力 如何交叉验证 1. 导入sklearn.model_selection.train_test_spl 阅读全文
摘要:
bias 偏差 1. 偏差反应的是算法的预测值与真实值的差距,偏差越大,越偏离真实的数据,也就越学不到东西。 variance 方差 1. 方差反应的是预测值的范围,离散程度,也就是离平均值的距离。 方差越大,数据的分布越分散。 variance =sum of squared deiviation 阅读全文
摘要:
互联网有几个特点 1. 互联网的参与人特别多 2. 互联网参与者分布方位广,不集中 3. 参与者有可能在同一时间,集中干同一件事情 互联网架构一般都是从最初的MVC web应用,随着业务量的发展,为了适应业务增长,而重构成分布式的web应用。 业务发张,开始的要求,可以通过本地缓存,分布式缓存,Me 阅读全文
摘要:
如何给他人有效的分配任务呢? 今天学习了TEND方法: 1. T Task,先明确说明什么任务 2. E Example,在举个例子,形象的说明task的要求 3. N Not,具体说明什么是我不想要的 4. D Deadline , 明确任务截止时间 任务明确具体,执行结果才是自己想看到的,避免分 阅读全文