摘要:
对于训练深度学习,设计神经网络结构是其中技术含高最高的任务,优秀的网络架构往往依赖建构模型的经验,专业领域知识,以及大量的算力试错。实际应用中往往基于类似功能的神经网络微调生成新的网络结构。 Auto-Keras是一个离线使用的开源库,用于构建神经网络结构... 阅读全文
摘要:
Auto ML(Auto Machine Learning)自动机器学习是个宽泛的概念,有不只一个软件以此命名,本篇介绍的Auto-ML并非谷歌基于云平台的 AUTOML。本篇介绍的Auto-ML也是一款开源的离线工具,它的优势在于简单快速,且输出信息比较丰... 阅读全文
摘要:
当我们做完了特征工程之后,就可以代入模型训练和预测,对于模型的选择及调参,主要根据分析者的经验。在具体使用时,经常遇到同一批数据,同一种模型,不同的分析者得出的结果相差很多。 前面学习了几种常用的机器学习方法原理以及适用场景,对于完全没有经验的开发者,只要... 阅读全文
摘要:
前面学习了统计描述和统计假设的Python方法,分析数据表时,需要先确定因变量Y,然后对自变量X逐一分析,最后将结果组织成数据表作为输出,还是比较麻烦,使用TableOne工具可以简化这一过程。 TableOne是生成统计表的工具,常用于生成论文中的表格,... 阅读全文
摘要:
1. 常用的数据分析工具 Stata、SPSS、SAS、R、Python,甚至Excel都可以做数据分析工作。R和Python是程序员的首选,可以通过编写程序实现成整体的数据清洗、分析、挖掘,还可以增加扩展支持,把一套代码应用于类似的数据分析场景中。对于专业... 阅读全文
摘要:
日志文件是记录程序操作及事件的记录文件或记录文件的集合。一般由程序开发人员编写,开发、运维人员共同使用,开发人员可以通过日志调试程序,运维人员通过日志检查程序近期是否正常运行,如果出现异常,则可通过日志快速定位问题。因此,用日志记录程序流程,事件,以及异常时... 阅读全文
摘要:
1. jointplot 两变量图 数据分析中常用做图的方式实现相关性分析,即X轴设置为变量A,Y轴设置为变量B,做散点图,由于散点图中点的叠加显示,往往还需要关注每个变量自身的分布情况,jointplot把描述变量的分布图和变量相关的散点图组合在一起,是相... 阅读全文
摘要:
1. 说明 搭建过Hadoop集群的小伙伴一定知道,如果不用docker,半小时配好Hadoop+Mysql+Hive(后简称Hive)肯定是胡吹,有了Docker镜像,没有说明文档,配好了也不一定会用。本文将介绍如何在半小时内,让Hive在你的Linux系... 阅读全文
摘要:
1. 常用函数库 scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了。这个模块被重写并成为了现在独立的statsmodels包。 scipy的stat... 阅读全文
摘要:
1. 迁移学习 迁移学习(transfer learning)是指将已经学习的知识应用到其它领域,在图像识别问题中,是将训练好的模型通过简单调整来解决新的问题。从图像中提取特征,不一定需要算力强大的GPU,训练上百层的神经网络。 卷积神经网络中卷积层和池化... 阅读全文