09 2018 档案
摘要:一.软件开发模型 二.XP极限编程十二最佳实践
阅读全文
摘要:一.简介 二.IP 三.TCP&UDP 1、TCP面向连接(如打电话要先拨号建立连接);UDP是无连接的,即发送数据之前不需要建立连接; 2、TCP提供可靠的服务。也就是说,通过TCP连接传送的数据,无差错,不丢失,不重复,且按序到达;UDP尽最大努力交付,即不保证可靠交付; 3、TCP面向字节流,
阅读全文
摘要:结果: 总结: 1.在epsilon(半径)相同的情况下,m(数量)越大,划分的聚类数目就可能越多,异常的数据就会划分的越多。在m(数量)相同的情况下,epsilon(半径)越大,划分的聚类数目就可能越少,异常的数据就会划分的越少。因此,epsilon和m是相互牵制的,合适的epsilon和m有利于
阅读全文
摘要:结果: 1.当k=2时: 2.当k=6时: 3.当k=30时: 总结:当聚类个数较少时,算法运算速度快但效果较差,当聚类个数较多时,运算速度慢效果好但容易过拟合,所以恰当的k值对于聚类来说影响极其明显!!
阅读全文
摘要:使用数据: 结果(测试集&预测集): 内部决策树结构: 总结:可知该随机森林共有10棵树组成,预测结果为10棵树的投票为准。每棵树的最大层次为4,这是为了避免层次过高带来的计算压力和过拟合!
阅读全文
摘要:结果: 总结:可知不同的超参数对聚类的效果影响很大,因此在聚类之前采样的数据要尽量保持均匀,各类的方差最好先进行预研,以便达到较好的聚类效果!
阅读全文
摘要:结果: 总结: Scala中的包的使用时为了对代码进行分区,以便进行管理和权限设定,对代码的简洁性和直观性都有很好的提升,便于代码重用!
阅读全文
摘要:1.进入操作目录,创建脚本文件 2.编辑脚本文件 3.点击I进入编辑模式,添加执行提示 4.点击Esc退出编辑模式,输入:wq保存退出 5.执行脚本 6.编写第一个功能,实现在某个目录下创建多个文件 执行结果: 7.爬取百度首页信息 8.把爬取的数据保存到之前创建的数据文件中 结果: 9.向文件中添
阅读全文
摘要:1 package big.data.analyse.scala.classes 2 3 /** 4 * Created by zhen on 2018/9/11. 5 * 伴生对象 6 */ 7 //定义私有的构造方法 8 class Marker private(val color : String){ 9 override def toString() ...
阅读全文
摘要:总结:正向准确率和召回率在整体上成反比,可知在使用相同数据集,相同验证方式的情况下,随机森林要优于随机梯度下降!
阅读全文
摘要:结果: 分析:可知,数据的离散性大大降低,数据之间的内聚性增加,数据更加密集!
阅读全文
摘要:代码实现: 结果: 可视化(查看每个预测条件的影响): 分析:鸢尾花的花萼长度在小于6时预测准确率很高,随着长度的增加,在6~7这段中,预测出现较大错误率,当大于7时,预测会恢复到较好的情况。宽度也出现类似的情况,在3~3.5这个范围出现较高错误,因此在训练中建议在训练数据中适量增加中间部分数据的训
阅读全文
摘要:代码实现(基于逻辑回归算法): 结果: 总结:使用交叉验证可以实现代码自动对设定范围参数的模型进行分别训练,最后选出效果最好的参数所训练出的模型进行预测,以求达到最好的预测效果!
阅读全文