摘要:
结果: 总结: Scala中的包的使用时为了对代码进行分区,以便进行管理和权限设定,对代码的简洁性和直观性都有很好的提升,便于代码重用! 阅读全文
摘要:
1.进入操作目录,创建脚本文件 2.编辑脚本文件 3.点击I进入编辑模式,添加执行提示 4.点击Esc退出编辑模式,输入:wq保存退出 5.执行脚本 6.编写第一个功能,实现在某个目录下创建多个文件 执行结果: 7.爬取百度首页信息 8.把爬取的数据保存到之前创建的数据文件中 结果: 9.向文件中添 阅读全文
摘要:
1 package big.data.analyse.scala.classes 2 3 /** 4 * Created by zhen on 2018/9/11. 5 * 伴生对象 6 */ 7 //定义私有的构造方法 8 class Marker private(val color : String){ 9 override def toString() ... 阅读全文
摘要:
总结:正向准确率和召回率在整体上成反比,可知在使用相同数据集,相同验证方式的情况下,随机森林要优于随机梯度下降! 阅读全文
摘要:
结果: 分析:可知,数据的离散性大大降低,数据之间的内聚性增加,数据更加密集! 阅读全文
摘要:
代码实现: 结果: 可视化(查看每个预测条件的影响): 分析:鸢尾花的花萼长度在小于6时预测准确率很高,随着长度的增加,在6~7这段中,预测出现较大错误率,当大于7时,预测会恢复到较好的情况。宽度也出现类似的情况,在3~3.5这个范围出现较高错误,因此在训练中建议在训练数据中适量增加中间部分数据的训 阅读全文
摘要:
代码实现(基于逻辑回归算法): 结果: 总结:使用交叉验证可以实现代码自动对设定范围参数的模型进行分别训练,最后选出效果最好的参数所训练出的模型进行预测,以求达到最好的预测效果! 阅读全文
摘要:
实现代码: 结果: 不同深度对预测的影响: 总结: 决策树分量算法有构造速度快、结构明显、分类精度高等优点。 决策树是以实例(Instance)为核心的归纳分类方法。 它从一组无序的、无特殊领域知识的数据集中提取出决策树表现形式的分类规则, 包含了分支节点、叶子节点和分支结构。它采用自顶向下的递归方 阅读全文
摘要:
代码: 结果: max_iter=10 max_iter=20 注意: 1. 当使用pickle加载mnist数据时,python3.x与python2.x差距较大,python3.x会抛出异常,异常信息为:UnicodeDecodeError: 'ascii' codec can't decode 阅读全文
摘要:
Spark的运行版本使用mvn编译,已经集成在源码中。如果机器有外网或者配置了http代理,可以直接调用编译命令来进行编译。 windows&Linux命令如下: ./build/mvn \ -Phadoop-x.y \ -Dhadoop.version=x.y.z \ -Pyarn \ -Dyar 阅读全文
摘要:
or 印象深刻! 一.设备管理 二.磁盘管理 三.存储管理 四.试题 五.备注 1.计算机体系结构分类常为:Flynn分类法(常考)和冯氏分类法。 2.流水线要求所有的流水级部件必须在相同的时间内完成各自的子过程。因此机器周期的长度由最慢的流水级部件花费的时间决定! 3.流水线执行时间:(N+k-1 阅读全文
摘要:
or 一.C语言试题 一个无向连通图G点上的哈密尔顿(Hamiltion)回路是指从图G上的某个顶点出发,经过图上所有其他顶点一次且仅一次,最后回到该顶点的路劲。一种求解无向图上哈密尔顿回路算法的基础实现如下: 假设图G存在一个从顶点V0出发的哈密尔顿回路V1——V2——V3——...——Vn-1— 阅读全文
摘要:
结果: 分析: 在多音字方面确实存在不少问题,会导致在一些使用情况下出现异常! 阅读全文
摘要:
M公司为了便于开展和管理各项业务活动,提高公司的知名度和影响力,拟构建一个基于网络的会议策划系统。 【需求分析结果】 该系统的部分功能及初步需求分析的结果如下 : (1)M公司旗下有业务部、策划部和其他部门。部门信息包括部门号、部门名、主管、联系电话和邮箱号;每个部门只有一名主管,只负责管理本部门的 阅读全文
摘要:
一.概述 二.试题 试题1. 某公司拟开发一个共享单车系统,采用北斗定位系统进行单车定位,提供针对用户的APP以及微信小程序、基于Web的管理与监控系统。该共享单车系统的主要功能如下。 1)用户注册登录。用户在APP端输入手机号并获取验证码后进行注册,将用户信息进行存储。用户登录后显示用户所在位置周 阅读全文
摘要:
or 一.存储管理 1.页式存储 2.段式存储 3.段页式存储 二.置换算法及局部性原理 三.PV操作 1.临界资源:诸进程需要互斥方式对其进行共享的资源。 2.临界区:每个进程中访问临界资源的那段代码。 3.信号量:一种特殊的变量。 四.试题 1. 2. 3. 4. 5. 阅读全文
摘要:
1.当反复使用某些RDD时建议使用persist(缓存级别)(采用默认缓存级别时为cache())来对数据进行缓存。 2.如果某个步骤的RDD计算特别耗时或经历很多步骤的计算,当重新计算时代价特别大,此时应考虑使用checkpoint,对DAG做检查点,将中间结果保存到高可用(一般是HDFS)的地方 阅读全文
摘要:
场景: 1.scala中的对象:对象头是16个字节(包含指向对象的指针等源数据信息),如果对象中只有一个int的属性,则会占用20个字节,也就是说对象的源数据占用了大部分的空间,所以在封装数据的时候尽量不要使用对象!可以使用诸如:JSON来封装数据。 2.scala中基本的数据类型会自动进行封箱操作 阅读全文