02 2020 档案

摘要:本周是开学第一周,因为疫情原因,本周在家里进行上课学习。这周完善了寒假里的那几个项目:信件爬取、热词分析、疫情分析。除此之外,还看了一点《架构漫谈》。 所花时间(包括上课) 十四个小时 代码量(行) 1000行左右 博客量(篇) 2篇 了解到的知识点 架构的一些相关内容以及系统的六个质量属性 阅读全文
posted @ 2020-02-23 16:59 星辰° 阅读(192) 评论(0) 推荐(0) 编辑
摘要:系统的质量属性:可用性,可修改性,性能,安全性,可测试性和易用性。 可用性 刺激源 服务器集群 刺激 单个服务器宕机 环境 正常运行 制品 淘宝网 响应 将服务由另外的服务器继续提供支持 响应度量 15s内完成服务的转移 可修改性 刺激源 开发人员 刺激 更改商品搜索算法 环境 正常运行 制品 淘宝 阅读全文
posted @ 2020-02-23 16:45 星辰° 阅读(205) 评论(0) 推荐(0) 编辑
摘要:说起软件架构师,我只能说我几乎没有任何了解。听名字可以看出软件架构师是管理软件架构的,但是软件架构又是什么?昨天,软件体系结构这门课开课了,老师提到了软件架构,课后我又看了看架构漫谈的几篇博客(https://www.infoq.cn/profile/1279517/publish),可以说是简单的 阅读全文
posted @ 2020-02-19 17:43 星辰° 阅读(153) 评论(0) 推荐(0) 编辑
摘要:今天开始做信息领域热词分析,实在不知道该从哪里爬取数据。后来同学给了我个网址,看起来信息领域的词汇挺全,然而热不热就不知道了,但是总归是有可以爬取的网站了。 https://baike.baidu.com/wikitag/taglist?tagId=76607 页面是用Ajax更新的,回传的值是js 阅读全文
posted @ 2020-02-13 19:19 星辰° 阅读(185) 评论(0) 推荐(0) 编辑
摘要:今天看了看实验七。 1. 数据导入 从文件中导入数据,并转化为 DataFrame。 2. 进行主成分分析(PCA ) 对 6 个连续型的数值型变量进行主成分分析。PCA(主成分分析)是通过正交变换把一组相关变量的观测值转化成一组线性无关的变量值,即主成分的一种方法。PCA 通过使用主成分把特征向量 阅读全文
posted @ 2020-02-12 18:28 星辰° 阅读(575) 评论(0) 推荐(0) 编辑
摘要:今天看了看实验六。 1. 安装 Flume 2. 使用 Avro 数据源测试 Flume Avro 可以发送一个给定的文件给 Flume,Avro 源使用 AVRO RPC 机制。请对 Flume的相关配置文件进行设置,从而可以实现如下功能:在一个终端中新建一个文件helloworld.txt(里面 阅读全文
posted @ 2020-02-11 16:17 星辰° 阅读(269) 评论(0) 推荐(0) 编辑
摘要:今天尝试爬疫情数据,找了好长时间都没找到有历史数据的,最后好不容易发现360的疫情追踪分析里可以提取出历史数据。 https://m.look.360.cn/events/feiyanMulTrendNew?sv=&version=&market=&device=2&net=4&stype=&sce 阅读全文
posted @ 2020-02-10 19:49 星辰° 阅读(155) 评论(0) 推荐(0) 编辑
摘要:今天学习spark编程,完成了实验五。 1 .Spark SQL 基本操作 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。{ "id":1 , "name":" Ella" , "age":36 }{ "id":2, "name":"Bob","ag 阅读全文
posted @ 2020-02-09 15:32 星辰° 阅读(669) 评论(0) 推荐(0) 编辑
摘要:今天将实验四全部完成。 2. 编写独立应用程序实现数据去重 对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。 输入文件 A 的样例如下: 20170101 x20170102 y2 阅读全文
posted @ 2020-02-08 19:13 星辰° 阅读(810) 评论(0) 推荐(0) 编辑
摘要:今天学了一点spark的内容,做了实验四的第一个。 1 .spark-shell 交互式编程 请到本教程官网的“下载专区”的“数据集”中下载 chapter5-data1.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80Tom,Algorithm,50T 阅读全文
posted @ 2020-02-07 15:23 星辰° 阅读(593) 评论(0) 推荐(0) 编辑
摘要:今天做了做实验三。Hadoop之前已经安装好了,只需要安装Spark就可以了。 安装Spark 安装详情参照慕课网Spark安装教程(https://wiki.imooc.com/spark/install.html),我下载的是2.4.5版本(https://www.apache.org/dyn/ 阅读全文
posted @ 2020-02-06 13:53 星辰° 阅读(371) 评论(0) 推荐(0) 编辑
摘要:今天做了实验二的其余两个实验。 2. 模拟图形绘制 对于一个图形绘制程序,用下面的层次对各种实体进行抽象。定义一个 Drawable 的特质,其包括一个 draw 方法,默认实现为输出对象的字符串表示。定义一个 Point 类表示点,其混入了 Drawable 特质,并包含一个 shift 方法,用 阅读全文
posted @ 2020-02-05 21:04 星辰° 阅读(355) 评论(0) 推荐(0) 编辑
摘要:今天在虚拟机上安装了Scala,做了实验二的一部分。 安装Scala的时候发现虚拟机上不了网了,但是外边的win10系统并没有断网,弄了好长时间终于整好了。然而具体原因还是不清楚,莫名其妙的虚拟机就能上网了。 Scala的安装 详情参考菜鸟教程的安装详解:https://www.runoob.com 阅读全文
posted @ 2020-02-04 15:48 星辰° 阅读(176) 评论(0) 推荐(0) 编辑
摘要:今天做了做实验一,复习了一遍Linux系统的一些命令。 启动 Linux 虚拟机,进入 Linux 系统,通过查阅相关 Linux 书籍和网络资料,或者参考本教程官网的“实验指南”的“Linux 系统常用命令”,完成如下操作: (1)切换到目录 /usr/bin; (2)查看目录/usr/local 阅读全文
posted @ 2020-02-03 16:52 星辰° 阅读(350) 评论(0) 推荐(0) 编辑
摘要:今天把信件可视化的任务完成了。在完成可视化之前没有仔细看要求,弄了好长时间的爬取信件具体内容以及官方回复,后来发现可视化并不需要信件的具体内容,之前爬取的数据已经可以满足可视化的条件了。 爬取信件具体内容需要用到以下3种网址,originalId为信件的编号,即爬取的数据中字段original_id 阅读全文
posted @ 2020-02-02 18:16 星辰° 阅读(125) 评论(0) 推荐(0) 编辑