Loading

上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页
摘要: 1 处理思路 总体处理思路如图所示 1.1 算法选择 协同过滤算法 通过分析,我们发现一共有610位用户和9742篇电影,为了缩小相似度矩阵的大小,选择了基于用户的的协同过滤算法。 基于内容的推荐算法 通过电影数据,可以得到每类电影下的评分排名;根据用户历史评分数据,可以得出用户对各类电影的偏爱程度 阅读全文
posted @ 2020-12-13 16:08 cpaulyz 阅读(1380) 评论(0) 推荐(0) 编辑
摘要: 源码仓库 https://github.com/Cpaulyz/BigDataAnalysis/tree/master/Assignment3 工作流程 尝试 本次作业的难点在于OCR,对于OCR开源库/API/工具的使用 经过初步分析,认为本次OCR的目标有两个难点 手写 数学公式 因此,本人先后 阅读全文
posted @ 2020-12-13 16:04 cpaulyz 阅读(750) 评论(0) 推荐(0) 编辑
摘要: 云计算 为什么要用云计算解决问题? 数据量增长 volume、variety、velocity、value、complex 对更高计算性能的追求 集中式计算、并行计算、分布式计算(计算集群、P2P、计算网格)、云计算是一种完美的分布式计算解决方案(同构可控) 大数据是输入、人工智能是算法、云计算提供 阅读全文
posted @ 2020-11-21 14:44 cpaulyz 阅读(374) 评论(0) 推荐(0) 编辑
摘要: data mining volume veracity variety velocity value 数据挖掘 有效性、可用性、出乎意料、可理解性 Page Rank spider traps 假设有图: 其邻接矩阵 M为: 带入公式迭代,结果为: 最终,rm=1 而 ry=ra=0 。这从漫步者的 阅读全文
posted @ 2020-11-21 14:42 cpaulyz 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 数据集处理 数据获取 使用sklearn的dataset获取数据 from sklearn import datasets from sklearn.model_selection import train_test_split iris = datasets.load_iris() iris_fe 阅读全文
posted @ 2020-10-05 01:15 cpaulyz 阅读(7811) 评论(1) 推荐(0) 编辑
摘要: 准备 启动一个centos容器 docker run -i -t --name hadoop centos /bin/bash 下载好需要的包 [root@CyzLearnCloud sparklearn]# wget --no-check-certificate --no-cookies --he 阅读全文
posted @ 2020-09-27 16:59 cpaulyz 阅读(1272) 评论(0) 推荐(0) 编辑
摘要: 源码:https://github.com/Cpaulyz/BigDataAnalysis/tree/master/Assignment2 数据预处理 进行关键词提取之前,需要对源文件进行一系列预处理: 提取PDF为TXT文件 分句 分词(词干提取、词形还原) 过滤数字、特殊字符等,大小写转换 提取 阅读全文
posted @ 2020-09-23 12:57 cpaulyz 阅读(3973) 评论(0) 推荐(0) 编辑
摘要: 安装Scala https://www.runoob.com/scala/scala-install.html 有个坑,scala这个语言的兼容性极差。 一定要和对应的spark版本兼容,不然就会报错! 这里我用的是2.12版本的scala spark版本为最新的 <dependencies> <d 阅读全文
posted @ 2020-09-10 18:49 cpaulyz 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 软工Ⅱ复习 第一、二章 名词:软件工程 应用系统的、规范的、可量化的方法来开发、运行和维护软件,即将工程的方法应用于软件 对1中方法的研究 从1950s~2000s之间的特点 50s: 虚拟计算机:出现大型计算机 软件抽象实体:软件依赖于硬件,被视为硬件的一部分;指令码(第1代语言)、汇编码(第2代 阅读全文
posted @ 2020-08-20 09:58 cpaulyz 阅读(898) 评论(0) 推荐(0) 编辑
摘要: 试卷组成 多选都是两个及以上 名词 SMTP 英文缩写 -- 给英文全程1分+中文名字1分+概念解释/外延(比如属性、作用。。。) 考试范围 1-11讲 socket不考 可以参考思科课件VLAN 默认ARP已经实现了 Q:ICMP报文怎么到达走? 192.168.100.2 → 192.168.1 阅读全文
posted @ 2020-08-20 09:52 cpaulyz 阅读(939) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页