摘要:
引入进程和线程的概念及区别 1、线程的基本概念 线程是进程中执行运算的最小单位,是进程中的一个实体,是被系统独立调度和分派的基本单位,线程自己不拥有系统资源,只拥有一点在运行中必不可少的资源,但它可与同属一个进程的其它线程共享进程所拥有的全部资源。一个线程可以创建和撤消另一个线程,同一进程中的多个线 阅读全文
摘要:
协同过滤算法概述 基于模型的协同过滤应用 电影推荐 实时推荐架构分析 协同过滤算法概述 基于模型的协同过滤应用 电影推荐 实时推荐架构分析 一、协同过滤算法概述 本人对算法的研究,目前还不是很深入,这里简单的介绍下其工作原理。 通常,协同过滤算法按照数据使用,可以分为: 1)基于用户(UserCF) 阅读全文
摘要:
简介 本书是集体智慧编程一书的学习笔记。1之前我们已经完成了基于用户的协同过滤的推荐算法,它的思想是将所有的用户和自己对比,显然对于小数据集还是可以忍受的,但是对于大量或巨量的用户数据集,这种实时进行相似度计算即耗时又耗力。 有没有更好的计算方法呢?有,就是我们不再基于用户,我们基于物品。基于用户的 阅读全文
摘要:
Hive: Hive不支持更改数据的操作,Hive基于数据仓库,提供静态数据的动态查询。其使用类SQL语言,底层经过编译转为MapReduce程序,在Hadoop上运行,数据存储在HDFS上。 HDFS: HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文 阅读全文
摘要:
1. strip() 1. strip() 1. strip() 1. strip() 它的函数原型:string.strip(s[, chars]),它返回的是字符串的副本,并删除前导和后缀字符。(意思就是你想去掉字符串里面的哪些字符,那么你就把这些字符当参数传入。此函数只会删除头和尾的字符,中间 阅读全文
摘要:
阅读全文
摘要:
公钥跟私钥的理解 1. 鲍勃有两把钥匙,一把是公钥,另一把是私钥。 2. 鲍勃把公钥送给他的朋友们—-帕蒂、道格、苏珊—-每人一把。 3. 苏珊要给鲍勃写一封保密的信。她写完后用鲍勃的公钥加密,就可以达到保密的效果。 4. 鲍勃收信后,用私钥解密,就看到了信件内容。这里要强调的是,只要鲍勃的私钥不泄 阅读全文
摘要:
参考:https://www.cnblogs.com/ltolstar/p/9684688.html https://blog.csdn.net/clj198606061111/article/details/79316735 阅读全文
摘要:
1 回顾: 2 hive 3 -------------------------------- 4 数据仓库OLAP 在线分析处理,延迟较高 5 数据库:OLTP 在线事务处理,事务支持 6 7 运行在hadoop 类sql运行,sql,hql,mr运算 8 结构化数据 9 schema(模式,元信息,存放到数据库中)HDFS 文件 derby,m... 阅读全文
摘要:
hadoop是一个分布式计算+分布式文件系统,前者其实就是MapReduce,后者是HDFS。后者可以独立运行,前者可以选择性使用,也可以不使用。 hive是一个构建在Hadoop基础设施之上的数据仓库。 hbase是一种Key/Value系统,它运行在HDFS之上,是一个分布式的、面向列的开源数据 阅读全文