摘要:
词频统计 #创建表,只有一列,列名line create table word_count ( line string) row format delimited fields terminated by '\t' lines terminated by '\n'; #导入一篇文章到表里 load data local inpath '/home/dip/test/word_count.txt... 阅读全文
摘要:
#!一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列 注意,这个和最长公共字串不一样,最长公共子串要求连续。 1.算法公式: 这里只是返回最大长度,如果求最大子序列,还需要进行回溯。 阅读全文
摘要:
统计每篇文章重要的词作为这篇文章的关键词,用tf-idf来实现。生产中有很多第三包可以调用,这里记录原理,顺便熟练python 1、公式 : 计算词频TF 考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。 或者 计算反文档频率idf 阅读全文
摘要:
1.句子如下: 2.分词: 2.词频向量化: 4.计算2个向量的相似度: 阅读全文
摘要:
tar -c: 建立压缩档案-x:解压-t:查看内容-r:向压缩归档文件末尾追加文件-u:更新原压缩包中的文件 这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。 -z:有gzip属性的-j:有bz2属性的-Z:有comp 阅读全文
摘要:
本学习基于redhat系统或者centos系统 一、软件包的安装 1.rpm安装,rpm安装分为俩种,一种是直接安装xxx.rpm包,另一种是通过yum安装一系列的rpm包。 #推荐使用yum安装,yum安装可以将rpm包的依赖关系自动识别,然后进行安装。 如果没有yum源,只能下载好所有的包,然后 阅读全文
摘要:
[dip@dip003 ~]$ hadoop distcp -update /user/hive/warehouse/tmp.db/ hdfs://172.26.xx.xx:8020/user/hive/warehouse/tmp.db/18/12/24 10:27:06 ERROR tools.D 阅读全文
摘要:
知识点: 格式转换:cast(xxx as int) 按某列分桶某列排序,排序后打标机;例如:求每个地区工资最高的那个人的信息; ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) row_number() over(distribute b 阅读全文
摘要:
知识点: substr、concat函数的使用: row_number() over(distribute by year sort by temp desc) #按照年分组,按照tmp去排序 需求:现有hive表temp,其中只有一个字段(temp_record string),每一行代表某一天的 阅读全文
摘要:
反反复复装了好多次的mysql,上学的时候从来没有考虑过稳定性,装起来,能跑通,增删改查没有问题万事大吉。参与工作后参与平台搭建和维护,平台的稳定性是首先必须要考虑的问题,之前装mysql使用经历了密码失效,初始化失败,起不动等等问题。今天公司运维组的一个大佬给我们培训了mysql运维知识,解决了很 阅读全文