bioamin

2019年1月31日

摘要：词频统计 #创建表，只有一列，列名line create table word_count ( line string) row format delimited fields terminated by '\t' lines terminated by '\n'; #导入一篇文章到表里 load data local inpath '/home/dip/test/word_count.txt... 阅读全文

posted @ 2019-01-31 11:51 bioamin 阅读(258) 评论(0) 推荐(0)

2019年1月30日

自然语言处理之LCS最长公共子子序列

摘要： #！一个序列S任意删除若干个字符得到的新序列T，则T叫做S的子序列注意，这个和最长公共字串不一样，最长公共子串要求连续。 1.算法公式：这里只是返回最大长度，如果求最大子序列，还需要进行回溯。阅读全文

posted @ 2019-01-30 14:04 bioamin 阅读(343) 评论(0) 推荐(0)

2019年1月29日

自然语言处理之关键词提取TF-IDF

摘要：统计每篇文章重要的词作为这篇文章的关键词，用tf-idf来实现。生产中有很多第三包可以调用，这里记录原理，顺便熟练python 1、公式：计算词频TF 考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。或者计算反文档频率idf 阅读全文

posted @ 2019-01-29 17:34 bioamin 阅读(832) 评论(0) 推荐(0)

自然语言处理之比较两个句子的相似度余弦相似度

摘要： 1.句子如下： 2.分词： 2.词频向量化： 4.计算2个向量的相似度：阅读全文

posted @ 2019-01-29 14:49 bioamin 阅读(2420) 评论(0) 推荐(1)

2019年1月28日

linux命令tar压缩解压

摘要： tar -c: 建立压缩档案-x：解压-t：查看内容-r：向压缩归档文件末尾追加文件-u：更新原压缩包中的文件这五个是独立的命令，压缩解压都要用到其中一个，可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。 -z：有gzip属性的-j：有bz2属性的-Z：有comp 阅读全文

posted @ 2019-01-28 11:28 bioamin 阅读(506) 评论(0) 推荐(0)

linux学习之软件包安装

摘要：本学习基于redhat系统或者centos系统一、软件包的安装 1.rpm安装，rpm安装分为俩种，一种是直接安装xxx.rpm包，另一种是通过yum安装一系列的rpm包。 #推荐使用yum安装，yum安装可以将rpm包的依赖关系自动识别，然后进行安装。如果没有yum源，只能下载好所有的包，然后阅读全文

posted @ 2019-01-28 11:06 bioamin 阅读(429) 评论(0) 推荐(0)

2018年12月24日

集群间数据迁移报错

摘要： [dip@dip003 ~]$ hadoop distcp -update /user/hive/warehouse/tmp.db/ hdfs://172.26.xx.xx:8020/user/hive/warehouse/tmp.db/18/12/24 10:27:06 ERROR tools.D 阅读全文

posted @ 2018-12-24 10:28 bioamin 阅读(656) 评论(0) 推荐(0)

2018年12月22日

hive学习04-员工部门表综合案例

摘要：知识点：格式转换：cast（xxx as int）按某列分桶某列排序，排序后打标机；例如：求每个地区工资最高的那个人的信息； ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) row_number() over(distribute b 阅读全文

posted @ 2018-12-22 20:46 bioamin 阅读(979) 评论(0) 推荐(0)

hive学习03-求一年中的最大温度

摘要：知识点： substr、concat函数的使用： row_number() over(distribute by year sort by temp desc) #按照年分组，按照tmp去排序需求：现有hive表temp，其中只有一个字段(temp_record string)，每一行代表某一天的阅读全文

posted @ 2018-12-22 15:46 bioamin 阅读(355) 评论(0) 推荐(0)

2018年12月19日

mysql运维

摘要：反反复复装了好多次的mysql，上学的时候从来没有考虑过稳定性，装起来，能跑通，增删改查没有问题万事大吉。参与工作后参与平台搭建和维护，平台的稳定性是首先必须要考虑的问题，之前装mysql使用经历了密码失效，初始化失败，起不动等等问题。今天公司运维组的一个大佬给我们培训了mysql运维知识，解决了很阅读全文

posted @ 2018-12-19 15:02 bioamin 阅读(484) 评论(0) 推荐(0)

追寻创业的梦想

公告