摘要: 需要两个jar包 ansj_seg.jar nlp-lang 阅读全文
posted @ 2019-03-07 13:53 沃泽法克 阅读(642) 评论(0) 推荐(0) 编辑
摘要: 转自 https://blog.csdn.net/leshami/article/details/78562642 yum install java-1.8.0-openjdk-devel.x86_64 阅读全文
posted @ 2019-02-26 23:29 沃泽法克 阅读(263) 评论(0) 推荐(0) 编辑
摘要: 如果数据太大直接用dataframe转list内存会不够,所以可以通过foreachPartition遍历读取 参考https://blog.csdn.net/wyqwilliam/article/details/81142324 阅读全文
posted @ 2019-02-22 16:47 沃泽法克 阅读(1423) 评论(0) 推荐(0) 编辑
摘要: 转https://blog.csdn.net/shujuelin/article/details/79119214 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。 HDFS是Google File Sys 阅读全文
posted @ 2019-02-12 10:45 沃泽法克 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 转:http://www.cnblogs.com/ITtangtang/p/3926665.html 一、Log4j简介Log4j有三个主要的组件:Loggers(记录器),Appenders (输出源)和Layouts(布局)。这里可简单理解为日志类别,日志要输出的地方和日志以何种形式输出。综合使 阅读全文
posted @ 2019-01-28 23:15 沃泽法克 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 转 :https://www.cnblogs.com/jpfss/p/9007981.html 阅读全文
posted @ 2019-01-21 14:46 沃泽法克 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 转https://www.cnblogs.com/qingyunzong/p/8665698.html 目录 产生背景 HBase简介 关系型数据库 和 非关系型数据库的典型代表 HBase 这个 NoSQL 数据库的要点 结构化、半结构化和非结构化 HBase 中的表特点 HBase表结构逻辑视图 阅读全文
posted @ 2019-01-19 10:39 沃泽法克 阅读(190) 评论(0) 推荐(0) 编辑
摘要: biu——https://blog.csdn.net/vbirdbest/article/details/78995793 阅读全文
posted @ 2018-12-11 17:13 沃泽法克 阅读(1223) 评论(1) 推荐(0) 编辑
摘要: 导入大数据压缩文件--存入数据库 导出数据--导出压缩文件 数据库两表数据,写成json文件,把两个json文件压缩万i压缩包导出 阅读全文
posted @ 2018-12-06 14:22 沃泽法克 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 需求:导出json文件,解析数据存入数据库 json格式[{k:v,k:v},{..},{..}] json文件是json数组中包含json对象,json对象是表的字段名和值 json数据大约有200w条,如果直接用流的方式读成对象,不太可能数据太大了 解决方法:用alilibaba.fastjso 阅读全文
posted @ 2018-11-09 15:09 沃泽法克 阅读(1882) 评论(0) 推荐(1) 编辑