上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页
摘要: 1. 背景 近日项目要求基于爬取的影视评论信息,抽取影视的关键字信息。考虑到影视评论数据量较大,因此采用Spark处理框架。关键词提取的处理主要包含分词+算法抽取两部分。目前分词工具包较为主流的,包括哈工大的LTP以及HanLP,而关键词的抽取算法较多,包括TF-IDF、TextRank、互信息等。 阅读全文
posted @ 2018-11-03 21:53 mengrennwpu 阅读(2431) 评论(1) 推荐(0) 编辑
摘要: 1. 添加uwsgi相关文件 在之前的文章跟讲到过centos中搭建nginx+uwsgi+flask运行环境,本节就基于那一次的配置进行说明。 在www中创建uwsgi文件夹,用来存放uwsgi相关文件 在uwsgi文件夹中创建uwsgi.pid和uwsgi.status文件,uwsgi.pid文 阅读全文
posted @ 2018-09-29 23:19 mengrennwpu 阅读(8125) 评论(0) 推荐(0) 编辑
摘要: 1. 场景 基于客户的数据处理需求,客户分发诸多小数据文件,文件每行代表一条记录信息,且每个文件以"类型_yyyyMMdd_批次号"命名。由于同一条记录可能存在于多个文件中,且处于多个文件中的相同记录最终只有时间最新的记录有效,但文件的每行记录并未提供时间信息,因此需要从每个文件名中提取时间信息作为 阅读全文
posted @ 2018-09-25 22:49 mengrennwpu 阅读(2089) 评论(0) 推荐(0) 编辑
摘要: 1. 概念 location是根据uri进行不同的定位。在虚拟主机的配置中,是必不可少的。location可以将网站的不同部分,定位到不同的处理方式上。 location语法格式如下: 其中: (1) 当[]中的内容均不填写时,表示一般匹配 (2) "="表示精准匹配 (3) "~"表示正则匹配 2 阅读全文
posted @ 2018-09-09 18:13 mengrennwpu 阅读(511) 评论(0) 推荐(0) 编辑
摘要: 1. 安装 (1) Nginx下载地址:https://nginx.org/download/nginx-1.14.0.tar.gz (2) 安装时可能出现依赖库不存在,比如prec包,可以使用yum install pcre pcre-devel进行安装。安装的整体命令如下: 2. 启动 (1) 阅读全文
posted @ 2018-08-30 18:46 mengrennwpu 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 1. Es-Hadoop异常: org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [615/300864] (maybe ES was overloaded?). Bailing out... at org 阅读全文
posted @ 2018-08-28 22:35 mengrennwpu 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 1. 背景 近日在一个Hadoop项目中使用MultipleInputs增加多输入文件时,发现相同路径仅会加载一次,导致后续的统计任务严重失真。本博文旨在记录异常的排查及解决方案。 2. 情景重现 (1) 准备简版的输入文件test,文件内容为"i am ws",输入的HDFS路径为/work/ju 阅读全文
posted @ 2018-08-12 22:05 mengrennwpu 阅读(577) 评论(0) 推荐(0) 编辑
摘要: 1. Spring Aware Spring的依赖注入的最大亮点就是你所有的Bean对Spring容器的存在是没有意识的。即你可以将你的容器替换成别的容器。 实际项目中,不可避免地会用到Spring容器本身的功能资源,这时的Bean必须意识到Spring容器的存在,才能调用Spring所提供的资源, 阅读全文
posted @ 2018-06-19 08:25 mengrennwpu 阅读(744) 评论(0) 推荐(0) 编辑
摘要: 1. Bean的Scope scope描述Spring容器如何新建Bean的实例。通过注解@Scope实现,取值有: a. Singleton:一个Spring容器中只有一个Bean的实例。此为Spring的默认配置,全容器共享一个实例。 b. Prototype:每次调用新建一个Bean的实例 c 阅读全文
posted @ 2018-06-10 22:29 mengrennwpu 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 1. Spring基础配置 Spring框架本身有四大原则: 1) 使用POJO进行轻量级和最小侵入式开发 2) 通过依赖注入和基于接口编程实现松耦合 3) 通过AOP和默认习惯进行声明式编程 4) 使用AOP和模板(template)减少模式化代码 所谓依赖注入指的是容器负责创建对象和维护对象间的 阅读全文
posted @ 2018-06-03 21:47 mengrennwpu 阅读(284) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页