春文秋武 - 博客园

[置顶] Hadoop相关日常操作

摘要： 1.Hive相关脚本导数据，并设置运行队列将毫秒转换为日期对值类型为JSON的数据进行解析，如下就是一个字段data为json类型，其中的type代表日志类型，查询搜索日志。 JSONArray类型解析表格有3个字段（asrtext array, asraudiourl string) se 阅读全文

posted @ 2015-08-28 16:37 春文秋武阅读(306) 评论(0) 推荐(0) 编辑

[置顶] 有意思的记录-python

摘要： 1.变量类变量紧接在类名后面定义，相当于java和c++的static变量实例变量在init里定义，相当于java和c++的普通变量 2.日期 #coding:utf-8 import time import datetime #日期格式化，time.strftime(format[, t]), 阅读全文

posted @ 2015-08-28 15:57 春文秋武阅读(300) 评论(0) 推荐(0) 编辑

[置顶] 有意思的记录-shell（持续更新）

摘要： 1.统计重复行的个数 2.查看压缩文件 3.查看2个文件的交集、差集 comm用于比较两个有序文件，默认第一列为第一个文件独有的元素，第二列为第二个文件独有的元素，第三列为共有元素，语法：comm 选项参数 -1：不显示在第一个文件出现的内容 -2：不显示在第二个文件出现的内容 -3：不显示同时在阅读全文

posted @ 2012-08-23 17:51 春文秋武阅读(297) 评论(0) 推荐(0) 编辑

2017年8月18日

音乐领域语义理解打分模型（1）

摘要： 1.抽特征一个query属不属于音乐，这和我们对音乐的理解有很大的关系，需要进行产品上的定义。如你会唱歌吗，刘德华，换一首音乐，如何让孩子爱上学习等，既可以属于音乐也可以不属于音乐。对音乐的理解最终落到标注数据上，继而来影响我们的打分模型给出高分或者低分。我们对query进行了很多的清理、转换、阅读全文

posted @ 2017-08-18 17:34 春文秋武阅读(742) 评论(0) 推荐(0) 编辑

2017年8月7日

用srilm生成语言模型

摘要： SRILM的主要目标是支持语言模型的估计和评测。估计是从训练数据（训练集）中得到一个模型，包括最大似然估计及相应的平滑算法；而评测则是从测试集中计算其困惑度。其最基础和最核心的模块是n-gram模块，这也是最早实现的模块，包括两个工具：ngram-count和ngram，相应的被用来估计语言模型和阅读全文

posted @ 2017-08-07 10:04 春文秋武阅读(1197) 评论(0) 推荐(0) 编辑

2017年4月1日

逻辑回归

摘要：逻辑函数来源于数字电路,输入量和输出量之间的关系是一种逻辑上的因果关系，输出是0或1。函数定义: 最大似然估计在已知试验结果（即是样本）的情况下，用来估计满足这些样本分布的参数，把可能性最大的那个参数作为真实的参数估计。正则化 L1/L2 regularization 为了避免过拟合overf 阅读全文

posted @ 2017-04-01 14:54 春文秋武阅读(152) 评论(0) 推荐(0) 编辑

2017年3月10日

Language Modeling with N-grams (Speech and Language Processing)

摘要：语言模型计算词序列（words sequences)概率的模型称为语言模型（LMs）,词序列(w1,w2,...,wn)的概率为： P(w1n) = P(w1)p(w2|w1)P(w3|w1w2)...P(wn|w1n 1) Bigram model 二元模型的前提是Markov假设（一个词的概率阅读全文

posted @ 2017-03-10 19:20 春文秋武阅读(480) 评论(0) 推荐(0) 编辑

2017年1月22日

JVM系列-常用问题

摘要：为什么崩溃前fullgc的时间越来越长根据内存模型和垃圾回收算法，垃圾回收分两部分：内存标记、清除（复制），标记部分只要内存大小固定时间是不变的，变的是复制部分，因为每次垃圾回收都有一些回收不掉的内存，所以增加了复制量，导致时间延长。所以，垃圾回收的时间也可以作为判断内存泄漏的依据。为什么崩溃前阅读全文

posted @ 2017-01-22 16:56 春文秋武阅读(189) 评论(0) 推荐(0) 编辑

2017年1月7日

音乐领域的自然语言理解

摘要：人机交互方式越来越多的变成语音交互，用户说出口语化的自然语言，系统需要正确理解并实现对应的操作。语音识别是另外一个问题，本文讨论语音识别后的文本处理。而音乐在人们生活中是刚需，amazon的echo、google的google home、讯飞京东的叮咚智能音箱、百度的对话式人工智能操作系统DuerO 阅读全文

posted @ 2017-01-07 14:39 春文秋武阅读(1302) 评论(0) 推荐(0) 编辑

2016年12月9日

stanford corenlp自定义切词类

摘要： stanford corenlp的中文切词有时不尽如意，那我们就需要实现一个自定义切词类，来完全满足我们的私人定制（加各种词典干预）。上篇文章《IKAnalyzer》介绍了IKAnalyzer的自由度，本篇文章就说下怎么把IKAnalyzer作为corenlp的切词工具。《stanford cor 阅读全文

posted @ 2016-12-09 15:34 春文秋武阅读(3006) 评论(0) 推荐(0) 编辑

IKAnalyzer

摘要：我们的项目中中文切词使用的是mmseg，有一个不满意的地方是jar包中的默认词典一定会被加载进去，当我对有些term有意见时，无法删除。 mmseg中Dictionary.java里一段代码保证了/data/words.dic的加载，我无法提供自己的进行替换。而IKAnalyzer就比较自由，既可阅读全文

posted @ 2016-12-09 15:21 春文秋武阅读(725) 评论(0) 推荐(0) 编辑

2016年8月5日

stanford corenlp的TokensRegex

摘要：最近做一些音乐类、读物类的自然语言理解，就调研使用了下Stanford corenlp，记录下来。功能 Stanford Corenlp是一套自然语言分析工具集包括： POS(part of speech tagger)-标注词性 NER(named entity recognizer)-实体名识阅读全文

posted @ 2016-08-05 15:59 春文秋武阅读(4061) 评论(0) 推荐(0) 编辑

2016年6月13日

Linux网络编程-tcp缓存设置

摘要：最近发现服务的逻辑完成时间很短，但是上游接收到的时间比较长，所以就怀疑是底层数据的序列化/反序列化、读写、传输有问题，然后怀疑是TCP的读写缓存是不是设置太小。现在就记录下TCP缓存的各配置项以及缓存大小的计算公式。 1.有关发送、接收缓存的配置内核设置的套接字缓存 /proc/sys/net/c 阅读全文

posted @ 2016-06-13 15:48 春文秋武阅读(10553) 评论(0) 推荐(1) 编辑

公告