用到的专业词汇

卷积神经网络、nlp(Natural Language Processing 分词这块)数据挖掘、机器学习、deeplearning、文本挖掘、人工智能、livsvm、word2vec

 

word2vec:是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。

 

分类正确率(Accuracy):不管是哪个类别,只要预测正确,其数量都放在分子上,而分母是全部数据数量,这说明正确率是对全部数据的判断。

准确率、精度(Precise):在分类中对应的是某个类别,分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量。

Accuracy是对分类器整体上的正确率的评价,而Precision是分类器预测为某一个类别的正确率的评价。

DL:data mining

ner:命名实体识别(Named Entity Recognition)

nlp:

词性标注:主语、谓语、宾语、介词等等

实体命名:识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等, 不会产生歧义分词,比如长春市长春药店,正确打开方式是:长春市/长春/药店

语义联想:返回与输入词语最相近的的词,类似autosuggest

情感分析:将文本的情感分为负面和非负面两类。用微博、新闻、汽车、餐饮等不同行业语料进行标注和机器学习,以获得最佳的情感判断准确率。

智能聚类:微博上相似的内容太多了,合并为话题应用,就少多了,美拍等等短视频内app,相似的内容同一时间内不会都上热门,反之则同一类型上热门的就太多了

关键词提取:文本自动进行关键词分析,给出每个词语相应的权重,而从获得特定行业的相关度最高的数据

预测分类:类似网易将新闻文本归类

 

CRF: Conditional Random Field 条件随机场,一种机器学习技术,用于NLP技术领域.

 

posted on 2015-10-19 15:08  lovebeauty  阅读(278)  评论(0编辑  收藏  举报

导航