用到的专业词汇
卷积神经网络、nlp(Natural Language Processing 分词这块)、数据挖掘、机器学习、deeplearning、文本挖掘、人工智能、livsvm、word2vec
word2vec:是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
分类正确率(Accuracy):不管是哪个类别,只要预测正确,其数量都放在分子上,而分母是全部数据数量,这说明正确率是对全部数据的判断。
准确率、精度(Precise):在分类中对应的是某个类别,分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量。
Accuracy是对分类器整体上的正确率的评价,而Precision是分类器预测为某一个类别的正确率的评价。
ner:命名实体识别(Named Entity Recognition)
nlp:
词性标注:主语、谓语、宾语、介词等等
实体命名:识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等, 不会产生歧义分词,比如长春市长春药店,正确打开方式是:长春市/长春/药店
语义联想:返回与输入词语最相近的的词,类似autosuggest
情感分析:将文本的情感分为负面和非负面两类。用微博、新闻、汽车、餐饮等不同行业语料进行标注和机器学习,以获得最佳的情感判断准确率。
智能聚类:微博上相似的内容太多了,合并为话题应用,就少多了,美拍等等短视频内app,相似的内容同一时间内不会都上热门,反之则同一类型上热门的就太多了
关键词提取:文本自动进行关键词分析,给出每个词语相应的权重,而从获得特定行业的相关度最高的数据
预测分类:类似网易将新闻文本归类
CRF: Conditional Random Field 条件随机场,一种机器学习技术,用于NLP技术领域.
posted on 2015-10-19 15:08 lovebeauty 阅读(279) 评论(0) 编辑 收藏 举报