随笔档案「2017年2月6日」：文本情感分类：分词 OR 不分词(3) ... - 萨姆大叔

2017年2月6日

摘要：为什么要用深度学习模型？除了它更高精度等原因之外，还有一个重要原因，那就是它是目前唯一的能够实现“端到端”的模型。所谓“端到端”，就是能够直接将原始数据和标签输入，然后让模型自己完成一切过程——包括特征的提取、模型的学习。而回顾我们做中文情感分类的过程，一般都是“分词——词向量——句向量(LSTM) 阅读全文

posted @ 2017-02-06 16:12 萨姆大叔阅读(1843) 评论(0) 推荐(0)

文本情感分类：深度学习模型(2)

摘要：在《文本情感分类：传统模型(1)》一文中，简单介绍了进行文本情感分类的传统思路。传统的思路简单易懂，而且稳定性也比较强，然而存在着两个难以克服的局限性：一、精度问题，传统思路差强人意，当然一般的应用已经足够了，但是要进一步提高精度，却缺乏比较好的方法；二、背景知识问题，传统思路需要事先提取好情感词阅读全文

posted @ 2017-02-06 15:55 萨姆大叔阅读(5689) 评论(2) 推荐(3)

文本情感分类：传统模型(1)

摘要：基于情感词典的文本情感分类传统的基于情感词典的文本情感分类，是对人的记忆和判断思维的最简单的模拟，如上图。我们首先通过学习来记忆一些基本词汇，如否定词语有“不”，积极词语有“喜欢”、“爱”，消极词语有“讨厌”、“恨”等，从而在大脑中形成一个基本的语料库。然后，我们再对输入的句子进行最直接的拆分，看阅读全文

posted @ 2017-02-06 13:51 萨姆大叔阅读(5567) 评论(0) 推荐(0)

OCR技术浅探：语言模型和综合评估（4）

摘要：语言模型由于图像质量等原因，性能再好的识别模型，都会有识别错误的可能性，为了减少识别错误率，可以将识别问题跟统计语言模型结合起来，通过动态规划的方法给出最优的识别结果。这是改进OCR识别效果的重要方法之一。转移概率在我们分析实验结果的过程中，有出现这一案例。由于图像不清晰等可能的原因，导致“电阅读全文

posted @ 2017-02-06 11:11 萨姆大叔阅读(3649) 评论(0) 推荐(0)

OCR技术浅探：光学识别（3）

摘要：经过前面的文字定位和文本切割，我们已经能够找出图像中单个文字的区域，接下来可以建立相应的模型对单字进行识别。模型选择在模型方面，我们选择了深度学习中的卷积神经网络模型，通过多层卷积神经网络，构建了单字的识别模型。卷积神经网络是人工神经网络的一种，已成为当前图像识别领域的主流模型。它通过局部感阅读全文

posted @ 2017-02-06 10:58 萨姆大叔阅读(3203) 评论(0) 推荐(0)

OCR技术浅探：文字定位和文本切割（2）

摘要：文字定位经过前面的特征提取，我们已经较好地提取了图像的文本特征，下面进行文字定位。主要过程分两步： 1、邻近搜索，目的是圈出单行文字； 2、文本切割，目的是将单行文本切割为单字。邻近搜索我们可以对提取的特征图进行连通区域搜索，得到的每个连通区域视为一个汉字。这对于大多数汉字来说是适用，但是阅读全文

posted @ 2017-02-06 10:48 萨姆大叔阅读(10234) 评论(0) 推荐(0)

OCR技术浅探：特征提取(1)

摘要：研究背景关于光学字符识别(Optical Character Recognition, 下面都简称OCR)，是指将图像上的文字转化为计算机可编辑的文字内容，众多的研究人员对相关的技术研究已久，也有不少成熟的OCR技术和产品产生，比如汉王OCR、ABBYY FineReader、Tesseract 阅读全文

posted @ 2017-02-06 10:11 萨姆大叔阅读(15108) 评论(2) 推荐(2)

萨姆大叔

公告