摘要: 4.文本规范化处理 下文中将定义一个规范化模块以处理文本文档规范化,并在后面建立分类器时使用这个处理模块。尽管有许多可用的技术,但是将坚持简化与直接原则,以便于更容易地一步步参照这里的实现。将在模块中实现和使用下面的规范化技术。 扩展缩写词。 通过词形还原实现文本处理规范化。 去除特殊字符与符号。 阅读全文
posted @ 2019-08-14 18:36 翡翠嫩白菜 阅读(820) 评论(0) 推荐(0) 编辑
摘要: 2.自动文本分类 现在对于文本分类的定义和范围有所了解。当提到 “文本分类系统” 可以将文本文件划分到它们代表的类或类别时,也从该概念和数学上对文本分类进行了正式的定义。假设几个人通过浏览每个文本并进行分类完成文本分类任务,那么他们就是我们所讨论的文档分类系统的一部分。然而,一旦文档数量超过百万并且 阅读全文
posted @ 2019-08-14 18:35 翡翠嫩白菜 阅读(567) 评论(0) 推荐(0) 编辑
摘要: 现在已经了解了自动文本分类的基本范围,下面将看一看建立自动文本分析系统的完整流程的蓝图。这包括在前面提到的训练和测试阶段必须要完成的一系列步骤。为建立文本分类系统,需要确认依据拥有数据来源并获取了这些数据,可以开始将这些数据送入系统。假设已经下载了数据集,并且准备好了数据,下面给出一个文本分类系统典 阅读全文
posted @ 2019-08-14 18:35 翡翠嫩白菜 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 理解文本语句和结构 下面会介绍和实现一些用于理解文本语法和结构的概念和技术。这些算法在 NLP 中非常有用,它通常在文本处理和标准化之后执行。主要关注一下技术: 词性(POS)标签。 浅层分析。 基于依存关系的解析。 基于成分结构的解析。 文章的作者针对读者是文本分析实践人员,可以执行并住处在实际问 阅读全文
posted @ 2019-08-14 18:34 翡翠嫩白菜 阅读(911) 评论(0) 推荐(1) 编辑
摘要: 1.什么是文本分类 在定义文本分类之前,需要理解文本数据的范围,以及分类的真实含义。这里的文本数据可以是短语、句子或者包含文本段落的整篇文档等任何形式,这些数据可以从语料库、博客或互联网的任何地方获得。文本分类也经常成为文档分类,文档这个词概括了任何形式的文本内容。文档这个词可以定义为思想或事件的一 阅读全文
posted @ 2019-08-14 18:34 翡翠嫩白菜 阅读(1945) 评论(0) 推荐(0) 编辑
摘要: 文本规范化 文本规范化定义为这样的一个过程,它包含一系列步骤,依次是转换、清洗以及将文本数据标准化成可供 NLP、分析系统和应用程序使用的格式。通常,文本切分本身也是文本规范化的一部分。除了文本切分以外,还有各种其他技术,包括文本清洗、大小写转换、词语矫正、停用词删除、词干提取和词型还原。文本规范化 阅读全文
posted @ 2019-08-14 18:32 翡翠嫩白菜 阅读(1134) 评论(0) 推荐(0) 编辑
摘要: 文本切分 之前讨论了文本结构、成文和表示。具体来说,标识(token)是具有一定的句法语义且独立的最小文本成分。一段文本或一个文本文件具有几个组成部分,包括可以进一步细分为从句、短语和单词的语句。最流行的文本切分技术包括句子切分和词语切分,用于将文本语料库分解成句子,并将每个句子分解成单词。因此,文 阅读全文
posted @ 2019-08-14 18:30 翡翠嫩白菜 阅读(1388) 评论(0) 推荐(0) 编辑
摘要: 所有机器学习(ML)算法,无论是有监督的还是无监督的,通常都会使用数值格式的输入特征。虽然这是特征工程的一个独立主体,但是仍然将详细的讨论它。为了实现数值格式的特征输入,你需要清洗、规范化和预处理初始文本数据。通常,文本语料库和原始文本的数据格式即非准确的,也非规范的,当然,应该可以预料到这些,毕竟 阅读全文
posted @ 2019-08-14 18:30 翡翠嫩白菜 阅读(330) 评论(0) 推荐(0) 编辑
摘要: Python 使用文本 字符串是 Python 中的字符序列,类似于数组和代码,其可以利用一组属性和方法来轻松的对文本数据进操作处理,这使得 Python 称为许多场景中进行文本分析的首选语言。 字符串文字 Python 有各种类型的字符串,以 BNF(Backus-Naur Fornm)为我们提供 阅读全文
posted @ 2019-08-14 18:29 翡翠嫩白菜 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 图象识别 Python的强大,在于它有非常多的第三方库。对于验证码识别,Python也已经有了现成的库来供我们使用了。开源的OCR库pytesseract配合tesseract,可以用来将图片中的文字转化为文本。 不过这种方式我们在爬虫中用的并不多。因为现在大部分的验证码都加上了干扰的纹理,已经很少 阅读全文
posted @ 2019-08-14 18:28 翡翠嫩白菜 阅读(777) 评论(0) 推荐(0) 编辑