摘要:
简单的机器学习实验 阅读全文
摘要:
首先不需要关心HTML格式文件具体是什么内容(电子病历还是其他网页啥的),这篇主要内容是介绍如何用Python批量处理HTML格式文件、TXT格式文件,以及Python字典列表导出到EXCEL的一种解决方法。 我的原始数据是200+条HTML格式的入院记录 如上图所示,我关心的内容都在这些P标签里面 阅读全文
摘要:
1、文本预处理技术 分词:前向/后向最大匹配(max_len=5~10)有一个词典,基于匹配规则的方法,尽量匹配更多的字符。缺点:局部最优,歧义。考虑语义HMM,CRF...... 拼写纠错:编辑距离(一次insert\delete\replace),先生成编辑距离为1、2的字符串再过滤,返回最可能 阅读全文
摘要:
由于疫情学校还不让回去,只能在家对着这台笔记本折腾,搭建环境就要了我半条命,虽然网上有好多傻瓜级教程,也覆盖不了每个人会遇到的各种各样的情况,小白有许多问号,或许是很简单的问题,可没人指导就是弱小无助又委屈。 回顾一下这曲折坎坷的经历。我为了学python直接下载了python3.8,用它自带的ID 阅读全文
摘要:
一、标记化(Tokenization) 将文本切分成词 二、去停用词(Stop words) 停用词指的是一些出现很多却没啥实义的如介词、连词、冠词“and”、“the”、“a”等 三、词干(Stemming) 将单词还原为词根形式,目的是将因上下文拼写略有不同,但含义相同的单词缩减为相同的标记来统 阅读全文
摘要:
汉语中句子以字为单位的,但语义理解仍是以词为单位,所以也就存在中文分词问题。主要的技术可以分为:规则分词、统计分词以及混合分词(规则+统计)。 基于规则的分词是一种机械分词,主要依赖于维护词典,在切分时将与剧中的字符串与词典中的词进行匹配。主要包括正向最大匹配法、逆向最大匹配法以及双向最大匹配法。 阅读全文
摘要:
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言,以执行如机器翻译、文本分析、情感分析等任务。 自然语言处理是人工智能领域比较火热的方向,本人决定入坑是因为听那个谁说,这个方向对数 阅读全文