摘要: 简单的机器学习实验 阅读全文
posted @ 2020-07-10 13:15 喵改 阅读(2036) 评论(1) 推荐(1) 编辑
摘要: 首先不需要关心HTML格式文件具体是什么内容(电子病历还是其他网页啥的),这篇主要内容是介绍如何用Python批量处理HTML格式文件、TXT格式文件,以及Python字典列表导出到EXCEL的一种解决方法。 我的原始数据是200+条HTML格式的入院记录 如上图所示,我关心的内容都在这些P标签里面 阅读全文
posted @ 2020-06-14 16:47 喵改 阅读(4206) 评论(0) 推荐(1) 编辑
摘要: 1、文本预处理技术 分词:前向/后向最大匹配(max_len=5~10)有一个词典,基于匹配规则的方法,尽量匹配更多的字符。缺点:局部最优,歧义。考虑语义HMM,CRF...... 拼写纠错:编辑距离(一次insert\delete\replace),先生成编辑距离为1、2的字符串再过滤,返回最可能 阅读全文
posted @ 2020-05-23 15:48 喵改 阅读(335) 评论(1) 推荐(0) 编辑
摘要: 由于疫情学校还不让回去,只能在家对着这台笔记本折腾,搭建环境就要了我半条命,虽然网上有好多傻瓜级教程,也覆盖不了每个人会遇到的各种各样的情况,小白有许多问号,或许是很简单的问题,可没人指导就是弱小无助又委屈。 回顾一下这曲折坎坷的经历。我为了学python直接下载了python3.8,用它自带的ID 阅读全文
posted @ 2020-05-15 19:07 喵改 阅读(2595) 评论(0) 推荐(0) 编辑
摘要: 一、标记化(Tokenization) 将文本切分成词 二、去停用词(Stop words) 停用词指的是一些出现很多却没啥实义的如介词、连词、冠词“and”、“the”、“a”等 三、词干(Stemming) 将单词还原为词根形式,目的是将因上下文拼写略有不同,但含义相同的单词缩减为相同的标记来统 阅读全文
posted @ 2020-05-01 23:49 喵改 阅读(271) 评论(0) 推荐(1) 编辑
摘要: 汉语中句子以字为单位的,但语义理解仍是以词为单位,所以也就存在中文分词问题。主要的技术可以分为:规则分词、统计分词以及混合分词(规则+统计)。 基于规则的分词是一种机械分词,主要依赖于维护词典,在切分时将与剧中的字符串与词典中的词进行匹配。主要包括正向最大匹配法、逆向最大匹配法以及双向最大匹配法。 阅读全文
posted @ 2020-04-26 22:22 喵改 阅读(1158) 评论(0) 推荐(0) 编辑
摘要: 自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言,以执行如机器翻译、文本分析、情感分析等任务。 自然语言处理是人工智能领域比较火热的方向,本人决定入坑是因为听那个谁说,这个方向对数 阅读全文
posted @ 2020-04-20 20:39 喵改 阅读(766) 评论(0) 推荐(0) 编辑