2022 年 4月 29 日随笔档案 - orion-orion

2022年4月29日

摘要：

分词（tokenization）任务是Python字符串处理中最为常见任务了。我们这里讲解用正则表达式构建简单的表达式分词器（tokenizer），它能够将表达式字符串从左到右解析为标记(tokens)流。要完成这样的分词操作，我们首先需要定义出所有可能的标记模式（所谓模式（pattern），为用来描述或者匹配/系列匹配某个句法规则的字符串，这里我们用正则表达式来做为模式），注意此处要包括空格whitespace，否则字符串中出现任何模式中没有的字符后，扫描就会停止。因为我们还需要给标记以NAME、EQ等名称，我们采用正则表达式中的命名捕获组来实现。阅读全文

posted @ 2022-04-29 15:48 orion-orion 阅读(857) 评论(0) 推荐(0) 编辑

Orion's Blog

联邦学习、图机器学习、推荐系统

公告