摘要: 将元组作为一个记录存入列表中: traveler_ids=[('USA','311'),('BRA','342'),('ESP','566')] for passport in sorted(traveler_ids): print("%s%s"%passport)#元组的拆包 元组拆包: city 阅读全文
posted @ 2020-07-14 23:16 猫七的blog 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 什么是词典分词: 词典分词是最简单、最常见的分词算法,它是一套仅需一部词典和一套查词典的规则。 什么是词: 语言学的定义:具有独立意义的最小单位。这太模糊了,”最小单位”到底什么是最小呢? 基于词典的中文分词法中对于词的定义:,在词典中的字符串才是词,词典之外的不是词。 根据齐夫定律:一个“不容易” 阅读全文
posted @ 2020-07-14 22:01 猫七的blog 阅读(384) 评论(0) 推荐(0) 编辑
摘要: TextRank是啥: 一种用于文本的基于图的排序算法。 优点: 不需要学习训练。 模型原理: TextRank可以表示为一个有向有权图G=(V,E),图中任何两点Vi 和Vj之间的边的权重为wji,对于一个给定的点Vi ,In(Vi )为指向该点的点集合。out(Vi )为点Vi指向的点集合。 点 阅读全文
posted @ 2020-07-14 14:49 猫七的blog 阅读(762) 评论(2) 推荐(0) 编辑