摘要: 一:新词提取 a.思路: (1) 提取出大量文本(生语料)中的词语,无论新旧: 计算出左右信息熵与互信息之后,将两个指标低于一定阈值的片段过滤掉,剩下的片段按频次降序排列,截取最高频次的N个片段即完成了词语提取流程 (2)用词典过滤掉已有的词语,于是等到新词 b.代码: # -*- coding:u 阅读全文
posted @ 2020-01-25 21:38 秋华 阅读(568) 评论(0) 推荐(0) 编辑
摘要: 1.利用成熟的语料库对工程的生语料进行分词+词性标注 # 第一步 生成分词+词性标注的模型 from pyhanlp import * import zipfile import os from pyhanlp.static import download, remove_file, HANLP_D 阅读全文
posted @ 2020-01-25 20:27 秋华 阅读(1052) 评论(0) 推荐(0) 编辑
摘要: 1.B Tree和B+ Tree的区别? 1.B树中同一键值不会出现多次,并且有可能出现在叶结点,也有可能出现在非叶结点中。 而B+树的键一定会出现在叶结点中,并有可能在非叶结点中重复出现,以维持B+树的平衡。 2.因为B树键位置不定,且在整个树结构中只出现一次, 2.请列举常见排序并通过代码实现任 阅读全文
posted @ 2020-01-25 13:34 秋华 阅读(769) 评论(0) 推荐(0) 编辑
摘要: 1 django、flask、tornado框架的比较? 2 什么是wsgi? WSGI的全称是Web Server Gateway Interface,翻译过来就是Web服务器网关接口。具体的来说,WSGI是一个规范,定义了Web服务器如何与Python应用程序进行交互,使得使用Python写的W 阅读全文
posted @ 2020-01-25 13:30 秋华 阅读(1067) 评论(0) 推荐(0) 编辑
摘要: 1 简述 OSI 七层协议。 OSI七层协议模型主要是: 应用层(Application):为用户的应用程序(例如电子邮件、文件传输和终端仿真)提供网络服务。 表示层(Presentation):使用一种通格式来实现多种数据格式之间的转换。 会话层(Session):通过运输层(端口号:传输端口与接 阅读全文
posted @ 2020-01-25 10:39 秋华 阅读(1128) 评论(0) 推荐(0) 编辑
摘要: 1.位和字节的关系? Byte 字节 bit 位 1Byte = 8bit 2.b、B、KB、MB、GB 的关系? 1Byte = 8bit KB 1KB=1024B MB 1MB=1024KB GB 1GB=1024MB TB 1TB=1024GB 3.请至少列举5个 PEP8 规范(越多越好)。 阅读全文
posted @ 2020-01-25 10:01 秋华 阅读(1054) 评论(0) 推荐(0) 编辑