03 2019 档案

摘要:1. 简单说明爬虫原理 什么是爬虫 爬虫:请求网站并提取数据的自动化程序 百科:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2. 理解爬虫 阅读全文
posted @ 2019-03-27 21:55 Heyuanz 阅读(136) 评论(0) 推荐(0) 编辑
摘要:中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' 阅读全文
posted @ 2019-03-18 20:17 Heyuanz 阅读(150) 评论(0) 推荐(0) 编辑
摘要:列表 元组: tr=['30','50'] tr2=['20','30'] del tr #删除整个元组 tr3=tr+tr2 #把两个元组组合在一起,结果为tr3=['30','50','20','30'] printf(tr[0]) #查找元组中的第一个元素 for i in range(len 阅读全文
posted @ 2019-03-14 21:46 Heyuanz 阅读(126) 评论(0) 推荐(0) 编辑
摘要:1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 word=input("请输入一段字母:");n=input("请输入偏移值:");s=ord("a");e=ord("z");choose=input("编码请按1,解码请按2:");print("凯撒密码编码:",end 阅读全文
posted @ 2019-03-06 16:05 Heyuanz 阅读(257) 评论(0) 推荐(0) 编辑