摘要: 在学习了嵩天老师的《Python网络爬虫与信息提取课程》之后,我自己尝试按照老师的步骤做了一个小demo。 爬取有趣网址之家首页中有趣网站。 url = “https://youquhome.com/” 代码如下: 阅读全文
posted @ 2018-02-19 20:08 未来分析师 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 注:本文仅是个人的学习笔记,内容来源于中国大学mooc《Python网络爬虫与信息提取》课程 一 信息标记与提取方法 信息标记三种方式: XML <>...</> JSON 有类型键值对:key:value YAML 无类型键值对:key:value 信息提取的一般方法: <>.find_all() 阅读全文
posted @ 2018-02-18 21:22 未来分析师 阅读(611) 评论(0) 推荐(0) 编辑
摘要: 注:本文仅是个人的学习笔记,内容来源于中国大学mooc《Python网络爬虫与信息提取》课程 一 京东商品页面爬取 二 亚马逊商品页面的爬取 1 用一个字典kv保存需要修改的头部信息。 2 获取头部信息: 3 访问url时,修改头部信息 三 百度/360搜索关键词提交 字典kv用于保存需要查找到ke 阅读全文
posted @ 2018-02-17 22:31 未来分析师 阅读(1151) 评论(0) 推荐(0) 编辑
摘要: 项目:随机生成测试试卷 假设语文老师给学生最近学习的古诗进行一次小测验,但是为了防止作弊,每个人的试卷出题顺序各不相同。 程序: 创建20份不同的试卷 每份数据创建10个选择题,次序随机。 每个问题有四个选项,其中只有一个正确的选项。 将20份文件写到20个文本文件中。 将20份答案写到20个文本文 阅读全文
posted @ 2018-02-07 17:20 未来分析师 阅读(207) 评论(0) 推荐(0) 编辑
摘要: shelve模块简介: 利用shelve模块,你可以将Python程序中的变量保存到二进制的shelf文件中。这样程序就可以从硬盘中恢复变量数据。shelve模块让你程序中添加‘保存’和‘打开’功能。 运行上述程序后,我们就可已在之后重新打开这些文件并取出数据。shelf不必用读模式或写模式打开。 阅读全文
posted @ 2018-02-05 19:48 未来分析师 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 一 os.makedirs()创建新的文件夹 os.makedirs()会创建所有必要的中间文件夹,目的是确保完整路径名存在。 二 os.path 模块 os.path模块包含了许多与文件名和文件路径相关的有用函数。 (1)处理绝对路径和相对路径 os.path.abspath(path)将返回参数 阅读全文
posted @ 2018-02-05 19:13 未来分析师 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 程序设计: 我们要完成的目的:在复制整个文本之后运行程序,就可以粘贴文本中所有电话号码和邮件。 过程: 使用pyperclip模块复制和粘贴字符串。 创建两个正则表达式,一个匹配电话号码,另一个匹配E-mail。 对两个正则表达式找到所有的匹配(findall()方法)。 整理匹配到的字符串格式,放 阅读全文
posted @ 2018-02-04 16:26 未来分析师 阅读(1346) 评论(0) 推荐(0) 编辑
摘要: 一 不区分大小写的匹配 通常,正则表达式不区分大小写。 要让正则表达式区分大小写,可以向re.comppile()传入re.IGNORECASE或re.I作为第二个参数。 例如: 二 用sub()方法替换字符串 正则表达式可以用新的文本替换旧的文本。 Regex对象的sub()方法有两个参数:一个用 阅读全文
posted @ 2018-02-04 12:13 未来分析师 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 一 通配字符 .(句点)字符被称为通配符,它匹配除了换行符以外的所有字符。 例如: 二 用点-星号匹配所有的字符 (.*)表示匹配任意文本。 (.*)使用‘贪心’模式:它总是匹配尽可能多的文本。 (.*?)表示非贪心模式匹配所有文本。 例如: 贪心模式: 三 用句点字符匹配换行 点-星匹配除换行之外 阅读全文
posted @ 2018-02-03 20:02 未来分析师 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 一 字符分类 缩写字符分类: \d 0-9的任何数字 \D 除0-9的数字以外的任何字符 \w 任何字母数字或下划线字符(可以认为是匹配“单词”字符) \W 除字母,数字和下划线以外的任何字符 \s 空格,制表符或换行符(可以认为是匹配“空白”字符) \S 除空格,制表符和换行符以外的任何字符 [0 阅读全文
posted @ 2018-02-03 19:07 未来分析师 阅读(207) 评论(0) 推荐(0) 编辑