摘要: 主要功能 该方法可以爬取一个页面中,符合指定正则表达式的所有链接,返回一个Link对象,具体如下: import scrapy from scrapy.linkextractors import LinkExtractor def parse(self, response): link_list = 阅读全文
posted @ 2020-11-02 19:33 过去围观 阅读(384) 评论(0) 推荐(0)
摘要: 每次python使用pip命令直接安装第三方包时,默认的源都是国外的,所以速度很慢,所以使用国内源可以大大提高下载速度。 一 选择国内镜像源 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/ 阅读全文
posted @ 2020-10-25 19:40 过去围观 阅读(1185) 评论(0) 推荐(0)
摘要: 一 检查vim的支持 vim --version 查看是否支持 ,比如+python3 -python表示支持python3不支持python 二 安装插件 以安装YouCompleteMe插件为主,该插件支持大量编程语言的代码自动补全功能。 安装方法一:在配置文件.vimrc中加入Plugin ‘ 阅读全文
posted @ 2020-10-21 23:02 过去围观 阅读(682) 评论(0) 推荐(0)
摘要: 一、jieba分词 jieba是一个功能十分强大的中文分词库 一般常用的分词方法有:全模式、精确模式、搜索引擎模式 str = '中国科学院,我想去北京故宫博物馆!' 1. 全模式 有冗余 all = ' '.join(jieba.cut(str,cut_all=True)) 结果:中国 中国科学院 阅读全文
posted @ 2020-10-11 12:29 过去围观 阅读(139) 评论(0) 推荐(0)
摘要: JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 JSON和XML相比较可谓不相上下。 Python 3.X中自带了JSON模块, 阅读全文
posted @ 2020-10-10 21:59 过去围观 阅读(103) 评论(0) 推荐(0)
摘要: XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此,对 XPath 的理解是很多高级 XML 应用的基础。 xp 阅读全文
posted @ 2020-10-08 20:12 过去围观 阅读(139) 评论(0) 推荐(0)
摘要: 一、正则表达式模式 模式字符串使用特殊的语法来表示一个正则表达式: 字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。 多数字母和数字前加一个反斜杠时会拥有不同的含义。 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。 反斜杠本身需要使用反斜杠转义。 由于正则表达式通 阅读全文
posted @ 2020-10-06 14:42 过去围观 阅读(104) 评论(0) 推荐(0)
摘要: 一、非结构化数据的处理 文本、电话号码、邮箱地址 正则表达式 HTML文件 正则表达式 XPath CSS选择器 二、结构化数据的处理 JSON文件 JSON Path 转化成Python类型进行操作 XML文件 转换成python类型(xmltodict) XPath CSS选择器 正则表达式 阅读全文
posted @ 2020-10-06 14:24 过去围观 阅读(418) 评论(0) 推荐(0)
摘要: 一、urllib 和 urllib2的关系 在python2中,主要使用urllib和urllib2,而python3对urllib和urllib2进行了重构,拆分成了urllib.request, urllib.parse, urllib.error,urllib.robotparser等几个子模 阅读全文
posted @ 2020-10-05 17:48 过去围观 阅读(207) 评论(0) 推荐(0)