过去围观 - 博客园

2020年11月2日

摘要：主要功能该方法可以爬取一个页面中，符合指定正则表达式的所有链接，返回一个Link对象，具体如下： import scrapy from scrapy.linkextractors import LinkExtractor def parse(self, response): link_list = 阅读全文

posted @ 2020-11-02 19:33 过去围观阅读(393) 评论(0) 推荐(0)

2020年10月25日

python 包国内源快速安装

摘要：每次python使用pip命令直接安装第三方包时，默认的源都是国外的，所以速度很慢，所以使用国内源可以大大提高下载速度。一选择国内镜像源清华：https://pypi.tuna.tsinghua.edu.cn/simple 阿里云：http://mirrors.aliyun.com/pypi/ 阅读全文

posted @ 2020-10-25 19:40 过去围观阅读(1206) 评论(0) 推荐(0)

2020年10月21日

WLS下ubuntu系统VIM安装和配置

摘要：一检查vim的支持 vim --version 查看是否支持，比如+python3 -python表示支持python3不支持python 二安装插件以安装YouCompleteMe插件为主，该插件支持大量编程语言的代码自动补全功能。安装方法一：在配置文件.vimrc中加入Plugin ‘ 阅读全文

posted @ 2020-10-21 23:02 过去围观阅读(717) 评论(0) 推荐(0)

2020年10月11日

python 云词库

摘要：一、jieba分词 jieba是一个功能十分强大的中文分词库一般常用的分词方法有：全模式、精确模式、搜索引擎模式 str = '中国科学院，我想去北京故宫博物馆！' 1. 全模式有冗余 all = ' '.join(jieba.cut(str,cut_all=True)) 结果：中国中国科学院阅读全文

posted @ 2020-10-11 12:29 过去围观阅读(161) 评论(0) 推荐(0)

2020年10月10日

JSON和JSONPATH

摘要： JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML相比较可谓不相上下。 Python 3.X中自带了JSON模块，阅读全文

posted @ 2020-10-10 21:59 过去围观阅读(120) 评论(0) 推荐(0)

2020年10月8日

python爬虫之xpath

摘要： XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此，对 XPath 的理解是很多高级 XML 应用的基础。 xp 阅读全文

posted @ 2020-10-08 20:12 过去围观阅读(147) 评论(0) 推荐(0)

2020年10月6日

正则表达式

摘要：一、正则表达式模式模式字符串使用特殊的语法来表示一个正则表达式：字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。多数字母和数字前加一个反斜杠时会拥有不同的含义。标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。反斜杠本身需要使用反斜杠转义。由于正则表达式通阅读全文

posted @ 2020-10-06 14:42 过去围观阅读(133) 评论(0) 推荐(0)

python爬虫之数据处理与提取

摘要：一、非结构化数据的处理文本、电话号码、邮箱地址正则表达式 HTML文件正则表达式 XPath CSS选择器二、结构化数据的处理 JSON文件 JSON Path 转化成Python类型进行操作 XML文件转换成python类型（xmltodict） XPath CSS选择器正则表达式阅读全文

posted @ 2020-10-06 14:24 过去围观阅读(420) 评论(0) 推荐(0)

2020年10月5日

python爬虫基础之urllib

摘要：一、urllib 和 urllib2的关系在python2中，主要使用urllib和urllib2，而python3对urllib和urllib2进行了重构，拆分成了urllib.request, urllib.parse, urllib.error，urllib.robotparser等几个子模阅读全文

posted @ 2020-10-05 17:48 过去围观阅读(245) 评论(0) 推荐(0)

公告