会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
过去围观
博客园
首页
新随笔
联系
订阅
管理
2020年11月2日
Scrapy 爬虫之 LinkExtractor 使用
摘要: 主要功能 该方法可以爬取一个页面中,符合指定正则表达式的所有链接,返回一个Link对象,具体如下: import scrapy from scrapy.linkextractors import LinkExtractor def parse(self, response): link_list =
阅读全文
posted @ 2020-11-02 19:33 过去围观
阅读(384)
评论(0)
推荐(0)
2020年10月25日
python 包国内源快速安装
摘要: 每次python使用pip命令直接安装第三方包时,默认的源都是国外的,所以速度很慢,所以使用国内源可以大大提高下载速度。 一 选择国内镜像源 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/
阅读全文
posted @ 2020-10-25 19:40 过去围观
阅读(1185)
评论(0)
推荐(0)
2020年10月21日
WLS下ubuntu系统VIM安装和配置
摘要: 一 检查vim的支持 vim --version 查看是否支持 ,比如+python3 -python表示支持python3不支持python 二 安装插件 以安装YouCompleteMe插件为主,该插件支持大量编程语言的代码自动补全功能。 安装方法一:在配置文件.vimrc中加入Plugin ‘
阅读全文
posted @ 2020-10-21 23:02 过去围观
阅读(682)
评论(0)
推荐(0)
2020年10月11日
python 云词库
摘要: 一、jieba分词 jieba是一个功能十分强大的中文分词库 一般常用的分词方法有:全模式、精确模式、搜索引擎模式 str = '中国科学院,我想去北京故宫博物馆!' 1. 全模式 有冗余 all = ' '.join(jieba.cut(str,cut_all=True)) 结果:中国 中国科学院
阅读全文
posted @ 2020-10-11 12:29 过去围观
阅读(139)
评论(0)
推荐(0)
2020年10月10日
JSON和JSONPATH
摘要: JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 JSON和XML相比较可谓不相上下。 Python 3.X中自带了JSON模块,
阅读全文
posted @ 2020-10-10 21:59 过去围观
阅读(103)
评论(0)
推荐(0)
2020年10月8日
python爬虫之xpath
摘要: XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此,对 XPath 的理解是很多高级 XML 应用的基础。 xp
阅读全文
posted @ 2020-10-08 20:12 过去围观
阅读(139)
评论(0)
推荐(0)
2020年10月6日
正则表达式
摘要: 一、正则表达式模式 模式字符串使用特殊的语法来表示一个正则表达式: 字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。 多数字母和数字前加一个反斜杠时会拥有不同的含义。 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。 反斜杠本身需要使用反斜杠转义。 由于正则表达式通
阅读全文
posted @ 2020-10-06 14:42 过去围观
阅读(104)
评论(0)
推荐(0)
python爬虫之数据处理与提取
摘要: 一、非结构化数据的处理 文本、电话号码、邮箱地址 正则表达式 HTML文件 正则表达式 XPath CSS选择器 二、结构化数据的处理 JSON文件 JSON Path 转化成Python类型进行操作 XML文件 转换成python类型(xmltodict) XPath CSS选择器 正则表达式
阅读全文
posted @ 2020-10-06 14:24 过去围观
阅读(418)
评论(0)
推荐(0)
2020年10月5日
python爬虫基础之urllib
摘要: 一、urllib 和 urllib2的关系 在python2中,主要使用urllib和urllib2,而python3对urllib和urllib2进行了重构,拆分成了urllib.request, urllib.parse, urllib.error,urllib.robotparser等几个子模
阅读全文
posted @ 2020-10-05 17:48 过去围观
阅读(207)
评论(0)
推荐(0)
公告