会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
-豪-
博客园
首页
博问
闪存
新随笔
订阅
管理
上一页
1
2
3
下一页
2020年12月26日
图片验证码识别技术——Tesseraact
摘要: 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition),简称为OCR。 实现OCR的库不是很多,特别是开源的,比较优秀的开源图像识别库——Tesseract。 Tesseract: tesseract是一个OCR库。Tesseract是目前公认最优秀、最
阅读全文
posted @ 2020-12-26 21:17 -豪-
阅读(343)
评论(0)
推荐(0)
编辑
2020年12月24日
动态网页数据获取
摘要: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML,与后台服务器进行很少量的数据交换,AJAX可以使网页实现异步更新。 可以在不重新加载整个页面的情况下,对网页的某部分进行更新。传统的网页(不使用AJAX)如果需要更新内容,必须重新加载整个页
阅读全文
posted @ 2020-12-24 21:44 -豪-
阅读(265)
评论(0)
推荐(0)
编辑
2020年10月28日
数据存储——json、CSV
摘要: json JSON(JavaScript Object Notation,JS对象标记)是一种轻重量级的数据交换。它是基于ECMAScript(w3c制定的js规范)的 一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。 易于人阅读和
阅读全文
posted @ 2020-10-28 11:38 -豪-
阅读(282)
评论(0)
推荐(0)
编辑
2020年10月27日
正则表达式
摘要: 正则表达式匹配规则: 匹配单个字符: 1.匹配某个字符 text = 'hello' ret = re.match('he',text) print(ret) # 输出结果 <re.Match object; span=(0, 2), match='he'> print(ret.group()) #
阅读全文
posted @ 2020-10-27 15:35 -豪-
阅读(168)
评论(0)
推荐(0)
编辑
2020年10月22日
BeautifulSopup4
摘要: BeautifiulSoup和lxml一样也是一个HTML/XML的解析器,主要功能是解析和提取HTML/XML数据。 lxml只会局部遍历,而BEautifulSoup是基于HTML DOM(Document OBject Model)的,会载入整个文档,解析整个DOM树,因此,时间和内存开销都会
阅读全文
posted @ 2020-10-22 20:58 -豪-
阅读(182)
评论(0)
推荐(0)
编辑
2020年10月19日
XPath
摘要: xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 1.Chrome插件XPath Helper。 2.Firefox插件Try XPath。 XPath 使用路径表达式来选取XMl
阅读全文
posted @ 2020-10-19 20:54 -豪-
阅读(268)
评论(0)
推荐(0)
编辑
2020年10月18日
requests
摘要: requests库 安装和文档地址: 利用pip安装: pip install requests 中文文档:http://docs.python-requests.org/zh_CN/latest/index.html github地址:http://github.com/requests/requ
阅读全文
posted @ 2020-10-18 21:55 -豪-
阅读(149)
评论(0)
推荐(0)
编辑
cookie
摘要: 在网站中,HTTP请求是无状态的,即:第一次和服务器连接并登录成功后,第二次请求服务器依然不能知道当前请求是来自哪个用户。 cookie的出现解决了这一问题,第一次登陆后服务器会返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求时,就会自动的把上次请求存储的cooki
阅读全文
posted @ 2020-10-18 13:13 -豪-
阅读(149)
评论(0)
推荐(0)
编辑
2020年10月9日
爬虫前奏
摘要: URL: URL是Uniform Resource Locator的简称,统一资源定位符。 一个URL一般由一下几部分组成: scheme://host:post/?quer-string=XXX#anchor scheme:代表的是访问协议,一般为:HTTP、HTTPS以及ftp等。 host:主
阅读全文
posted @ 2020-10-09 22:07 -豪-
阅读(116)
评论(0)
推荐(0)
编辑
2020年5月14日
虚拟机初始配置以及NAT模式下的联网配置
摘要: 虚拟机初始化 1. 开启虚拟机,然后按Enter键,等待安装 2 2.选择语言(根据自己的需要选择),选择好后,点击继续 3.选择时区 与 时间,并对时间进行调整,之后点击完成。 4 软件安装选择——最小安装,安装位置选择——自动分区(可根据自己的需要进行分区);然后点击完成。 5.创建root的密
阅读全文
posted @ 2020-05-14 17:54 -豪-
阅读(464)
评论(0)
推荐(0)
编辑
上一页
1
2
3
下一页