摘要: Beautiful Soup库是一个解析HTML文件的优秀的库。 解析,遍历,维护“标签树”的功能库。 安装: pip安装: pip install beautifulsoup4 conda安装 conda install beautifulsoup4 导入: from bs4 import Bea 阅读全文
posted @ 2020-04-21 20:29 vhao11 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 了解了Requests库的基本用法,附上一篇理论链接https://www.cnblogs.com/hao11/p/12593419.html 我们就可以做一些小实例了 1.亚马逊商品的爬取 首先用get方法对亚马逊网站发送请求,然后看返回的状态码,此处503不是200,表明没有成功, 然后要看te 阅读全文
posted @ 2020-04-01 00:15 vhao11 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 数据的时代,网络爬虫有一定的法律风险,但是只要遵守协议知道抓爬哪些数据是不合法的,我们就能避免。 每个网站一般都有Rebots协议,没有的就都可以爬了。 Robots Exclusion Standard,网络爬虫排除标准协议 作用: 告知网络爬虫哪些页面可以抓爬,哪些不可以 形式: 在网站跟目录下 阅读全文
posted @ 2020-03-31 22:51 vhao11 阅读(369) 评论(0) 推荐(0) 编辑
摘要: Requests库得7个主要方法: requests.request() 构造一个请求,支撑以下各方法得基础方法 requests.get() 获取html网页得主要方法,对应于HTTP得GET requests.head() 获取http网页信息头的方法,对应于HTTP的HEAD requests 阅读全文
posted @ 2020-03-31 22:38 vhao11 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 安装: cmd模式下输入 pip install jieba anaconda对应环境 conda install jieba 分词原理: Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间的关联概率 -汉字间概率大的组成词组,形成分词结果 -除了分词,用户还可以添加自定义的词组 jieb 阅读全文
posted @ 2020-03-28 16:57 vhao11 阅读(1265) 评论(0) 推荐(0) 编辑
摘要: 集合类型及操作 集合元素之间无序,集合元素不可更改。 创建 set("pypy123") {'1', '3', 'p', 'y', '2'} 空集合不能用{}生成,留个字典了, 用set() 关系操作 交 & 并 | 差 - 补^ 支持(&=, |=, -=, ^=) 关系操作符 <,<=,>,>= 阅读全文
posted @ 2020-03-26 22:14 vhao11 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 用严格的缩进代替C++中的{},简洁美观。 变量不需要传统的定义,系统推断,类似auto 命名规则:大小写字母、数字、下划线和汉字等字符组合 注意事项:大小写敏感、首字符不能是数字、不与保留字相同 注释#注释一句,三引号注释多行,有意思的是三引号也是字符串 33个保留字:(大小写敏感) and el 阅读全文
posted @ 2020-03-24 20:44 vhao11 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 最近刷了一些题,很多喜欢考字符串转换之类的,自己平时容易忘记,做题时也去翻了很多次,故归纳下来,加深印象。 字符操作 我们经常要处理string对象中的字符,比如检查一个string是否包含空白,大小写转换,首字母大写,归纳一些字符处理的操作。 再cctype的头文件中定义了一组标准库函数处理这部分 阅读全文
posted @ 2020-01-13 21:14 vhao11 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 1.设置环境变量,这一类为路径 C++ void bat(const string& sDirC, const string& sDirD) { char Ddir[256]; Ddir[0] = 0; sprintf_s(Ddir, "DDIR=%s%s", (char*)sDirD.data() 阅读全文
posted @ 2019-12-12 09:25 vhao11 阅读(1374) 评论(0) 推荐(0) 编辑
摘要: 人生苦短,我用Python。 作为一个开发人员,如何写代码是必须要知道的,代码如何运行也是有必要了解的。通过了解代码如何运行,可指导我们写出效率更高的代码。下午看了《Python学习手册》第二章,了解了一些比较有趣的东西,因此做个总结。 let's do it Python解释器 提到Python印 阅读全文
posted @ 2019-10-20 23:36 vhao11 阅读(3872) 评论(0) 推荐(0) 编辑