风hua - 博客园

2020年4月13日

摘要： import requests import re import os if __name__ == "__main__": # 创建一个文件夹用来保存所有图片 if not os.path.exists('./qiutulibs'): os.mkdir('./qiutulibs') headers 阅读全文

posted @ 2020-04-13 16:58 风hua 阅读(175) 评论(0) 推荐(0) 编辑

re实战之糗图图片爬取及解析

posted @ 2020-04-13 16:54 风hua 阅读(227) 评论(0) 推荐(0) 编辑

bs4实战之三国演义数据爬取

摘要： # 需求：爬取三国演义小说中的章节标题与章节内容http://www.shicimingju.com/book/sanguoyanyi.htmlimport requestsfrom bs4 import BeautifulSoupif __name__ == "__main__": # 对首页数据阅读全文

posted @ 2020-04-13 16:50 风hua 阅读(438) 评论(0) 推荐(0) 编辑

bs4数据解析基础

摘要： import requestsfrom bs4 import BeautifulSoupif __name__ == "__main__": # headers = { # 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/ 阅读全文

posted @ 2020-04-13 16:47 风hua 阅读(263) 评论(0) 推荐(0) 编辑

requests基础爬取流程

摘要： # 需求：爬取搜狗首页的页面数据import requestsif __name__ == '__main__': # 1指定url url = 'https://www.sogou.com/' # 2发起请求 res = requests.get(url=url) # get方法会返回一个响应对象阅读全文

posted @ 2020-04-13 16:33 风hua 阅读(375) 评论(0) 推荐(0) 编辑

requests 之豆瓣电影排行榜爬取

摘要： import json import requests if __name__ == '__main__': url = 'https://movie.douban.com/j/chart/top_list' param = { 'type': '24', 'interval_id': '100:9 阅读全文

posted @ 2020-04-13 16:30 风hua 阅读(246) 评论(0) 推荐(0) 编辑

requests之肯德基座位爬取

摘要： import requestsimport jsonif __name__ =='__main__': headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gec 阅读全文

posted @ 2020-04-13 16:29 风hua 阅读(286) 评论(0) 推荐(0) 编辑

requests之网页采集器

摘要： # UA:User-Agent(请求载体的身份标识） # UA 检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一浏览器 #说明该请求是一个正常的请求。否则为不正常的请求（爬虫），则服务器有可能拒绝 # UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器阅读全文

posted @ 2020-04-13 16:27 风hua 阅读(161) 评论(0) 推荐(0) 编辑

requests实战之破解百度翻译

摘要： import json import requests if __name__ == '__main__': post_url = 'https://fanyi.baidu.com/sug' # 进行UA伪装 headers = { 'User-Agent': 'Mozilla/5.0 (Windo 阅读全文

posted @ 2020-04-13 16:25 风hua 阅读(343) 评论(0) 推荐(0) 编辑

爬虫基础知识笔记

摘要：爬虫1.1 爬虫概念 -通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程爬虫价值 -实际应用 -就业1.2 爬虫的合法性探究1.3爬虫在使用场景中的分类 - 通用爬虫抓取系统重要组成部分，抓取的是一整张页面数据 - 聚焦爬虫建立在通用爬虫基础上，抓取局部内容 - 增量式爬虫检测阅读全文

posted @ 2020-04-13 16:21 风hua 阅读(231) 评论(0) 推荐(0) 编辑

2020年4月8日

相关简单算法代码（顺序，二分，冒泡，插入，选择等）

摘要：顺序查找 1 def linear_search(li,val): 2 for i,k in enumerate(li): 3 if k == val: 4 return i 5 6 else: # for循环完毕后一定会执行else 7 return None View Code 二分法查找 1 阅读全文

posted @ 2020-04-08 18:09 风hua 阅读(383) 评论(0) 推荐(0) 编辑

基础的简单算法简单介绍

摘要： 1.1算法：一个计算过程，解决问题的方法程序 = 数据结构 + 算法1.2估计算法运行效率时间复杂度；体现算法运行的快慢的方式：时间复杂度空间复杂度1.3 递归特点：调用自身结束条件递归实例：汉诺塔问题第二章 8大排序&查找算法2.1顺序查找2.2二分查找（折半查找）2.3排序介绍2 阅读全文

posted @ 2020-04-08 17:58 风hua 阅读(252) 评论(0) 推荐(0) 编辑

http 协议

摘要： Http协议一 HTTP概述HTTP（hypertext transport protocol），即超文本传输协议。这个协议详细规定了浏览器和万维网服务器之间互相通信的规则。HTTP就是一个通信规则，通信规则规定了客户端发送给服务器的内容格式，也规定了服务器发送给客户端的内容格式。其实我们要学习的就阅读全文

posted @ 2020-04-08 17:43 风hua 阅读(210) 评论(0) 推荐(0) 编辑

python常用模块以及第三方导入

摘要： python常用模块 1模块的分类标准模块（内置模块）（标准库）300 第三方模块 18万 pip install 直接通过pip安装软件一般会被自动安装你python安装目录的这个子目录里 /your_python_install_path/3.6/lib/python3.6/site-p 阅读全文

posted @ 2020-04-08 17:30 风hua 阅读(515) 评论(0) 推荐(0) 编辑

python基础知识目录简介

摘要： 1.1编程语言介绍与分类什么是编程语言？本质：与人类语言一样。沟通电流+一堆硬件高电压1 低电压0 高电压1 低电压0 高电压1 低电压0 8 晶体管 010101010101 play sound 1010000 open file 机器语言直接跟硬件打交道汇编语言开发效率低 010 阅读全文

posted @ 2020-04-08 14:44 风hua 阅读(393) 评论(0) 推荐(0) 编辑

python环境安装

摘要： python2 已经下线，所以以后都是python3以后的版本 Python环境搭建（Windows环境下） Python下载 www.python.org官网选择可执行文件( 64位3.5.2Windows x86-64 executable installer或32位3.5.2 Windows 阅读全文

posted @ 2020-04-08 14:40 风hua 阅读(177) 评论(0) 推荐(0) 编辑

linux 之虚拟机的安装与介绍

摘要： linux 零基础入门1.1linux介绍操作系统用途：管理硬件驱动硬件管理软件分配资源1.2 linux的发展unix -> windows ->linuxlinux 免费开源第二章 vmware虚拟化部署2.1 优势：快速部署；安全性强；多系统运行；庞大的生态系统 workstati 阅读全文

posted @ 2020-04-08 14:20 风hua 阅读(447) 评论(0) 推荐(0) 编辑

计算机原理及硬件介绍

摘要： 1.1 计算机介绍计算机俗称电脑作用：数值运算，逻辑运算，存储记忆功能组成：硬件系统和软件系统分类：超级计算机工业控制计算机网络计算机个人计算机嵌入式计算机冯.诺依曼计算机体系1）计算机硬件设备由存储器，运算器，控制器，输入设备和输出设备5部分组成2）采用二进制形式表示数据和指令3）将阅读全文

posted @ 2020-04-08 14:13 风hua 阅读(302) 评论(0) 推荐(0) 编辑

公告