2019年12月22日
摘要: 像iqiyi这种视频网站,现在下载视频都需要下载相应的客户端。那么如何不用下载客户端,直接下载非vip视频? 选择你想要爬取的内容 该安装的程序以及运行环境都配置好 下面这段代码就是我在爱奇艺里搜素“英文名”,然后出来的视频,共有20页,那么我们便从第一页开始,解析网页,然后分析 分析每一页网址,找 阅读全文
posted @ 2019-12-22 22:38 江武555 阅读(1902) 评论(0) 推荐(0) 编辑
  2019年12月15日
摘要: 使用正则库爬取淘宝商品的商品信息,首先我们需要确定想要爬取的对象 我们在淘宝里搜索“python”,出来的结果 从url连接中可以得到搜索商品的关键字是“q=”,所以我们要用的起始url为:https://s.taobao.com/search?q=python 然后翻页,经过对比发现,翻页后,变化 阅读全文
posted @ 2019-12-15 21:43 江武555 阅读(787) 评论(0) 推荐(0) 编辑
  2019年12月8日
摘要: 中国大学MOOC网上有着特别完善的课程信息,我觉得这是一份可以让我们充分利用的资源 那么,接下来的问题就是我们该如何爬取这里的资源 选择其中的计算机课程进行尝试 import requests from bs4 import BeautifulSoup import io import sys sy 阅读全文
posted @ 2019-12-08 21:03 江武555 阅读(1106) 评论(0) 推荐(0) 编辑
  2019年12月1日
摘要: 继上一篇爬取小说一念之间的第一章,这里将进一步展示如何爬取整篇小说 # -*- coding: utf-8 -*- import urllib.request import bs4 import re # 爬取源码 def getHtml(url): user_agent = "Mozilla/5. 阅读全文
posted @ 2019-12-01 21:33 江武555 阅读(820) 评论(0) 推荐(0) 编辑
  2019年11月23日
摘要: 现在网上有很多小说网站,但其实,有一些小说网站是没有自己的资源的,那么这些资源是从哪里来的呢?当然是“偷取”别人的数据咯。现在的问题就是,该怎么去爬取别人的资源呢,这里便从简单的开始,爬取一篇小说的第一章内容,代码如下: import requests from bs4 import Beautif 阅读全文
posted @ 2019-11-23 15:31 江武555 阅读(1074) 评论(0) 推荐(0) 编辑
  2019年11月16日
摘要: requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下 使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML页面格式,这里我们常用的就是beautifulsoup4库,用于解析和处理HTML和XML 下面这段 阅读全文
posted @ 2019-11-16 19:37 江武555 阅读(3245) 评论(0) 推荐(0) 编辑
  2019年11月9日
摘要: 函数的定义: 函数是一段具有特定功能的、可重用的语句组,用函数名来表示并通过函数名进行功能调用。 使用函数主要有两个目的:降低编程难度和代码重用。 python定义一个函数是通过使用def保留字的方式,其语法形式如下: def<函数名>(<参数列表>): <函数体> return<返回列表> def 阅读全文
posted @ 2019-11-09 15:54 江武555 阅读(518) 评论(0) 推荐(0) 编辑
  2019年11月2日
摘要: 上面一共给出了三种方法,均是以字典的形式输出,但可以看出,通过第二三种的内置函数方法更简便 上面的两种方法也是输出字符串的字母出现次数,略有不同的是,这里它先设定了26个字母,并使其对应的初始值为0,然后统计字符串中的各字母出现次数,每个字母出现了多少次,即为其对应的初始值处的值。而没出现的字母,其 阅读全文
posted @ 2019-11-02 17:05 江武555 阅读(38699) 评论(1) 推荐(0) 编辑
  2019年10月26日
摘要: 1.random库的使用: random库是使用随机数的Python标准库从概率论角度来说,随机数是随机产生的数据(比如抛硬币),但时计算机是不可能产生随机值,真正的随机数也是在特定条件下产生的确定值,只不过这些条件我们没有理解,或者超出了我们的理解范围。计算机不能产生真正的随机数,那么伪随机数也就 阅读全文
posted @ 2019-10-26 19:28 江武555 阅读(1049) 评论(0) 推荐(1) 编辑
  2019年10月19日
摘要: python之字符串类型的格式化 要点:python字符串通过format()方法进行格式化处理。(Python语言同时支持两种字符串格式化方法,一种类似C语言中printf()函数的格式化方法,支持该方法主要考虑与大批C语言程序员编程习惯相一致;另一种采用专门的str.format()格式化方法。 阅读全文
posted @ 2019-10-19 20:08 江武555 阅读(988) 评论(0) 推荐(0) 编辑