摘要:
前言 上一篇博客因为写的比较急,个人原因,导致很多地方不完善,具体功能也没有进行说明,这一篇 算是对上一篇的完善,以及对静态网页爬取的一个总结。 要求,计划 爬取futurelearn课程网中subjects类别中science-engineering-and-maths-courses课程中全部课 阅读全文
摘要:
1 import requests 2 from bs4 import BeautifulSoup 3 import bs4 4 import re 5 import csv 6 #import pandas as pd 7 # r = requests.get("https://www.futur 阅读全文
摘要:
股票数据定向爬虫实例目的:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中技术路线:requests-bs4-re 候选数据网站的选择选取原则:股票信息静态存于HTML页面中,非js代码生成,没有Robots协议限制选取方法:浏览器F12,源代码查看 数据网站的确定获取股票列表东方财富网 阅读全文
摘要:
实例介绍 目的:获取某种类别商品的信息,提取商品的名称与价格 可行性分析 1.查看淘宝的robots协议,附网址https://www.taobao.com/robots.txt 查看发现淘宝不允许任何人对淘宝信息进行爬取。那么作为一名守法公民为了不要引起不必要的麻烦, 一,不要爬取,二,爬取的程序 阅读全文
摘要:
正则表达式 正则表达式的定义: 正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母) 和特殊字符(称为"元字符")。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法 规则的字符串。 正则表达式的作用:(1)通用的字符串表达框架;(2)简 阅读全文
摘要:
爬取最好大学网上最新2019年的中国大学排名情况 1.url:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html。 2.使用requests库和bs4库实现对中国大学排名的定向爬取。 3.对包含输出的列表进行排版。 1 import reque 阅读全文
摘要:
Requests库的详细安装过程 对于初学Python爬虫小白,认识和使用requests库是第一步,requests库包含了网页爬取 的常用方法。下面开始安装requests库。 1.检查是否安装过requests库:Windows加r打开cmd命令提示符,输入pip install reques 阅读全文
摘要:
打开文件 1.建立磁盘 上的文件与程序中的对象相关联 2.通过相关的文件对象获得 文件操作 (1)读取(2)写入(3)其他:追加、 计算等 关闭文件 (1)切断文件与程序的联系(2)写入磁盘, 并释放文件缓冲区 打开文件 打开模式 文件使用结束后要用close()方法关闭,释放文件的使用授权,格式: 阅读全文
摘要:
1.猜数游戏。在程序中预设一个0~9之间的整数,让用户通过键盘输入所猜数字,如果大于预设的数, 显示“遗憾,太大了”;如果小于预设的数,显示“遗憾,太小了”;如此循环,直至猜到该数,显示“预 测N次,你猜中了!”,其中N是用户输入数字的次数。 此题调用了random库的randint()函数来产生一 阅读全文
摘要:
恢复内容开始 异常处理 在执行Python程序的时候,经常会有程序语句没有错误,但程序却无法执行的情况发生,这就是 异常。一般情况下,程序无法执行时会产生一个异常,程序会因此终止。异常是程序的一种特殊 错误,而不是普通的语法错误,异常通常是编写程序时没有考虑到的例外情况。异常发生后经过 妥善处理可以 阅读全文