摘要:
[A] 中国大学排名定向爬虫实例介绍 功能描述 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:request,bs4 定向爬虫:仅对输入URL进行爬取,不拓展爬取 程序的结构设计: 步骤1:从网络上获取大学排名网页内容 定义函数:getHTMLText() 阅读全文
摘要:
[A] 信息标记的三种形式 信息标记:通过网络爬虫,我们可以获取各式各样的信息,比如地址信息,姓名信息,日期信息,年代信息等,这些信息会很冗杂 通过对信息的标记,可以帮助我们更好的组织和管理这些信息 信息标记的好处: 1. 标记后的信息可形成信息组织结构,增加了信息维度 2. 标记后的信息可用于通信 阅读全文
摘要:
Beautiful Soup库的中文文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html# [A] Beautiful Soup库简介 Beautiful Soup库,也叫 beautifulsoup4 库 或 阅读全文
摘要:
[A] 京东商品页面的爬取 代码示例: import requests url = 'https://item.jd.com/70076567438.html' try: r = requests.get(url) r.raise_for_status() r.encoding = r.appare 阅读全文
摘要:
[A] 网络爬虫引发的问题 1. 当前网络爬虫根据规模可分为三种: 1. 小型规模,主要用于爬取网页,玩转网页,数据量小,并且对于爬取速度不敏感,这种爬虫可以直接通过Python提供的第三方库Requests即可实现 2. 中等规模,主要用于爬取网站,系列网站,数据量大,并且对于爬取速度有敏感性,如 阅读全文
摘要:
[A] Requests库的安装 Pycharm中自行安装第三方库 [B] Requests库的七个主要方法 方法 说明 requests.request() 构造一个请求,支持一下个方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的get方法 request 阅读全文
摘要:
[A] 主要课程内容 1. 学习 Requests 库:自动爬取HTML页面,自动发送完网络请求 2. 学习 robots.txt :网络爬虫排除标准 3. 学习 Becautiful Soup 库:能很好的解析HTML页面,并且提取相关信息 4. 实战项目A/B Projects 5. 学习正则表 阅读全文
摘要:
[A] 放大镜练习 准备工作:一张 960 * 600 的图片,并命名为 timg.jpg 示例代码: 1. style样式 <style> *{ margin: 0px; padding: 0px;} #small{ width: 480px; height: 300px; border: sol 阅读全文
摘要:
Vue中的元素 Vue中的元素都是对象,共有【5】个,分别为: 1. state: 1. state对象用于保存变量的对象 2. Vuex提出了state单一状态树(或单一数据源)的概念,即Single Source of Truth, 其思想就是将所有需要保存用来共享的信息存放在同一个state里 阅读全文
摘要:
[A] JQuery的工具方法 JQ的工具方法与我们自己封装的js方法没有任何区别 1. $.type() 输出当前数据类型 相当于typeof // 传统的typeof对于数组,字符串,日期的返回值都是对象 // 而$.type()可以更明确的返回数组,字符串和日期 2. $.trim() 删除字 阅读全文