cltt - 博客园

yield 关键字的使用

摘要： yield关键字的使用 yield —— 生成器生成器是一个不断产生值的函数包含yield语句的函数是一个生成器生成器每一次产生一个值（yield语句），函数被冻结，被唤醒后再产生一个值生成器写法 def gen(n): for i in range(n): yield i**2 for i 阅读全文

posted @ 2020-06-09 11:09 cltt 阅读(159) 评论(0) 推荐(0) 编辑

Scrapy 爬虫框架

摘要： 5+2 的结构 Scrapy爬虫框架解析 Engine模块(不需要用户修改)：控制所有模块之间的数据流；根据条件触发事件 Downloader模块（不需要用户修改）：根据请求下载网页 Scheduler模块（不需要用户修改）：对所有爬取请求进行调度管理 Downloader Middleware中间阅读全文

posted @ 2020-06-01 14:05 cltt 阅读(193) 评论(0) 推荐(0) 编辑

股票数据爬虫

摘要：老虎社区 'https://www.laohu8.com/stock/' 百度股票不行了 import requests import re from bs4 import BeautifulSoup import collections import traceback def getHtmlTe 阅读全文

posted @ 2020-05-31 15:06 cltt 阅读(386) 评论(2) 推荐(0) 编辑

为什么CNN需要固定输入图像的尺寸

摘要：全连接层的输入是固定大小的，如果输入向量的维数不固定，那么全连接的权值参数的量也是不固定的，就会造成网络的动态变化，无法实现参数训练目的。全连接层的计算其实相当于输入的特征图数据矩阵和全连接层权值矩阵进行内积，在配置一个网络时，全连接层的参数维度是固定的，所以两个矩阵要能够进行内积，则输入的特征图阅读全文

posted @ 2020-05-28 09:13 cltt 阅读(1694) 评论(0) 推荐(0) 编辑

实战 7 淘宝商品信息定向爬虫

摘要： import requests import re def getHTMLText(url): try: #淘宝用了反爬虫机制，必须提取cookie让他认为是用户在操作 headers = { "user-agent": "Mozilla/5.0", "cookie": "miid=16121344 阅读全文

posted @ 2020-05-21 12:20 cltt 阅读(913) 评论(0) 推荐(0) 编辑

正则表达式

摘要：正则表达式：regular expression regex RE 正则表达式是用来简洁表达一组字符串的表达式通用的字符串表达框架简洁表达一组字符串的表达式针对字符串表达“简洁”和“特征”思想的工具判断某字符串的特征归属正则表达式在文本处理中十分常用表达文本类型的特征（病毒、入侵等）同阅读全文

posted @ 2020-05-21 08:37 cltt 阅读(184) 评论(0) 推荐(0) 编辑

实战6 中国大学排名

摘要：功能描述输入：大学排名URL链接输出：大学排名信息的屏幕输出（排名，大学名称，总分）技术路线：requests-bs4 定向爬虫：仅对输入URL进行爬取，不扩展爬取程序的结构设计步骤1：从网络上获取大学排名网页内容 getHTMLText() 步骤2：提取网页内容中信息到合适的数据结构阅读全文

posted @ 2020-05-19 11:28 cltt 阅读(191) 评论(0) 推荐(0) 编辑

信息标记

摘要： HTML的信息标记：HTML通过预定义的<>...</>标签形式组织不同类型的信息信息标记的三种形式：XML，JSON，YAML XML JSON subkey如下所示： JSON实例 YMAL YMAL：多行文本总结来说有以下几种 YMAL实例三种信息标记形式的比较 XML 最早的通用信息阅读全文

posted @ 2020-05-18 22:31 cltt 阅读(273) 评论(0) 推荐(0) 编辑

Beautifulsoup

摘要： Beautiful Soup：解析HTML页面信息标记与提取方法获取网页源代码 import requests from bs4 import BeautifulSoup kv = {'user-agent':'Mozilla/5.0'} url = "https://python123.io/w 阅读全文

posted @ 2020-05-17 22:37 cltt 阅读(361) 评论(0) 推荐(0) 编辑

实例5：IP地址归属地的自动查询

摘要： #ip查询全代码 import requests import time url='http://www.ip138.com/ips138.asp?ip=202.204.80.112' r = requests.get(url) print(r.status_code) print(r.reques 阅读全文

posted @ 2020-05-17 22:14 cltt 阅读(1776) 评论(0) 推荐(1) 编辑