2020 年 5月随笔档案 - cltt

股票数据爬虫

摘要：老虎社区 'https://www.laohu8.com/stock/' 百度股票不行了 import requests import re from bs4 import BeautifulSoup import collections import traceback def getHtmlTe 阅读全文

posted @ 2020-05-31 15:06 cltt 阅读(387) 评论(2) 推荐(0) 编辑

为什么CNN需要固定输入图像的尺寸

摘要：全连接层的输入是固定大小的，如果输入向量的维数不固定，那么全连接的权值参数的量也是不固定的，就会造成网络的动态变化，无法实现参数训练目的。全连接层的计算其实相当于输入的特征图数据矩阵和全连接层权值矩阵进行内积，在配置一个网络时，全连接层的参数维度是固定的，所以两个矩阵要能够进行内积，则输入的特征图阅读全文

posted @ 2020-05-28 09:13 cltt 阅读(1720) 评论(0) 推荐(0) 编辑

实战 7 淘宝商品信息定向爬虫

摘要：import requests import re def getHTMLText(url): try: #淘宝用了反爬虫机制，必须提取cookie让他认为是用户在操作 headers = { "user-agent": "Mozilla/5.0", "cookie": "miid=16121344 阅读全文

posted @ 2020-05-21 12:20 cltt 阅读(922) 评论(0) 推荐(0) 编辑

正则表达式

摘要：正则表达式：regular expression regex RE 正则表达式是用来简洁表达一组字符串的表达式通用的字符串表达框架简洁表达一组字符串的表达式针对字符串表达“简洁”和“特征”思想的工具判断某字符串的特征归属正则表达式在文本处理中十分常用表达文本类型的特征（病毒、入侵等）同阅读全文

posted @ 2020-05-21 08:37 cltt 阅读(185) 评论(0) 推荐(0) 编辑

实战6 中国大学排名

摘要：功能描述输入：大学排名URL链接输出：大学排名信息的屏幕输出（排名，大学名称，总分）技术路线：requests-bs4 定向爬虫：仅对输入URL进行爬取，不扩展爬取程序的结构设计步骤1：从网络上获取大学排名网页内容 getHTMLText() 步骤2：提取网页内容中信息到合适的数据结构阅读全文

posted @ 2020-05-19 11:28 cltt 阅读(191) 评论(0) 推荐(0) 编辑

信息标记

摘要：HTML的信息标记：HTML通过预定义的<>...</>标签形式组织不同类型的信息信息标记的三种形式：XML，JSON，YAML XML JSON subkey如下所示： JSON实例 YMAL YMAL：多行文本总结来说有以下几种 YMAL实例三种信息标记形式的比较 XML 最早的通用信息阅读全文

posted @ 2020-05-18 22:31 cltt 阅读(276) 评论(0) 推荐(0) 编辑

Beautifulsoup

摘要：Beautiful Soup：解析HTML页面信息标记与提取方法获取网页源代码 import requests from bs4 import BeautifulSoup kv = {'user-agent':'Mozilla/5.0'} url = "https://python123.io/w 阅读全文

posted @ 2020-05-17 22:37 cltt 阅读(361) 评论(0) 推荐(0) 编辑

实例5：IP地址归属地的自动查询

摘要：#ip查询全代码 import requests import time url='http://www.ip138.com/ips138.asp?ip=202.204.80.112' r = requests.get(url) print(r.status_code) print(r.reques 阅读全文

posted @ 2020-05-17 22:14 cltt 阅读(1783) 评论(0) 推荐(1) 编辑

实例4：网络图片的爬取和存储

摘要：网络图片链接的格式：http://www.example.com/picture.jpg 图片爬取代码 import requests import os #url = 'https://image.baidu.com/search/detail?ct=503316480&z=&tn=baiduim 阅读全文

posted @ 2020-05-17 17:18 cltt 阅读(388) 评论(0) 推荐(0) 编辑

实例3：百度360搜索关键词提交

摘要：百度搜索 import requests keyword = 'Python' try: kv = {'wd':keyword} r = requests.get('http://www.baidu.com/s',params=kv) print(r.request.url) r.raise_for 阅读全文

posted @ 2020-05-17 16:34 cltt 阅读(1111) 评论(0) 推荐(0) 编辑

爬虫实战2 亚马逊

摘要：import requests r= requests.get('https://www.amazon.cn/dp/B01MYH8A99') print(r.status_code) r.encoding = r.apparent_encoding print(r.text) print(r.req 阅读全文

posted @ 2020-05-17 11:58 cltt 阅读(404) 评论(0) 推荐(0) 编辑

爬虫实战1 京东

摘要：url="https://item.jd.com/100012881854.html" kv = {'user-agent':'Mozilla/5.0'} r = requests.get(url,headers = kv) print(r.status_code) print(r.encoding 阅读全文

posted @ 2020-05-17 11:51 cltt 阅读(464) 评论(0) 推荐(1) 编辑

爬虫带来的问题

摘要：爬虫的限制来源审查发布公告 Robots协议实例 Robots协议基本语法 robots协议都在根目录下 Robots协议的遵守方式使用网络爬虫：自动或人工识别robots.txt,再进行内容爬取。约束性如何遵守阅读全文

posted @ 2020-05-17 11:38 cltt 阅读(179) 评论(0) 推荐(0) 编辑

requests 简介

摘要：import requests r = requests.get('http://www.baidu.com') print(r.status_code) r.encoding = 'utf-8'#不然会乱码 print(r.text) 200<!DOCTYPE html><!--STATUS OK 阅读全文

posted @ 2020-05-17 09:05 cltt 阅读(269) 评论(0) 推荐(0) 编辑

python 判断灰度图像

摘要：from PIL import Image import matplotlib.pyplot as plt # 黑白照片（灰度图）识别 def isGrayMap(img, threshold = 15): """ 入参： img：PIL读入的图像 threshold：判断阈值，图片3个通道间差的方阅读全文

posted @ 2020-05-16 15:00 cltt 阅读(2460) 评论(0) 推荐(0) 编辑

Windows10 许可证即将过期

摘要：这里提出一种KMS的方式通过kms命令激活win10 微软官方正版win10 VL批量激活密钥汇总(永久有效) Win10 KMS客户端安装序列号，支持1511-1809-1903-1909等全系列win10版本： Windows 10 Professional(专业版)：W269N-WFGWX- 阅读全文

posted @ 2020-05-14 09:29 cltt 阅读(720) 评论(0) 推荐(0) 编辑

Flask 列表操作

摘要：filter.html 在templates 文件夹下  {{ [1,2,3,4,5,6] | first }} <br> {{ [1,2,3,4,5,6] | last }} <br> {{ [1,2,3,4,5,6] | length }} <br> {{ [1,2,3 阅读全文

posted @ 2020-05-07 10:41 cltt 阅读(673) 评论(0) 推荐(0) 编辑

Flask 字符串操作

摘要：from flask import Flask,request, jsonify, redirect, url_for,abort,make_response,session,render_template app = Flask(__name__) @app.route('/') def inde 阅读全文

posted @ 2020-05-06 15:58 cltt 阅读(771) 评论(0) 推荐(0) 编辑

Flask Cookie , Session

摘要：''' 用户登录状态保持 Cookie :指某些网站为了辨别用户身份，进行会话跟踪而存储用户在本地的数据存储在浏览器当中的一段纯文本，不同域名 Cookie 是不能互相访问的 session:请求上下文对象，用于处理http请求中的一些数据内容 # 在服务器保持session # Session 阅读全文

posted @ 2020-05-05 13:15 cltt 阅读(117) 评论(0) 推荐(0) 编辑

Flask 请求勾子

摘要：1 '''客户端服务器交互的时候有些准备工作或扫尾工作需要处理 2 在请求开始时，建立数据库连接 3 在请求开始时，根据需求进行权限验证 4 在请求结束时，指定数据的交互格式 5 6 ''' 7 8 from flask import Flask,abort 9 app = Flask(__n 阅读全文

posted @ 2020-05-05 10:34 cltt 阅读(105) 评论(0) 推荐(0) 编辑

Flask 应用技巧

摘要：自定义模版减少开发时间点击Define OK 输入flask_model 回车自定生成模版模版具体内容可在Template text:内编辑阅读全文

posted @ 2020-05-05 10:01 cltt 阅读(107) 评论(0) 推荐(0) 编辑

WPS 模拟手写签名

摘要：1.在白纸上签好名，拍照裁剪。 2.插入图片 3.调节大小合适 4.先调节对比度，再调节亮度（一般为增大）阅读全文

posted @ 2020-05-05 09:20 cltt 阅读(1416) 评论(0) 推荐(0) 编辑

Flask 正则匹配路由、异常

摘要：''' 正则匹配路由：根据自己的规则去限定参数在进行访问应用场景：限制用户访问具体实现步骤：导入转换器基类：在flask中，所有的路由匹配规则都是使用转换器对象进行记录自定义转换器：自定义类继承于转换器类添加转换器到默认的转换器字典中使用自定义转换器实现自定义匹配规则 ''' from 阅读全文

posted @ 2020-05-04 18:01 cltt 阅读(395) 评论(0) 推荐(0) 编辑

FLASK 加载配置、简单传参调用、指定请求方式、返回json、网页跳转（也可以自己的视图函数）、自定义状态码

摘要：1 # 状态码 2 # 200 请求已成功 3 #302 暂时性转移(重定向) 4 from flask import Flask,request,jsonify,redirect,url_for 5 #redict 重定向可实现网页跳转 6 # 创建一个app应用，__name__指向程序所在的阅读全文

posted @ 2020-05-04 10:38 cltt 阅读(302) 评论(0) 推荐(0) 编辑

GET POST区别

摘要：表单提交中get和post方式的区别有5点 1.get是从服务器上获取数据，post是向服务器传送数据。 2.get是把参数数据队列加到提交表单的ACTION属性所指的URL中，值和表单内各个字段一一对应，在URL中可以看到。post是通过HTTPpost机制，将表单内各个字段与其内容放置在HTML 阅读全文

posted @ 2020-05-04 10:09 cltt 阅读(147) 评论(0) 推荐(0) 编辑

科学计数法1

摘要：科学记数法是科学家容易处理非常大或非常小的数字的方法。该符号与正则表达式[+-][1-9].[0-9]+E[+-][0-9]+匹配，这意味着整数部分只有一个数字，小数部分至少有一个数字，并且即使数字及其指数符号为正，也始终提供数字及其指数符号。现在给定一个实数a，在科学记数法中，你应该在传统记数法中阅读全文

posted @ 2020-05-03 18:29 cltt 阅读(487) 评论(0) 推荐(0) 编辑

GPU服务器

摘要：机客云 https://www.jikecloud.net/ 注册送优惠券用jupyter notebook 进行深度学习上传数据大的数据集需要压缩在上传，上传后的文件在/data /data 用来中转数据，该目录容量巨大且数据不会丢失，但直接在它下面压缩或解压速度会非常慢。下面的目录可用阅读全文

posted @ 2020-05-02 22:05 cltt 阅读(402) 评论(0) 推荐(0) 编辑

最长对称子串

摘要：样例 123123 6 1211 3 1 232 4 5 数据量不大 1 //暴力 2 #include<bits/stdc++.h> 3 using namespace std; 4 string s,s1,s2; 5 int l1; 6 int main() 7 { 8 //数据量不大，可以2重阅读全文

posted @ 2020-05-02 11:41 cltt 阅读(190) 评论(0) 推荐(0) 编辑

排版

摘要：目录自动生成自动生成目录步骤： 1.把标题设置为如果对标题不满意，可以更改格式 2.引用--目录如果出现一些标题未显示或显示不合理，可以在视图大纲把对应的标题设置为1级，2级，正文这样的删除目录的某部分内容可以先选中，再删除插入参考文献 1.可以在知网或者谷歌学术、百度学术搜索论文，阅读全文

posted @ 2020-05-01 14:15 cltt 阅读(148) 评论(0) 推荐(0) 编辑

05 2020 档案

导航

统计

公告

搜索

常用链接

随笔档案