joxin

诚信、业绩、创新

导航

2018年10月25日

摘要: 1、MNIST是一个入门级的计算机视觉数据集,它包含各种手写数字图片 数据集被分成两部分:60000行的训练数据集(mnist.train)和10000行的测试数据集(mnist.test)。 这样的切分很重要,在机器学习模型设计时必须有一个单独的测试数据集不用于训练而是用来评估这个模型的性能,从而 阅读全文

posted @ 2018-10-25 16:53 昕 阅读(132) 评论(0) 推荐(0) 编辑

摘要: 1、环境安装 1.1 vs2017+cuda9.1+cudnn7.0可以和tensorflow一起安装网上教程多,不多说。 唯一需要注意的是vs2017要安装好2015版本的工具集v140 1.2 opencv3.4.0 winpack版解压,注意目录位置,后续会用到 1.3 然后你需要找到自己所对 阅读全文

posted @ 2018-10-25 16:52 昕 阅读(2028) 评论(0) 推荐(0) 编辑

摘要: [Tensorflow]环境搭建vs2017+win10+py3.6+cuda9.1+cudnn7+tf1.5 一、安装cuda 9.1+VS2017 一路下一步即可,环境变量cuda会自动配好。 安装完后,在主目录搜索deviceQuery.exe,跑一跑测试下就好了(成功最下一句是:RESULT 阅读全文

posted @ 2018-10-25 16:51 昕 阅读(1394) 评论(0) 推荐(0) 编辑

摘要: 深度学习是机器学习的一个子集 深度学习的数学基础 阅读全文

posted @ 2018-10-25 16:49 昕 阅读(151) 评论(0) 推荐(0) 编辑

摘要: from urllib.request import quote import urllib.request from bs4 import BeautifulSoup import re import multiprocessing import os import time def start( 阅读全文

posted @ 2018-10-25 16:46 昕 阅读(409) 评论(0) 推荐(0) 编辑

摘要: ProcessPoolExecutor对multiprocessing进行了高级抽象,暴露出简单的统一接口。 异步非阻塞 爬虫 对于异步IO请求的本质则是【非阻塞Socket】+【IO多路复用】: """ 史上最牛逼的异步IO模块 """ import select import socket im 阅读全文

posted @ 2018-10-25 16:45 昕 阅读(1624) 评论(0) 推荐(0) 编辑

摘要: chromedriver禁用图片,禁用js,切换UA selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。 from 阅读全文

posted @ 2018-10-25 16:44 昕 阅读(236) 评论(0) 推荐(0) 编辑

摘要: 1、头信息检查是否频繁相同 随机产生一个headers, #user_agent 集合 user_agent_list = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/ 阅读全文

posted @ 2018-10-25 16:43 昕 阅读(256) 评论(0) 推荐(0) 编辑

摘要: 实现功能:代理、限速、深度、反爬 import re import queue import urllib.parse import urllib.robotparser import time from urllib import request from datetime import date 阅读全文

posted @ 2018-10-25 16:40 昕 阅读(341) 评论(0) 推荐(0) 编辑

摘要: 方法1 import datetime starttime = datetime.datetime.now() #long running endtime = datetime.datetime.now() print (endtime - starttime).seconds 方法 2 start 阅读全文

posted @ 2018-10-25 16:39 昕 阅读(154) 评论(0) 推荐(0) 编辑

摘要: 1、抓取目录页后用lxml进行页面解析,获取抓取列表 python3.6 urlparse模块变为urllib.parse 2、Python中有一个专门生成各类假数据的库:Faker 3、python类中函数调用要加self 基于OO方法,指向类自身的实例化,方便方法调用 4、网页编码问题 解码:d 阅读全文

posted @ 2018-10-25 16:38 昕 阅读(273) 评论(0) 推荐(0) 编辑

摘要: 1、网站robots robotparser模块首先加载robots.txt文件,然后通过can_fetch()函数确定指定的用户代理是否允许访问网页。 2、识别网站技术 3、下载网页 使用urllib库,3.6没有urllib2 根据网页加载返回错误,进行重试,增强容错性 Requests库适合网 阅读全文

posted @ 2018-10-25 16:37 昕 阅读(182) 评论(0) 推荐(0) 编辑