打赏

随笔分类 -  Python

摘要:import random import torch from d2l import torch as d2l def synthetic_data(w,b,num_examples): """生成y=Xw+b+噪声""" x = torch.normal(0,1,(num_examples,len 阅读全文
posted @ 2023-07-29 08:12 不像话 阅读(12) 评论(0) 推荐(0) 编辑
摘要:1、python关键字 python3.7中有33个关键字。所有关键字区分大小写。 False、await、else、import、pass、None、break、except、in、raise、True 、class、finally、is、return、and、continue、for、lambd 阅读全文
posted @ 2023-03-10 11:05 不像话 阅读(22) 评论(0) 推荐(0) 编辑
摘要:分布式爬虫实现步骤: 1.安装一个scrapy-redis的组件 原生的scrapy不能实现分布式爬虫,必须要让scrapy结合scrapy-redis组件一起实现分布式爬虫。原因是因为原生的scrapy的调度器和管道不可以被分布式集群共享,不能实现集群之间整体的调度。scrapy-redis组件的 阅读全文
posted @ 2023-03-08 23:28 不像话 阅读(27) 评论(0) 推荐(0) 编辑
摘要:使用selenium爬取信息,可以实现浏览器自动化操作,模拟用户的各种真是操作行为。 可以实现浏览器无头(无可视化界面)访问获取页面数据,并且规避被检测风险,添加代码如下: #浏览器自动化模块 from selenium import webdriver #实现无可视化界面 from seleniu 阅读全文
posted @ 2023-03-08 11:06 不像话 阅读(208) 评论(0) 推荐(0) 编辑
摘要:pip命令行里输入 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple opencv-python 基本上这一个命令就可以解决问题啦! 清华镜像源 https://mirrors.tuna.tsinghua.edu.cn/ 阅读全文
posted @ 2023-02-26 10:11 不像话 阅读(3005) 评论(0) 推荐(1) 编辑
摘要:基于Python的校园网自动登陆脚本 #conding:utf-8 import requests import time import os //此为深澜校园网的登陆配置,不同平台略有不同 url = "http://注册IP地址/srun_portal_pc.php?ac_id=1&" my_h 阅读全文
posted @ 2023-02-16 09:51 不像话 阅读(118) 评论(0) 推荐(0) 编辑
摘要:用到python list的二维数组,发现有一些需要注意的地方。 第一种赋值方法: list0 = [[0]*3]*4 list0[0][1] = 1 print(list0) 输出结果为: [[0, 1, 0], [0, 1, 0], [0, 1, 0], [0, 1, 0]] 第二种赋值方法: 阅读全文
posted @ 2020-05-25 09:23 不像话 阅读(606) 评论(0) 推荐(0) 编辑
摘要:首先要准备python3+scrapy+pycharm 一、首先让我们了解一下网站 拉勾网https://www.lagou.com/ 和Boss直聘类似的网址设计方式,与智联招聘不同,它采用普通的页面加载方式 我们采用scrapy中的crawlspider爬取 二、创建爬虫程序 scrapy st 阅读全文
posted @ 2019-12-03 19:05 不像话 阅读(510) 评论(0) 推荐(0) 编辑
摘要:首先准备python3+scrapy+mysql+pycharm。。。 这次我们选择爬取智联招聘网站的企业招聘信息,首先我们有针对的查看网站的html源码,发现其使用的是js异步加载的方式,直接从服务端调取json数据,这就意味着我们用地址栏的网址获取的网站内容是不全的,无法获得想要的数据。 那么我 阅读全文
posted @ 2019-12-01 13:02 不像话 阅读(2202) 评论(4) 推荐(0) 编辑
摘要:前期准备,首先要有python环境+scrapy环境+pycharm环境 一、建立爬虫所需的环境,在命令行输入: scrapy startproject doubantv #命名自定义就好 会生成一个名为doubantv的文件夹,cd进入doubantv文件夹,在进入spiders文件夹,执行命令, 阅读全文
posted @ 2019-11-23 16:08 不像话 阅读(415) 评论(0) 推荐(0) 编辑
摘要:首先了解一下Scrapy的组件: 引擎:用来处理整个系统的数据流处理,触发事务(框架核心) 调度器:用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。可以想象成一个URL的优先队列,由它来决定下一个要抓取的网址是什么,同时去除重复的网址。 下载器:用于下载网页内容,并将网页内容返回给 阅读全文
posted @ 2019-11-03 14:46 不像话 阅读(785) 评论(0) 推荐(0) 编辑
摘要:链路层 传输层 网络层 应用层 IDE 集成开发环境1.属性前面添加下划线 使对象属性私有化2. for循环迭代 iter() 生成迭代器 减少空间占用3.python语法糖 具有特殊功能的函数4.列表生成试 a = [x*2 for x in range(10)]5.类的动态创建 是指当满足某一条 阅读全文
posted @ 2019-08-30 16:36 不像话 阅读(253) 评论(0) 推荐(0) 编辑
摘要:一、创建工程(cmd) scrapy startproject xxxx 二、编写item文件 三、编写settings文件 四、进入spider文件创建自定义爬虫文件 scrapy genspider demo 'www.xxxx.com' 编写文件 五、运行 scrapy crawl xxxx 阅读全文
posted @ 2019-08-15 19:00 不像话 阅读(221) 评论(0) 推荐(0) 编辑
摘要:一、创建工程 scarpy startproject xxx 二、编写iteam文件 二、编写setting文件 三、进入spider文件(cmd创建自定义爬虫文件) scrapy genspider demo 'www.douyu.com' 编写代码 四、运行 scrapy crawl xxxx 阅读全文
posted @ 2019-08-15 18:54 不像话 阅读(231) 评论(0) 推荐(0) 编辑
摘要:一、首先创建工程(cmd中进行) scrapy startproject xxx 二、编写Item文件 添加要字段 # 简介 content = scrapy.Field() 三、进入spider文件(cmd中进行) scrapy genspider demo 'www.movie.douban.c 阅读全文
posted @ 2019-08-15 18:42 不像话 阅读(648) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示