五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
  188 随笔 :: 0 文章 :: 19 评论 :: 99707 阅读

随笔分类 -  python脚本

摘要:#使用内置time库 import time def job(): print("I'm working...") while True: job() time.sleep(10) # 每10秒执行一次 #使用schedule库 import schedule import time def job 阅读全文
posted @ 2024-04-15 16:42 五杀摇滚小拉夫 阅读(11) 评论(0) 推荐(0) 编辑

摘要:1、采集贝壳网站房产信息,获取字段:项目名称、地址、均价、户型、建筑面积、总价等信息。 # -*- coding: utf-8 -*- # 贝壳找房信息采集 import requests import re import time import pandas as pd from lxml imp 阅读全文
posted @ 2024-04-15 16:06 五杀摇滚小拉夫 阅读(196) 评论(0) 推荐(0) 编辑

摘要:利用代理解决爬虫目标网站封ip的问题,可以使用免费的代理或者付费的代理ip,对于不可用的ip无法及时识别,可以通过搭建ip代理池提高爬虫的工作效率。1、首先所需redis库安装,redis是基于内存的高效的非关系型数据库。github下载地址:版本 3.2.100 ·微软存档/Redis ·GitH 阅读全文
posted @ 2023-12-27 15:44 五杀摇滚小拉夫 阅读(9) 评论(0) 推荐(0) 编辑

摘要:1、需求:采集猫眼电影经典电影影片信息 url:https://www.maoyan.com/films?showType=3 采集页数 30104页 2、源代码如下: import random import pandas as pd import requests from lxml impor 阅读全文
posted @ 2023-12-11 17:11 五杀摇滚小拉夫 阅读(57) 评论(0) 推荐(0) 编辑

摘要:1、需求:采集中科商务网区域工商信息2、需求数据字段: '名称': [title],'摘要': [content],'联系人': [lx_b],'联系电话': [tel],'电子邮件': [email],'公司地址': [address],'法定代表人': [fr],'经营状态': [state], 阅读全文
posted @ 2023-12-05 16:34 五杀摇滚小拉夫 阅读(35) 评论(0) 推荐(0) 编辑

摘要:#coding:utf-8 from pymysql import connect data_list=[] # 将数据存入数据库 conn = connect(host="10.36.128.83", port=20002, database="sthjj_sthj", user="lw_lwc" 阅读全文
posted @ 2023-11-27 11:26 五杀摇滚小拉夫 阅读(45) 评论(0) 推荐(0) 编辑

摘要:1、采集网址url:https://data.wenzhou.gov.cn/jdop_front/index.do 需求:获取数据资源-数据来源单位(龙湾区50)的信息 具体要获取的信息如下:名称、摘要、更新、数源单位、地址、联系方式、数据领域、访问次数、下载次数、更新日期、发布日期、数据量。 2、 阅读全文
posted @ 2023-11-13 16:19 五杀摇滚小拉夫 阅读(73) 评论(0) 推荐(0) 编辑

摘要:# #coding:utf-8 # import requests # from lxml import etree # class login(object): # def __init__(self): # self.headers={ # 'Referer': 'http://www.qixi 阅读全文
posted @ 2023-10-11 11:19 五杀摇滚小拉夫 阅读(45) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示