摘要:#使用内置time库 import time def job(): print("I'm working...") while True: job() time.sleep(10) # 每10秒执行一次 #使用schedule库 import schedule import time def job
阅读全文
|
随笔分类 - python脚本
摘要:#使用内置time库 import time def job(): print("I'm working...") while True: job() time.sleep(10) # 每10秒执行一次 #使用schedule库 import schedule import time def job
阅读全文
摘要:1、采集贝壳网站房产信息,获取字段:项目名称、地址、均价、户型、建筑面积、总价等信息。 # -*- coding: utf-8 -*- # 贝壳找房信息采集 import requests import re import time import pandas as pd from lxml imp
阅读全文
摘要:利用代理解决爬虫目标网站封ip的问题,可以使用免费的代理或者付费的代理ip,对于不可用的ip无法及时识别,可以通过搭建ip代理池提高爬虫的工作效率。1、首先所需redis库安装,redis是基于内存的高效的非关系型数据库。github下载地址:版本 3.2.100 ·微软存档/Redis ·GitH
阅读全文
摘要:1、需求:采集猫眼电影经典电影影片信息 url:https://www.maoyan.com/films?showType=3 采集页数 30104页 2、源代码如下: import random import pandas as pd import requests from lxml impor
阅读全文
摘要:1、需求:采集中科商务网区域工商信息2、需求数据字段: '名称': [title],'摘要': [content],'联系人': [lx_b],'联系电话': [tel],'电子邮件': [email],'公司地址': [address],'法定代表人': [fr],'经营状态': [state],
阅读全文
摘要:#coding:utf-8 from pymysql import connect data_list=[] # 将数据存入数据库 conn = connect(host="10.36.128.83", port=20002, database="sthjj_sthj", user="lw_lwc"
阅读全文
摘要:1、采集网址url:https://data.wenzhou.gov.cn/jdop_front/index.do 需求:获取数据资源-数据来源单位(龙湾区50)的信息 具体要获取的信息如下:名称、摘要、更新、数源单位、地址、联系方式、数据领域、访问次数、下载次数、更新日期、发布日期、数据量。 2、
阅读全文
摘要:# #coding:utf-8 # import requests # from lxml import etree # class login(object): # def __init__(self): # self.headers={ # 'Referer': 'http://www.qixi
阅读全文
|