公告

随笔分类 - python脚本

摘要：#使用内置time库 import time def job(): print("I'm working...") while True: job() time.sleep(10) # 每10秒执行一次 #使用schedule库 import schedule import time def job 阅读全文

posted @ 2024-04-15 16:42 五杀摇滚小拉夫阅读(32) 评论(0) 推荐(0)

8、采集贝壳楼盘信息网站

摘要：1、采集贝壳网站房产信息，获取字段：项目名称、地址、均价、户型、建筑面积、总价等信息。 # -*- coding: utf-8 -*- # 贝壳找房信息采集 import requests import re import time import pandas as pd from lxml imp 阅读全文

posted @ 2024-04-15 16:06 五杀摇滚小拉夫阅读(287) 评论(0) 推荐(0)

7、代理池所需相关库安装

摘要：利用代理解决爬虫目标网站封ip的问题，可以使用免费的代理或者付费的代理ip，对于不可用的ip无法及时识别，可以通过搭建ip代理池提高爬虫的工作效率。1、首先所需redis库安装，redis是基于内存的高效的非关系型数据库。github下载地址：版本 3.2.100 ·微软存档/Redis ·GitH 阅读全文

posted @ 2023-12-27 15:44 五杀摇滚小拉夫阅读(33) 评论(0) 推荐(0)

5、爬虫采集猫眼电影经典影片信息

摘要：1、需求：采集猫眼电影经典电影影片信息 url：https://www.maoyan.com/films?showType=3 采集页数 30104页 2、源代码如下： import random import pandas as pd import requests from lxml impor 阅读全文

posted @ 2023-12-11 17:11 五杀摇滚小拉夫阅读(93) 评论(0) 推荐(0)

4、爬虫脚本采集中科商务网区域工商信息

摘要：1、需求：采集中科商务网区域工商信息2、需求数据字段： '名称': [title],'摘要': [content],'联系人': [lx_b],'联系电话': [tel],'电子邮件': [email],'公司地址': [address],'法定代表人': [fr],'经营状态': [state], 阅读全文

posted @ 2023-12-05 16:34 五杀摇滚小拉夫阅读(53) 评论(0) 推荐(0)

3、python脚本连接本地mysql数据库读取表数据

摘要：#coding:utf-8 from pymysql import connect data_list=[] # 将数据存入数据库 conn = connect(host="10.36.128.83", port=20002, database="sthjj_sthj", user="lw_lwc" 阅读全文

posted @ 2023-11-27 11:26 五杀摇滚小拉夫阅读(77) 评论(0) 推荐(0)

2、python脚本采集温州市数据开放平台数据

摘要：1、采集网址url：https://data.wenzhou.gov.cn/jdop_front/index.do 需求：获取数据资源-数据来源单位（龙湾区50）的信息具体要获取的信息如下：名称、摘要、更新、数源单位、地址、联系方式、数据领域、访问次数、下载次数、更新日期、发布日期、数据量。 2、阅读全文

posted @ 2023-11-13 16:19 五杀摇滚小拉夫阅读(147) 评论(0) 推荐(0)

1、python脚本模拟登陆启信宝

摘要：# #coding:utf-8 # import requests # from lxml import etree # class login(object): # def __init__(self): # self.headers={ # 'Referer': 'http://www.qixi 阅读全文

posted @ 2023-10-11 11:19 五杀摇滚小拉夫阅读(104) 评论(0) 推荐(0)