随笔分类 -  python / python爬虫

摘要:一、准备工作 1、下载代码 githu地址:https://github.com/jhao104/proxy_pool.git gitee地址:https://gitee.com/Colo330/proxy_pool.git 个人蓝奏云:https://wwgs.lanzoub.com/ilzLo1 阅读全文
posted @ 2023-10-11 13:17 AubeLiang 阅读(310) 评论(0) 推荐(0) 编辑
摘要:import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, li 阅读全文
posted @ 2023-04-22 16:46 AubeLiang 阅读(143) 评论(0) 推荐(0) 编辑
摘要:一,获取链家独特的命名链接(全拼+缩写) 1、由上可知,链家的网页链接是采取城市名称缩写加普通链接的形式。 及 城市缩写+lianjia.com 但是存在一些问题,有部分城市的命名可能与其他城市重复,所以在这里,我需要重新获取链家的所有城市缩写命名 2、具体代码如下,这里我直接通过第二种方法拿到链接 阅读全文
posted @ 2023-03-15 02:04 AubeLiang 阅读(386) 评论(3) 推荐(0) 编辑
摘要:爬取大乐透历史中奖数据 import requests from lxml import etree import pprint #import json url='http://datachart.500.com/dlt/history/newinc/history.php?limit=23020 阅读全文
posted @ 2023-02-26 00:27 AubeLiang 阅读(266) 评论(0) 推荐(0) 编辑
摘要:import requestsimport re code=input('请输入本次兑换码:')# 使用readline()读文件f = open("pcid.txt",encoding='utf-8')tcnt=0fcnt=0while True: line = f.readline() if l 阅读全文
posted @ 2022-06-15 18:28 AubeLiang 阅读(47) 评论(0) 推荐(0) 编辑
摘要:一、大数据职位数据分析与挖掘 1、数据爬取 import requests import pprint import re import json import csv import time f = open('300-724.csv',mode = 'a',encoding = 'gbk',ne 阅读全文
posted @ 2022-05-31 16:52 AubeLiang 阅读(570) 评论(1) 推荐(0) 编辑
摘要:一、目标 通过对Scrapy爬取项目的设计与实现,掌握Scrapy框架的用法和Mysql的基本操作,学会使用Scrapy框架爬取网页数据并保存至数据库 二、分析网页结构 三、创建Scrapy项目并命名为douban scrapy startproject douban 四、编写或修改代码 1.修改s 阅读全文
posted @ 2022-04-28 22:01 AubeLiang 阅读(587) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示