随笔分类 -  爬虫

使用Python进行数据采集。
爬虫-姓名测试打分2
摘要:一、获取汉字 import pandas as pd import requests from bs4 import BeautifulSoup session=requests.session() #http://xh.5156edu.com/pinyi.html 所有拼音的导航地址 #https 阅读全文

posted @ 2022-01-22 11:19 andy_1 阅读(168) 评论(0) 推荐(0) 编辑

爬取-姓名测试打分
摘要:从姓名测试网站 爬去,所有‘李金’开头的三个字的名字对应的得分,取拍分比较高的名字。 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Thu Jan 30 12:45:02 2020 4 5 @author: Administrator 6 """ 7 8 阅读全文

posted @ 2022-01-22 11:13 andy_1 阅读(69) 评论(0) 推荐(0) 编辑

爬取百度搜索信息
摘要:**********目的: 搜索‘同盾’‘中标’‘信贷’关键词信息 **********爬虫效果: **********参看学习爬虫教程: 透彻讲解使用Selenium的网站: http://www.python3.vip/tut/auto/selenium/01/ Selenium学习网址: ht 阅读全文

posted @ 2021-03-17 09:04 andy_1 阅读(362) 评论(0) 推荐(0) 编辑

企业信息爬虫
摘要:天眼查、启信宝、企查查等,会有提供企业工商信息。例如,百度百科使用启信宝数据源。天眼查获取方法:1. 天眼查付费接口:https://open.tianyancha.com/open/1001。按次收费预计:0.7元/次。2. 自己爬取‘企查查’数据。网上有很多Python对应案例,预计折腾一天可以 阅读全文

posted @ 2020-10-09 10:47 andy_1 阅读(844) 评论(0) 推荐(0) 编辑

使用python爬去国家民政最新的省份代码的程序,requests,beautifulsoup,lxml
摘要:使用的python3.6 民政网站,不同年份数据可能页面结构不一致,这点踩了很多坑,这也是代码越写越长的原因。 如果以后此段代码不可用,希望再仔细学习下 页面结构是否发生了变更。 阅读全文

posted @ 2019-09-09 11:16 andy_1 阅读(377) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示