爬虫之一：爬补天厂商数据（爬虫）

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

#coding:utf-8
import re,urllib
 
def gethtml(url):
  page = urllib.urlopen(url)
  html=page.read()
  return html
 
def getlink(html):
 
  link = re.findall(r'<td  align="left" style="padding-left:20px;">(.*?)</td>',html)
  #linklist = re.findall(link,html)
  return link
 
def save(links):
  f=open('360.txt','a')
  for i in links:
    f.write(i+"\n")
    #f.close()
    #print 'ok'  
 
for page in range(11, 200):
  url = "https://butian.360.cn/company/lists/page/" +str(page)
  html = gethtml(url)
  print str(page)+"ye"
  links = getlink(html)
  print links
  save(links)
  

　　

posted @ 2016-01-29 16:02 anything good 阅读(515) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区，博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】博客园社区专享云产品让利特惠，阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· DeepSeek 解答了困扰我五年的技术问题
· 为什么说在企业级应用开发中，后端往往是效率杀手？
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考

阅读排行：
· 为什么说在企业级应用开发中，后端往往是效率杀手？
· DeepSeek 解答了困扰我五年的技术问题。时代确实变了！
· 本地部署DeepSeek后，没有好看的交互界面怎么行！
· 趁着过年的时候手搓了一个低代码框架
· 推荐一个DeepSeek 大模型的免费 API 项目！兼容OpenAI接口！

公告

昵称： anything good
园龄： 10年5个月
粉丝： 18
关注： 4

<

2025年2月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

1

2

3

4

5

6

7

8

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:ThinkPHP 3.1、3.2一个通用的漏洞分析
你好，这个是user那个参数的问题吗
--旧事重提
2. Re:无法识别的属性“targetFramework”。请注意属性名称区分大小写。错误解决办法
看右边的“操作”-》点击“更改.NET Framework 版本”，更改了但是没有用
--不瘦25斤不换头像
3. Re:无法识别的属性“targetFramework”。请注意属性名称区分大小写。错误解决办法
、打开ISAPI和CGI限制
这个在哪里啊
--不瘦25斤不换头像
4. Re:WCF 404.3 MIME 映射错误
老贾。。。
--阿漓
5. Re:SoYun社工库最新源码以及审计出的漏洞报告信息
确实有注入。
--1e1e1e