关于网络爬取(爬虫)01

所用到的工具:

1.尝试了chrome的firebug用来查看网站元素,发现不行,所以改用火狐F12查看元素

2.requests模块似乎比urllib模块的抓取要更高级一些

3.mashup

多线程爬虫流程:

1.抓取目标

2.爬虫分析工具firebug元素查看器,firebug在火狐高版本中被禁用了(F12同样效果)

3.查看元素代表什么----->找到重复性的节点------>确定最大节点,用来做抓取

4.urllib、scrapy、requests

5.分析数据,正则 or beautifulsoup

6.数据框dateFrame,pandas模块

import urllib.request
import requests
r = requests.get('http://money.163.com/') # 对网易财经首页的抓取
a = r.text
f = open('C:/Users/hasee/PycharmProjects/day01/a.txt', 'r+')
f.write(a)
f.close()

=================未完待续====================
接下来更新:
1.抓取网易财经第一页的信息,并按规格输出。

posted on 2017-11-28 21:11  java小萌新(づ ̄3 ̄)  阅读(161)  评论(0编辑  收藏  举报

导航