关于网络爬取（爬虫）01

所用到的工具：

1.尝试了chrome的firebug用来查看网站元素，发现不行，所以改用火狐F12查看元素

2.requests模块似乎比urllib模块的抓取要更高级一些

3.mashup

多线程爬虫流程：

1.抓取目标

2.爬虫分析工具firebug元素查看器，firebug在火狐高版本中被禁用了（F12同样效果）

3.查看元素代表什么----->找到重复性的节点------>确定最大节点，用来做抓取

4.urllib、scrapy、requests

5.分析数据，正则 or beautifulsoup

6.数据框dateFrame，pandas模块

import urllib.request
import requests
r = requests.get('http://money.163.com/')  # 对网易财经首页的抓取
a = r.text
f = open('C:/Users/hasee/PycharmProjects/day01/a.txt', 'r+')
f.write(a)
f.close()

=================未完待续====================
接下来更新：
1.抓取网易财经第一页的信息，并按规格输出。

posted on 2017-11-28 21:11 java小萌新(づ￣3￣) 阅读(161) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

关于网络爬取（爬虫）01

导航

公告