Scrapy的基本使用

创建一个scrapy项目

  • 在终端输入:
scrapy startproject <项目名>

  • 接下可以用pycharm打开

写爬虫代码

  • 在文件夹spiders里面写自己的爬虫代码
import scrapy


class MassageSpider(scrapy.Spider):
   name = 'msg_crawl'  # 爬虫的名字,一定要给
   start_urls = ['http://www.cae.cn/cae/html/main/col48/column_48_1.html']  # 起始的url

   # 对爬到的网页进行解析
   def parse(self, response, **kwargs):
       print(response.url)
  • response会自动去获取start_urls里面的url
  • 启动爬虫:
scrapy crawl <爬虫的名字>

eg

scrapy crawl msg_crawl

记得切换到根目录

爬取中科院院士信息为例

"""
# @Time    :  2020/8/27
# @Author  :  Jimou Chen
"""
import scrapy
from bs4 import BeautifulSoup


class MassageSpider(scrapy.Spider):
    name = 'msg_crawl'  # 爬虫的名字,一定要给
    start_urls = ['http://www.cae.cn/cae/html/main/col48/column_48_1.html']  # 起始的url

    # 对爬到的网页进行解析
    def parse(self, response, **kwargs):
        soup = BeautifulSoup(response.body, 'html.parser')
        nodes = soup.find_all('li', {'class': 'name_list'})
        i = 0
        for node in nodes:
            i += 1
            people_name = node.find('a').text
            link = 'http://www.cae.cn/' + node.find('a')['href']
            print('{}. {}: {}'.format(i, people_name, link))

  • 结果如下:

  • 所以基本上处理网页就是在 def parse(self, response, **kwargs) 这里了

posted @ 2020-08-27 17:43  JackpotNeaya  阅读(167)  评论(0编辑  收藏  举报