python学习(re0)day 5

2019/6/28

一、前言

今天是学习python爬虫的第五天

二、学习内容

1、导入selenium库

from selenium import webdriver

2、导入Keys(键盘和鼠标控制)库

from selenium.webdriver.common.keys import Keys

3、导入time库

import time

4、异常

try:
# 捕获异常
except Exception as e:
    print(e)

# 最后都会把驱动浏览器关闭掉
finally:
    driver.close()

5、f-string方法

#新方法（f-string）

#从Python 3.6开始，f-string是格式化字符串的一种很好的新方法。与其他格式化方式相比，#它们不仅更易读，更简洁，不易出错，而且速度更快！
#1、在字符串前面加上 f。

#2、在字符串内部，将需要连接的变量用 {} 括起来即可。

#示例：

a = f'input:{input},output:{output}'

三、作业

from selenium import webdriver
# 导入键盘Keys
from selenium.webdriver.common.keys import Keys
import time

driver = webdriver.Chrome()

# 检测代码块
try:
    # 隐式等待，等待标签加载
    driver.implicitly_wait(10)

    # 往京东主页发送请求
    driver.get('https://www.jd.com/')

    # 通过id查找input输入框
    input_tag = driver.find_element_by_id('key')

    # send_keys为当前标签传值
    input_tag.send_keys('中华字典')

    # 按键盘的回车键
    input_tag.send_keys(Keys.ENTER)

    time.sleep(3)

    '''
    爬取京东商品信息:
        公仔
            名称
            url
            价格
            评价
    '''
    # element 找一个
    # elements 找多个
    # 查找所有的商品列表
    good_list = driver.find_elements_by_class_name('gl-item')
    # print(good_list)

    # 循环遍历每一个商品
    for good in good_list:
        # 通过属性选择器查找商品详情页url
        # url
        good_url = good.find_element_by_css_selector('.p-img a').get_attribute('href')
        print(good_url)

        # 名称
        good_name = good.find_element_by_css_selector('.p-name em').text
        print(good_name)

        # 价格
        good_price = good.find_element_by_class_name('p-price').text
        print(good_price)

        # 评价数
        good_commit = good.find_element_by_class_name('p-commit').text
        print(good_commit)


        str1 = f'''
        url: {good_url}
        名称: {good_name}
        价格: {good_price}
        评价: {good_commit}
        \n
        '''
        # 把商品信息写入文本中
        with open('jd1.txt', 'a', encoding='utf-8') as f:
            f.write(str1)


    time.sleep(30)

# 捕获异常
except Exception as e:
    print(e)

# 最后都会把驱动浏览器关闭掉
finally:
    driver.close()

四、总结

这个星期学习了python的爬虫知识,但是因为没有学习过前端的知识,比如css和html的知识.学起来有点步履维艰,但是在老师的指导下,还是成功爬取了梨视频和豆瓣网的一些资源,今天也成功实现了从京东网上下载记录.

posted @ 2019-06-28 21:39 青藤门下走狗阅读(116) 评论(0) 编辑收藏举报

刷新页面返回顶部

python学习(re0)day 5

2019/6/28

一、前言

二、学习内容

四、总结

公告