day05

回顾

上节课的回顾

数据类型

对事物的状态 分类

数字类型:

整型 int:

  1. 定义方式:

    x = 10
    x = int(10)
    x = int('10')
    
  2. 使用方法:+-*/ % // **

浮点型 float:

  1. 定义方式:

    x = 10.1
    x = float(10.1)
    x = float(10)
    x = float('10.1')
    
  2. 使用方法:+-*/ % // **

字符串 str:

  1. 定义方式:

    name='mqb'
    
  2. 使用方法:索引取值/索引切片

    ​ startswith()以。。开头

    ​ endswith()以。。结尾

    ​ join()以字符串内的内容拼接列表内的元素

    列表list

    1. 定义方式:【】内以逗号隔开多个元素(任意数据类型)

    2. 使用方法:索引取值、索引切片

      ​ append 往后加值

      ​ del 删除值

字典 dict

  1. 定义方式:{}内以逗号隔开多个键值对 key(具有描述意义):value(任意数据类型)

  2. 使用方法:按key取值、按key修改值、按key增加值、del按key删除值

jieba模块

用来分割一段内容

wordcloud模块

生成词云图

今日所学

什么是文件

文件就是操作系统提供的虚拟单位,用来存储信息

什么是文本

.txt/.py/.xml/.word等存储的是文字

如何通过文本编辑器去控制txt文件

  1. 找到文件路径
  2. 通过记事本打开文件
  3. 读取/修改文件
  4. 保存
  5. 关闭文件

打开文件的三种模式

r 只读不可写

w 只写不可读(先清空再写)

a 只读不可写(直接追加在文本末尾)

t和b模式

b:gbk/utf8只针对文本,所以音频文件需要通过rb模式打开----》读取二进制,b不能单独使用,要搭配r/w/a

t:针对文本文件,t不能单独使用,要搭配r/w/a

with

with可以自动关闭文本文件

爬虫课程

requests库

selenium库

什么是爬虫?

爬虫指的是爬取数据

什么是数据?

​ 互联网中能看到的都是数据。

爬虫的比喻

​ 把数据比喻成一座宝藏,爬虫其实就是在挖取宝藏。

爬虫的原理

  1. 发送请求---》requests,selenium
  2. 获取数据---》无需自己做
  3. 解析获取有价值的数据---》re正则模块(内置)
  4. 保存数据---》文件处理

.*?贪婪匹配,匹配所有

posted @ 2019-08-27 18:51  mqb11  阅读(117)  评论(0编辑  收藏  举报