洗礼灵魂,修炼python(8)--高效的字典

python几大核心之——字典(dict)

1.什么是字典

学生时代都用过字典吧?通过这个字的读音或者偏旁就能用字典查到其相关信息,词性,意思,组词,造句,还有在什么场合下用这个字等等的。

在python中的这个字典,其实原理是一样的,当然,python里的这个字典肯定不是用来查字的,是用来查我们需要的数据的,不过,如果你真要用python字典来查哪个字也是可以的,通过python的网络爬虫来查字就行,而且不止查字,可以查很多东西。

字典的特征号是花括号{}

2.字典的作用:

用来关联数组,或者叫归类数据

3.创建字典的多种方式:

a:直接赋值创建

 此处可以看出字典和前面列表,元组,集合都不同的,[‘x‘]是key,中文名叫键,用[:]连接,[1]是value,中文名叫值,这三者合在一起作为字典的一个元素。一般称呼字典内一个元素为键值对

b:通过工厂函数dict和关键字参数创建(什么是关键字参数后面的章节会提到)

c:通过二元组列表创建

d:dict和zip结合创建

zip函数,可以将两个对象结合在一起:

 

注意python2和python3中zip函数的区别,上面两张图已经给出

 

e:通过dict.fromkeys()创建

注意fromkeys()方法的用法,自行体会

 

3.字典的方法

python2:

python3:

 因为前后两者差别确实挺大的,结合实际,我就折中抽取都常用的几个:

clear,copy,fromkeys,get,items,keys,pop,popitem,update,setdefault,values

clear:清楚所有,和前一章集合的clear方法几乎一样,不再解析

copy:拷贝,和前一章集合的copy方法几乎一样,也不再解析

fromkeys:生成一个字典对象,上面创建字典时已经讲解

get:根据给的键返回值

 

注意:get方法,第一个参数是字典的键,第二个参数可有可无。如果访问的字典的键不存在,默认不返回任何东西,如果加入了第二个参数,键不存在则返回给定的第二个参数,但是必须符合python的语法规则

items:以列表的形式返回字典的所有键值对

keys:以列表的形式返回字典的所有键,和items原理相同不再展示

values:以列表的形式返回字典的所有值,和items原理相同不再展示

pop:给定键,删除对应的键值对并返回

popitem:按照字典优先级的排序(或者叫随机)进行删除并返回

update:和集合的update方法几乎一样,用另一个字典更新该字典

 

setdefault:添加元素,并可以设置一个默认值

 

但是如果在设定key时,其key已经存在字典的话,则会不变:

 4.字典可以像列表使用索引一样访问+修改,但是字典使用的键,而非索引,字典没有索引

 

5.字典是可变对象,支持原处修改,也就是ID不变,相信也应该不用演示了

6.字典可以做变量解包:

但是元素个数必须对应,不然报错。

 

注意:字典的键必须是可哈希的值。

什么是可哈希,这里又得提到一个内置函数——hash()

【可哈希】你可以理解为可被作为依据查找,并且具有唯一对应的含义,因为字典里的键不可能对应多个值,反之一个值不能对应多个键的。而哈希函数就是判断此对象或者说此元素是否可哈希,如果不可哈希则会报错,上面的列表就是不可哈希,因为列表是可以原处修改的对象,比如,你今天介绍给一个人,后面你再去找他还钱,你发现他居然会易容术,你之前记住的他的样子已经不能帮助你找到他了,所以你的钱就找不回来了(比喻有些逻辑漏洞,理解原理就行。)。根据这个比喻,你应该知道能原处修改的对象作为键的话不可能有唯一对应的值了吧?所以列表是不能作为键,也就不可哈希,上面的报错就很好理解了。

 

而字典本身是不可哈希的,字典的键才是可哈希的。因为字典也支持原处修改

 

你应该要问,为什么字典的键必须得可哈希呢?

个人理解:开头提到的学生时代所用的字典,你在查一个字的时候,是需要得到它的读音或者偏旁部首,再按照字典前页的拼音表或者部首表来查跟着查,就能查到其字在哪,而这里的键就好比你知道的读音或者偏旁,用其来作为依据就会很快在字典的键里搜索这个键,然后立马返回这个键对应的值,而在大数据处理时,一般都是用字典再加上哈希算法来存储数据的,因为哈希算法可以高效快速的查找键所在位置,字典得到这个键再把对应的值反馈出来就行。它不像列表,元组那样,因为列表和元组是有序的,列表和元组默认的查找方式是从索引值为0开始查,换句话就是从头到尾开始查,当数据很大时,这样处理起来的速度是很慢的,用字典直接秒杀列表。

 说个实际的例子,像百度等搜索引擎,其实就是用爬虫程序每天在不断爬网页,并结合一些叫清风算法之类的算法(做SEO的对这些应该很了解)存储关键字通过放在字典里并存在服务器里,然后当用户用关键词搜索内容时,百度搜索引擎就会很快有反应,把事先存放在字典里包含这个关键词所有相关的信息立马反馈给用户,这一两句话的过程,真正的实现其实大概就一眨眼的功夫(是不是有种感觉我在写小说 /手动滑稽),原理是这样的,其实搜索引擎当然不止像我说的这么简单,还有很多复杂的算法来结合实现,不然不可能达到这么快的速度的。好,不多说了。总之,你知道字典很强大就行了。

posted @ 2017-09-30 21:58  Eeyhan  阅读(375)  评论(0编辑  收藏  举报