Python面试知识点小结

一.Python基础

　　1.Python语言特性：

　　　　动态型（运行期确定类型，静态型是编译型确定类型），强类型（不发生隐式转换，弱类型，如PHP，JavaScript就会发生隐患式转换）

　　2.Python作为后端语言的优缺点：

　　　　优点：

　　　　　　胶水语言，轮子多，应用广泛；语言灵活，生产力高

　　　　缺点：

　　　　　　性能问题，代码维护问题，python2/3不兼容问题

　　3.鸭子类型：

　　　　“当一只鸟走起来像鸭子，游泳像鸭子，叫起来像鸭子，那么这只鸟就能被称为鸭子”

　　　　关注点在对象的行为，而不是类型；

　　　　如file，StringIO，socket都支持read/write方法（file类型）

　　　　定义了__iter__就可以用for迭代

　　4.monkey patch（猴子补丁）：

　　　　就是运行时替换

　　　　4.1比如gevent需要修改内置的socket和select:

　　　　4.2自己写的猴子补丁：

　 5.is和==：

　　　　is是判断是否为同一个对象（id内存地址是否相同），==是判断值是否相同

　　6.列表，生成器，字典推导：

　　7.Python之禅：

　　　　Tim Peters编写的关于Python编程的规则；

　　　　import this查看，编程拿不准可以查看：

优美胜于丑陋（Python 以编写优美的代码为目标）

明了胜于晦涩（优美的代码应当是明了的，命名规范，风格相似）

简洁胜于复杂（优美的代码应当是简洁的，不要有复杂的内部实现）

复杂胜于凌乱（如果复杂不可避免，那代码间也不能有难懂的关系，要保持接口简洁）

扁平胜于嵌套（优美的代码应当是扁平的，不能有太多的嵌套）

间隔胜于紧凑（优美的代码有适当的间隔，不要奢望一行代码解决问题）

可读性很重要（优美的代码是可读的）

即便假借特例的实用性之名，也不可违背这些规则（这些规则至高无上）

不要包容所有错误，除非你确定需要这样做（精准地捕获异常，不写 except:pass 风格的代码）

当存在多种可能，不要尝试去猜测

而是尽量找一种，最好是唯一一种明显的解决方案（如果不确定，就用穷举法）

虽然这并不容易，因为你不是 Python 之父（这里的 Dutch 是指 Guido ）

做也许好过不做，但不假思索就动手还不如不做（动手之前要细思量）

如果你无法向人描述你的方案，那肯定不是一个好方案；反之亦然（方案测评标准）

命名空间是一种绝妙的理念，我们应当多加利用（倡导与号召）

　　8.Python2/3的差异：

　　　　Python3改进：

　　　　　　print改为函数，可以指定sep参数；

　　　　　　编码问题：Python3不再有Unicode对象，默认str就是Unicode

　　　　　　除法变化，Python3除号（/）返回浮点数，Python2向下取整，Python3向下取整为（//）

　　　　　　类型注解（type hint）。帮助IDE实现类型检查；

主要是提示作用，检查可以用mypy包

　　　　　　优化的super()函数方便直接调用父类函数；

　　　　　　高级解包操作：a,b,*rest=range(10)

　　　　　　限定关键字参数（Keyword only arguments），防止把数据搞混

　　　　　　Chained exceptions。Python3重新抛出异常不会丢失栈信息（有利于排错），raise from保留栈信息（raise NotImplementedError("haha") from OSError）

　　　　　　一切返回迭代器range，zip，map，dict.values,etc(节省内存)

　　　　　　生成的pyc文件统一放到__pyache__;

　　　　　一些内置库的修改，如urllib，selector等；

　　　　　　性能优化等

　　　　Python新增：

　　　　　　yield from链接子生成器；

　　　　　　asyncio内置库，async/await原生协程支持异步编程；

　　　　　　新的内置库enum（枚举），mock（单测），asyncio（异步），ipaddress（处理ip地址），concurent.futures等

　　　　Python/2/3兼容工具：

　　　　　　six模块；2to3等工具转换代码；__future__

　　9. Python函数常考题:

　　　　Python如何传递参数：

　　　　　　传递值还是引用？都不是，唯一支持的参数传递是共享传参；

　　　　　　Call by Object（Call by Object Reference or Call by Sharing）

　　　　　　共享传参，函数形参获得实参种各个引用的副本　　　　　　

ll指向[1,2,3],l也指向[1,2,3],后又指向[],所以ll仍为[1,2,3],l为[]

默认参数只计算一次

　　　　Python可变，不可变对象：

　　　　　　不可变对象：bool/int/float.str/frozenset;

　　　　　　可变对象：list/set/dict

　　　　Python *args,**kwargs:

　　　　　　用来处理可变参数，*args会被打包成tuple，**kwargs会打包成dict

　　10.Python异常处理机制：

　　　　什么是Python的异常：

　　　　　　Python使用异常处理错误（有些语言使用错误码，如C）

　　　　　　BaseException（最低层异常）

　　　　　　SystemExit，Timeout（超时），KeyboradInterrupt（ctrl+c），GeneratorExit（生成器退出异常），继承Exception（继承BaseException）

　　　　使用异常常见场景：

　　　　　　网络超时(超时，资源错误)；

　　　　　　资源问题（权限问题，资源不存在）

　　　　　　代码逻辑（越界访问，KeyError等）　　　　　　　

　　　　如何处理：

try:
#fun #可能抛出异常的代码块
except (Exception1,Exception2) as e: #可以捕获多个异常并处理
#异常处理的代码
else:
#pass #异常没有发生的时候代码逻辑
finally:
pass #无论异常有没有发生都会执行的代码，一般处理资源的关闭和释放

　　　如何自定义异常，作用：

　　　　　　通过继承Exception实现定义异常（为什么不是BaseException，ctrl+c不能结束,BaseException是所有异常的基类，KeyboradInterrupt和SystemExit，GeneratorExit，Exception都继承于它，如果继承BaseException，可能捕获不到一些异常。）

　　　　　　给异常加一些附加信息；

　　　　　　处理一些业务相关的特定异常（raise MyException）

　　10.Python性能分析与优化，GIL常考题：

　　　　GIL（Global Interpreter Lock）：全局解释器锁

　　　　　　Cpython解释器的内存管理并不是线程安全的；

　　　　　　保护多线程情况下对Python对象的访问；

　　　　　　Cpython使用简单的锁机制避免多个线程同时执行字节码。

　　　　GIL的影响：

　　　　　　限制了程序的多核执行：

　　　　　　　　同一个时间只能有一个线程执行字节码；

　　　　　　　　CPU密集程序难以利用多核优势；

　　　　　　　　IO期间会释放GIL，对IO密集程序影响不大

　　　　如何规避GIL影响：

　　　　　　CPU密集可以用多进程+进程池；

　　　　　　IO密集使用多线程/协程

　　　　　　cython扩展

　　　　Python中什么操作才是原子的？一步到位执行完：

　　　　　　一个操作如果一个字节码指令可以完成就是原子的；

　　　　　　原子的是可以保证线程安全的；

　　　　　　使用dis操作来分析字节码。

　　　　如何剖析程序性能：

　　　　　　使用profile工具（内置或第三方）

　　　　　　　　二八定律：大部分时间耗时在少量代码上；

　　　　　　　　内置的profile/cprofile等工具；

　　　　　　　　使用pyflame（uber开源）的火焰图工具

　　　　服务端性能优化措施：

　　　　　　web应用一般语言不会成为瓶颈：

　　　　　　　数据结构与算法优化；

　　　　　　　　数据库层：索引优化，慢查询消除，批量操作减少IO，NoSql

　　　　　　　　网络IO：批量操作，pipeline操作减少IO

　　　　　　　　缓存：使用内存数据库 redis。memcached

　　　　　　　　异步：asyncio，celery

　　　　　　　　并发：gevent/多线程

　　11.生成器和协程：

　　　　生成器：

　　　　　　生成器就是可以生成值的函数；

　　　　　　当一个函数里有了yield关键字就成了生成器；

　　　　　　生成器可以挂起并保持当前执行状态

　　　　基于生成器的协程：

　　　　　　Python3之前没有原生的协程，只有基于生成器的协程

　　　　　　　　pep342增强生成器功能；

　　　　　　　　生成器可以通过yield暂停执行和产出数据；

　　　　　　　　同时支持end()向生成器发送数据和throw()向生成器抛异常

　　　　协程注意点：

　　　　　　协程使用send(None)或者next(coroutine)来预激（prime）才能启动；

　　　　　　在yield出协程会暂停执行；

　　　　　　单独的yield value会产出值给调用方；

　　　　　　可以通过coroutine.send(value)来给协程发送值，发送的值会赋值给yield表达式左边的变量value=yield

　　　　　　协程执行完成后（没有遇到下一个yield语句）会抛出StopIteration异常

　　　　　　避免每次都使用send预激它（from functool import wraps）@wraps装饰器向前执行一个yield表达式，预激

　　　　　　Python3.5引入async/await支持原生协程

　　12.Python单元测试：

　　　　什么是单元测试：

　　　　　　针对程序模块进行正确性检验；

　　　　　　一个函数，一个类进行验证；

　　　　　　自底向上保证程序正确性

　　　　为什么要写单元测试：

　　　　　　三无代码不可取（无文档，无注释，无单测）

　　　　　　保证代码逻辑的正确性（甚至有些采用测试驱动开发（TDD）)

　　　　　　单测影响设计，易测的代码往往是高类聚低耦合的；

　　　　　　回归测试，防止一处修改整个服务不可用

　　　　单元测试库：

　　　　　　nose/pytest较为常用；

　　　　　　mock模块用来模拟替换网络请求等

　　　　　　coverage统计测试覆盖率

　　　　Python深拷贝和浅拷贝：

　　　　　　深拷贝，包含对象里面的自对象的拷贝，所以原始对象的改变不会造成深拷贝里任何子元素的改变。

　　　　　　浅拷贝相当于拷贝了对象的引用（在python中，对象赋值实际上是对象的引用。当创建一个对象，然后把它赋给另一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用）

　　　　Python创建二维数组：

　　　　　　https://www.cnblogs.com/woshare/p/5823303.html

二.算法和数据结构：　　

　　1.常用的内置算法结构：

　　　　sorted；

　　　　dict/list/set/tuple....　

　　　　collections中常用模块：

　　　　　　namedtuple：让tuple属性可读（赋予名字）

　　　　　　deque：双端队列(可以在队列前后操作，方便实现queue/statck)

　　　　　　Counter：实现计数的功能

　　　　　　OrderDict:可以记住key第一次进入的位置（有序的）

　　　　　　defaultdict（）：键不存在时不会报错(带有默认值的字典)

　　　　　　dict低层使用的hash表：

　　　　　　　　为了支持快速查找使用了哈希表作为低层结构；

　　　　　　　　哈希表平均查找复杂度为O（1）；

　　　　　　　　CPython解释器使用二次探查解决哈希冲突问题（如何解决哈希冲突，哈希扩容）

　　　　　　list vs tuple：

　　　　　　　　都是线性结构，支持下标访问；

　　　　　　　　list是可变对象，tuple是保存的引用不可变(指的是没法替换掉这个对象，但是如果对像本身是一个可变对象，是可以修改这个引用指向的可变对象的)；　　

　　　　　　　　list没法作为字典的key，tuple可以（可变对象不可hash）

　　　　　　LRUCache：

　　　　　　　　Least-Recently-Used替换最少使用的对象

　　　　　　　　缓存剔除策略，当缓存空间不够用的时候需要一种方式剔除key

　　　　　　　　常见的有LRU，LFU

　　　　　　　　LRU通过使用一个循环双端队列不断把最新访问的key放到表头实现

　　　　　　　　实现：

　　　　　　　　　　字典利用缓存，循环双端链表用来记录访问顺序：

　　　　　　　　　　　　利用Python内置的dict+collections.OrderdDict实现；

　　　　　　　　　　　　dict用来当作k/v键值对的缓存；

　　　　　　　　　　　　OrderedDict用来实现最近访问的key

　　　　　　　　实现代码：　　　　　

 1 from collections import OrderedDict
 2 
 3 class LRUCathe:
 4         def __init__(self,capacity=120):
 5             self.od=OrderedDict()
 6             self.capacity=capacity
 7         
 8         def get(self,key):
 9             if key in self.od:
10                 val=self.od[key]
11                 self.od.move_to_end(key)
12                 return val
13             else:
14                 return -1
15         # 更新k/v
16         def put(self,key,value):
17             if key in self.od:
18                 del self.od[key]
19                 #更新key到表头
20                 self.od[key]=value
21             else:
22                 self.od[key]=value
23                 #判断当前容量是否满了
24                 if len(self.od)>self.capacity:
25                     self.od.popitem(last=False)

　　　　2.算法常考题：

　　　　　　排序，查找等。。。。

　　　　　　排序的稳定性：

　　　　　　　　相同大小的元素排序之后保持相对的位置不变，就是稳定的。稳定性对于排序一个复杂的结构，并且保持原有排序才有意义。

　　　　　　快排：（分治法）

　　　　　　　　选择基准分割数组为两个字数组，小于基准和大于基准的；

　　　　　　　　对两个子数组分别快排；

　　　　　　　　合并结果。

 1 '''快速排序：
 2     时间平均复杂度:O(nlog2n)
 3     最好情况:O(nlog2n)
 4     最坏:O(n^2)
 5     空间复杂度:O(nlog2n)
 6     排序方式：内部排序
 7     稳定性：不稳定
 8     '''
 9 def quicksort(arr):
10     if len(arr)<2:
11         return arr
12 
13     pivot_index=0
14     pivot=arr[pivot_index]
15     less_pivot=[i for i in arr[pivot_index+1:] if i <=pivot]
16     great_pivot=[i for i in arr[pivot_index+1:] if i > pivot]
17     return quicksort(less_pivot)+[pivot]+quicksort(great_pivot)
18 print(quicksort([3,4,5,6]))

View Code

　　　　　归并排序：

 1 '''归并排序：
 2     时间平均复杂度:O(nlog2n)
 3     最好情况:O(nlog2n)
 4     最坏:O(nlog2n)
 5     空间复杂度:O(n)
 6     排序方式：外部排序
 7     稳定性：稳定
 8     '''
 9 
10 
11 def mergeSort(arr):
12     import math
13     if len(arr)<2:
14         return arr
15     middle=math.floor(len(arr)/2)
16     left,right=arr[:middle],arr[middle:]
17     return merge(mergeSort(left),mergeSort(right))
18 
19 def merge(left,right):
20     result=[]
21     while left and right:
22         if left[0]<=right[0]:
23             result.append(left.pop(0))
24         else:
25             result.append(right.pop(0))
26     while left:
27         result.append(left.pop(0))
28     while right:
29         result.append(right.pop(0))
30     return result
31 if __name__=='__main__':
32     print(mergeSort([3,2,1,5,6,8,10,44,51,31,0,49]))

View Code

　　　　　二分查找：

 1 def binary_search(arr,val):
 2     if not arr:
 3         return -1
 4     beg=0
 5     end=len(arr)-1
 6     while beg<=end:
 7         mid=int((beg+end)/2)
 8         if arr[mid]==val:
 9             return mid
10         elif arr[mid]>val:
11             end=mid-1
12         else:
13             beg=mid+1
14     return -1
15 print(binary_search([1,3,5,7,0,12],12))

View Code

　　3.数据结构：　　　

　　　　常考的数据结构：

　　　　　　数据结构链表，队列，栈，二叉树，堆

　　　　　　使用内置结构实现数据结构，比如内置的list/deque实现栈　　　　　

　　　　　　leetcode或者《剑指offer》常见题

　　　　常见数据结构之链表：

　　　　　　链表有单链表，双链表，循环双端链表：

　　　　　　　　如何使用Python来表示链表结构；

　　　　　　　　实现链表常见操作，比如插入节点，反转链表，合并多个链表；

　　　　　　　　Leetcode练习常见链表题目

　　　　　　反转链表：（合并链表，求链表公共值）

 1 # Definition for singly-linked list.
 2 # class ListNode(object):
 3 #     def __init__(self, x):
 4 #         self.val = x
 5 #         self.next = None
 6 
 7 class Solution(object):
 8     def reverseList(self, head):
 9         """
10         :type head: ListNode
11         :rtype: ListNode
12         """
13         pre=None
14         cur=head
15         while cur:
16             nextnode=cur.next
17             cur.next=pre
18             pre=cur
19             cur=nextnode
20         return pre

View Code

　　　　　　队列是先进先出结构：

　　　　　　　　　　如何实现队列；实现队列的append和pop操作，如何做到先进先出；使用Python的list或者collections.deque实现队列　　　　　　　　　　

　　　　　栈是后进先出：　

 1 from collections import deque
 2 
 3 class Stack(object):
 4     def __init__(self):
 5         self.item=deque()
 6 
 7     def push(self,value):
 8         self.item.append(value)
 9 
10     def pop(self):
11         return self.item.pop()
12 
13 s=Stack()
14 s.push(1)
15 s.push(2)
16 print(s.pop())
17 print(s.pop())

View Code

　　　　　Python的dict和set低层实现都是hash表：

　　　　　　　　hash表的低层实现原理其实就是数组；

　　　　　　　　根据哈希表可以很快定位一个元素，平均查找为O(1)；

　　　　　　　　不断加入元素会引起hash表从新开辟新空间，拷贝之前的元素到新空间

　　　　　　解决哈希冲突：

　　　　　　　　链接法：

　　　　　　　　　　元素key冲突之后使用一个链表填充相同key的元素；

　　　　　　　　开放寻址法：

　　　　　　　　　　冲突之后根据一定方式（二次探查）寻找下一个可用的槽

　　　　　　二叉树：

　　　　　　　　　先序（根->左->右），中序（左->根->右），后序（左->右->根）　　　　

　　　　　　堆：

　　　　　　　　最大堆：对于每个非叶子节点V，V的值都比它的两个孩子大；

　　　　　　　　最大堆支持每次pop操作获取最大的元素，最小堆获取最小的元素；

　　　　　　　　常见问题：用堆来完成topk问题，从海量数据中寻找最大的k个　　

　　　　　　堆解决topk的问题：

　　　　　　　　获取大量元素，固定内存：

　　　　　　　　　　思路：1.先放入元素前k个建立一个最小堆；2.迭代剩余元素：如果当前元素小于栈顶元素，跳过该元素（肯定不是前k大），否则替换栈顶元素为当前元素，并从新调整堆　　　　

 1 import heapq
 2 
 3 class TopK:
 4     def __init__(self,iterable,k):
 5         self.minheap=[]
 6         self.capacity=k
 7         self.iterable=iterable
 8 
 9     def push(self,val):
10         if len(self.minheap)>=self.capacity:
11             min_val=self.minheap[0]
12             if val<min_val:
13                 pass
14             else:
15                 #返回并替换pop堆顶最小值，插入新的值并调整堆
16                 heapq.heapreplace(self.minheap,val)
17         else:
18             #前面k个元素直接放入minheap
19             heapq.heappush(self.minheap,val)
20     def get_topk(self):
21         for val in self.iterable:
22             self.push(val)
23         return self.minheap
24 
25 tk=TopK([1,3,5,6,0,3,44,11,42,0,1,9999],4)
26 print(tk.get_topk())

View Code

　　　　链表：

　　　　　　删除节点：

 1 # Definition for singly-linked list.
 2 # class ListNode(object):
 3 #     def __init__(self, x):
 4 #         self.val = x
 5 #         self.next = None
 6 
 7 class Solution(object):
 8     def deleteNode(self, node):
 9         """
10         :type node: ListNode
11         :rtype: void Do not return anything, modify node in-place instead.
12         """
13         nextnode=node.next
14         after_node=node.next.next
15         node.val=nextnode.val
16         node.next=after_node

View Code

　　　　　　合并链表：

 1 # Definition for singly-linked list.
 2 # class ListNode(object):
 3 #     def __init__(self, x):
 4 #         self.val = x
 5 #         self.next = None
 6 
 7 class Solution(object):
 8     def mergeTwoLists(self, l1, l2):
 9         """
10         :type l1: ListNode
11         :type l2: ListNode
12         :rtype: ListNode
13         """
14         root=ListNode(None)
15         cur=root
16         while l1 and l2:
17             if l1.val<l2.val:
18                 node=ListNode(l1.val)
19                 l1=l1.next
20             else:
21                 node=ListNode(l2.val)
22                 l2=l2.next
23             cur.next=node
24             cur=node
25         #l1和l2可能还有剩余值
26         # if l1 is None:
27         #     cur.next=l2
28         # else:
29         #     cur.next=l1
30         cur.next = l1 or l2
31         return root.next

View Code　　

　　　　 二叉树：

　　　　　　二叉树的镜像（反转）：

 1 # Definition for a binary tree node.
 2 # class TreeNode:
 3 #     def __init__(self, x):
 4 #         self.val = x
 5 #         self.left = None
 6 #         self.right = None
 7 
 8 class Solution:
 9     def invertTree(self, root: TreeNode) -> TreeNode:
10          if root==None:
11             return root
12          else:
13             self.invertTree(root.left)
14             self.invertTree(root.right)
15             root.left,root.right = root.right,root.left
16             return root

View Code

　　　　　层序遍历二叉树（广度优先）：　　

 1 # Definition for a binary tree node.
 2 # class TreeNode:
 3 #     def __init__(self, x):
 4 #         self.val = x
 5 #         self.left = None
 6 #         self.right = None
 7 
 8 class Solution:
 9     def levelOrder(self, root: TreeNode) -> List[List[int]]:
10         if root:
11             res=[]
12             cur_nodes=[root]
13             next_nodes=[]
14             res.append([i.val for i in cur_nodes])
15             while cur_nodes or next_nodes:
16                 for node in cur_nodes:
17                     if node.left:
18                         next_nodes.append(node.left)
19                     if node.right:
20                         next_nodes.append(node.right)
21                 if next_nodes:
22                     res.append([i.val for i in next_nodes])
23                 cur_nodes=next_nodes
24                 next_nodes=[]
25             return res
26         else:
27             return []

View Code

　　　　栈和队列：

　　　　　　栈实现队列：

 1 from collections import deque
 2 class Stack(object):
 3     def __init__(self):
 4         self.item=deque()
 5 
 6     def pop(self):
 7         return self.item.pop()
 8     def push(self,val):
 9         self.item.append(val)
10     def empty(self):
11         return len(self.item)==0
12 
13     def top(self):
14         return self.item[-1]
15 
16 class MyQueue:
17     def __init__(self):
18         """
19         Initialize your data structure here.
20         """
21         self.s1=Stack()
22         self.s2=Stack()
23 
24     def push(self, x: int) -> None:
25         """
26         Push element x to the back of queue.
27         """
28         self.s1.push(x)
29 
30     def pop(self) -> int:
31         """
32         Removes the element from in front of queue and returns that element.
33         """
34         if not self.s2.empty():
35             return self.s2.pop()
36         while not self.s1.empty():
37             val=self.s1.pop()
38             self.s2.push(val)
39         return self.s2.pop()
40 
41     def peek(self) -> int:
42         """
43         Get the front element.
44         """
45         if not self.s2.empty():
46             return self.s2.top()
47         while not self.s1.empty():
48             val = self.s1.pop()
49             self.s2.push(val)
50         return self.s2.top()
51 
52     def empty(self) -> bool:
53         """
54         :return: 
55         """
56         return self.s1.empty() and self.s2.empty()

View Code

　　　　堆：

　　　　　　合并多个有序数组；TopK问题。

　　　　　　堆是完全二叉树，有最大堆和最小堆。

　　　　　　使用heapq实现堆的操作；

　　　　　　合并k个有序链表

 1 # Definition for singly-linked list.
 2 # class ListNode:
 3 #     def __init__(self, x):
 4 #         self.val = x
 5 #         self.next = None
 6 from heapq import heapify,heappop
 7 
 8 class Solution:
 9     def mergeKLists(self, lists: List[ListNode]) -> ListNode:
10         h=[]
11         for node in lists:
12             while node:
13                 h.append(node.val)
14                 node=node.next
15         if not h:
16             return None
17         #构建一个最小堆
18         heapify(h)
19         #构建链表
20         root=ListNode(heappop(h))
21         curnode=root
22         while h:
23             nextnode=ListNode(heappop(h))
24             curnode.next=nextnode
25             curnode=nextnode
26         return root
27         
28         
29

View Code　　　　

　　　　字符串：

　　　　　　翻转字符串：　

 1 class Solution:
 2     def reverseString(self, s: List[str]) -> None:
 3         """
 4         Do not return anything, modify s in-place instead.
 5         """
 6         beg=0
 7         end=len(s)-1
 8         while beg<end:
 9             s[beg],s[end]=s[end],s[beg]
10             beg+=1

View Code

　　　　　　判断一个数字是否是回文数：

class Solution:
    def isPalindrome(self, x: int) -> bool:
        if x<0:
            return False
        s=str(x)
        beg,end=0,len(s)-1
        while beg<end:
            if s[beg]==s[end]:
                beg+=1
                end-=1
            else:
                return False
        return True

View Code

三.面向对象编程和设计模式

　　1.什么是面向对象编程：

　　　　把对象作为基本单元，把对象抽象成类，包括成员和方法；

　　　　数据封装，继承，多态；

　　　　Python中使用类来实现。过程式编程（函数），OOP（类）

　 2.组合和继承：

　　　　组合是使用其他类的实例作为自己的一个属性；

　　　　子类继承父类的属性和方法（Is a关系）；

　　　　优先使用组合保持代码简单。

　　3.类变量和实例变量的区别：

　　　　类变量是所有实例共享；

　　　　实例变量由实例单独享有，不同实例之间不影响；

　　　　当我们需要在一个类的不同实例之间共享变量的时候使用类变量。

 1 class Person:
 2     Coutry='China'
 3     def __init__(self,name):
 4         self.name=name
 5     def print_name(self):
 6         print(self.name)
 7 p=Person('laoliu')
 8 p2=Person('laowang')
 9 p.print_name()
10 p2.print_name()

View Code

　　4.classmethod和staicmethod的区别：

　　　　都可以通过Class.method()的方式使用；

　　　　classmethod第一个参数是cls，可以引用类变量

　　　　staticmethod使用起来和普通函数一样，只不过放在类里去组织

　　　　注：classmethod是为了使用类变量，staticmethod是代码组织的需要，完全可以放在类之外

 1 class Person:
 2     Coutry='China'
 3     def __init__(self,name):
 4         self.name=name
 5     @classmethod
 6     def print_country(cls):
 7         print(cls.Coutry)
 8     @staticmethod
 9     def join_name(first_name,last_name):
10         return last_name+first_name

View Code

　　5.元类：

　　　　元类是创建类的类。（元类允许我们控制类的生成，比如修改类的属性等）；

　　　　使用type来定义类；

　　　　元类最常见的一个使用场景就是ORM框架

　　type:

 1 #参数：类名，基类，属性
 2 class Base():
 3     pass
 4 class Child(Base):
 5     pass
 6 #等价定义，注意是tuple
 7 SameChild=type('Child',(Base,),{})
 8 #加上方法
 9 class ChildWithMethod(Base):
10     bar=True
11 
12     def hello(self):
13         print('hello')
14 #等价
15 ChiildWithMethod=type('ChiildWithMethod',(Base,),{'bar':True,'hello':hello})

View Code

　　元类的使用：

 1 #元类继承于type
 2 class LowercaseMeta(type):
 3     '''
 4     修改类的属性名称为小写的元类
 5     '''
 6     def __new__(mcs,name,bases,attrs):
 7         lower_attrs={}
 8         for k,v in attrs.items():
 9             if not k.startswith('__'):
10                 lower_attrs[k.lower()]=v
11             else:
12                 lower_attrs[k]=v
13         return type.__new__(mcs,name,bases,lower_attrs)
14 class LowerCaseClass(metaclass=LowercaseMeta):
15     BAR=True
16     def HELLO(self):
17         print('hello')
18 print(dir(LowerCaseClass))

View Code

　　6.装饰器：

　　　　Python中一切皆对象，函数也可以当作参数来传递；

　　　　装饰器是接收函数作为参数，添加功能后返回一个新函数的函数（类）；

　　　　Python中通过@使用装饰器（@是语法糖）

　　编写一个记录函数耗时的装饰器

 1 #编写一个记录函数耗时的装饰器
 2 import time
 3 def log_time(func):
 4     def _log(*args,**kwargs):
 5         beg=time.time()
 6         res=func(*args,**kwargs)
 7         print('use time:{}'.format(time.time()-beg))
 8         return res
 9     return _log
10 @log_time
11 def mysleep():
12     time.sleep(1)
13 #相同
14 #mysleep=log_time(mysleep)
15 mysleep()

View Code

　　使用类编写装饰器：

 1 class LogTime:
 2     def __call__(self, func):
 3         def _log(*args,**kwargs):
 4             beg=time.time()
 5             res=func(*args,**kwargs)
 6             print('use time:{}'.format(time.time()-beg))
 7             return res
 8         return _log
 9 @LogTime()
10 def mysleep2():
11     time.sleep(1)

View Code

　　　使用类砖石砌比较方便实现装饰器参数：

 1 class LogTime:
 2     def __init__(self,user_int=False):
 3         self.user_int=user_int
 4     def __call__(self, func):
 5         def _log(*args,**kwargs):
 6             beg=time.time()
 7             res=func(*args,**kwargs)
 8             if self.user_int:
 9                  print('use time:{}'.format(time.time()-beg))
10             else:
11                 print('use time:{}'.format(int(time.time() - beg)))
12             return res
13         return _log
14 @LogTime(True)
15 def mysleep2():
16     time.sleep(1)

View Code

　　7.设计模式：

　　　　创建型：

　　　　　　工厂模式：解决对象创建问题；

　　　　　　构造模式：控制复杂对象的创建；

　　　　　　原型模式：通过原型的克隆创建新的实例；

　　　　　　单例模式：一个类只能创建同一个对象；

　　　　　　对象池模式：预先分配同一个类型的一组实例；

　　　　　　惰性计算模式：延迟计算

　　　　　　工厂模式：

　　　　　　　　解决对象创建问题；

　　　　　　　　解决对象的创建和使用；

　　　　　　　　包括工厂方法和抽象工厂

 1 class DogToy:
 2     def speak(self):
 3         print('wang wang')
 4 
 5 class CatToy:
 6     def speak(self):
 7         print('miao miao')
 8 def toy_factory(toy_type):
 9     if toy_type=='dog':
10         return DogToy()
11     elif toy_type=='cat':
12         return CatToy()

View Code

　　　　　　构造模式：

　　　　　　　　用来控制复杂对象的构造；

　　　　　　　　创建和表示分离。比如你要买电脑，工厂模式直接给你需要的电脑，但是构造模式允许你自己定义电脑的配置，组装完成后给你

　　　　　　原型模式：

　　　　　　　　通过克隆原型来创建新的实例；

　　　　　　　　可以使用相同的类型，通过修改部分属性来创建新的实例；

　　　　　　　　用途：对于一些创建实例开销比较高的地方可以使用原型模式　

　　　　　　单例模式：

　　　　　　　　一个类创建出来的对象都是同一个；

　　　　　　　　Python'的模块其实就是单例的，只会导入一次；

　　　　　　　　使用共享同一个实例的方式来创建单例模式　

　　　构建型：

　　　　　　桥代理组合适配器，享元回家装饰外观。

　　　　　　装饰器模式：

　　　　　　　　无需子类化就可以扩展对象功能；

　　　　　　代理模式：

　　　　　　　　把一个对象的操作代理到另一个对象；

　　　　　　　　前面实现的Stack/Queue，把操作代理到deque；

　　　　　　　　has-a组合关系；

　　　　　　　　还有就是实现一些安全相关的东西，比如一个比较裸露的接口，在校验层可以做一些校验。

　　　　　　适配器模式：

　　　　　　　　通过一个间接层适配统一接口；

　　　　　　　　相当于多功能冲电头，可以给多个不同手机冲电；　　　　　

 1 from abc import abstractmethod, ABCMeta
 2 
 3 
 4 class Payment(metaclass=ABCMeta):
 5     @abstractmethod
 6     def pay(self, money):
 7         raise NotImplementedError
 8 
 9 
10 class Alipay(Payment):
11     def pay(self, money):
12         print("支付宝支付%s元"%money)
13 
14 
15 class ApplePay(Payment):
16     def pay(self, money):
17         print("苹果支付%s元"%money)
18 
19 #------待适配的类-----
20 class WeChatPay:
21     def fuqian(self,money):
22         print('微信支付%s元'%money)
23 
24 #------类适配器------
25 class RealWeChatPay(Payment,WeChatPay):
26     def pay(self, money):
27         return self.fuqian(money)
28 
29 #-----对象适配器-----
30 class PayAdapter(Payment):
31     def __init__(self,payment):
32         self.payment=payment
33     def pay(self, money):
34         return self.payment.fuqian(money)
35 
36 #RealWeChatPay().pay(100)
37 
38 p=PayAdapter(WeChatPay())
39 p.pay(200)

View Code

　　　　　　外观模式：

　　　　　　　　简化复杂对象的访问问题；

　　　　　　享元模式：

　　　　　　　　通过对象复用（池）改善资源利用，比如连接池；

　　　　　　MVC模式：

　　　　　　　　解耦展示逻辑和业务逻辑；

　　　行为型：

　　　　　　访问者写好策略备忘录，观察模板迭代状态，命令中介解释责任链。

　　　　　　迭代器模式：通过统一的接口迭代对象

　　　　　　　　Python内置对迭代器模式的支持；

　　　　　　　　比如我们可以用for遍历各种Iterable的数据类型；

　　　　　　　　实现__next__和__iter__实现迭代器

 1 class LinkedList:
 2     class Node:
 3         def __init__(self,item=None):
 4             self.item=item
 5             self.next=None
 6     class LinkedListIterator:
 7         def __init__(self,node):
 8             self.node = node
 9         #实现next方法,返回下一个元素
10         def __next__(self):
11             if self.node:
12                 cur_node = self.node
13                 self.node = cur_node.next
14                 return cur_node.item
15 
16         def __iter__(self):
17             return self
18     def __init__(self,iterable=None):
19         self.head = LinkedList.Node(0)
20         self.tail = self.head
21         self.extend(iterable)
22 
23     #链表尾部追加元素
24     def append(self,obj):
25         s = LinkedList.Node(obj)
26         self.tail.next = s
27         self.tail = s
28     #链表自动增加长度
29     def extend(self,iterable):
30         for obj in iterable:
31             self.append(obj)
32         self.head.item += len(iterable)
33 
34     def __iter__(self):
35         return self.LinkedListIterator(self.head.next)
36 
37     def __len__(self):
38         return self.head.item
39 
40     def __str__(self):
41         return '<<'+', '.join(map(str,self)) + '>>'
42 
43 li = [i for i in range(100)]
44 lk = LinkedList(li)
45 print(lk)

View Code

　　　　　　观察者模式：对象发生改变的时候，观察者执行相应的操作

　　　　　　　　发布订阅是一种最常用的实现方式；

　　　　　　　　发布订阅用于解耦逻辑；

　　　　　　　　可以通过回调方式实现，当发生事件时，调用相应的回调函数

 1 from abc import ABCMeta, abstractmethod
 2 
 3 #抽象主题
 4 class Oberserver(metaclass=ABCMeta):
 5     @abstractmethod
 6     def update(self):
 7         pass
 8 
 9 #具体主题
10 class Notice:
11     def __init__(self):
12         self.observers = []
13 
14     def attach(self,obs):
15         self.observers.append(obs)
16 
17     def detach(self,obs):
18         self.observers.remove(obs)
19 
20     def notify(self):
21         for obj in self.observers:
22             obj.update(self)
23 
24 #抽象观察者
25 class ManagerNotice(Notice):
26     def __init__(self,company_info=None):
27         super().__init__()
28         self.__company_info = company_info
29 
30     @property
31     def company_info(self):
32         return self.__company_info
33 
34     @company_info.setter
35     def company_info(self,info):
36         self.__company_info = info
37         self.notify()
38 
39 #具体观察者
40 class Manager(Oberserver):
41     def __init__(self):
42         self.company_info = None
43     def update(self,noti):
44         self.company_info = noti.company_info
45 
46 #消息订阅-发送
47 notice = ManagerNotice()
48 
49 alex=Manager()
50 tony=Manager()
51 
52 notice.attach(alex)
53 notice.attach(tony)
54 notice.company_info="公司运行良好"
55 print(alex.company_info)
56 print(tony.company_info)
57 
58 notice.company_info="公司将要上市"
59 print(alex.company_info)
60 print(tony.company_info)
61 
62 notice.detach(tony)
63 notice.company_info="公司要破产了，赶快跑路"
64 print(alex.company_info)
65 print(tony.company_info)

View Code

　　　　　　策略模式：针对不同规模使用不同的策略

　　　　　　　　根据不同的输入采用不同的策略；

　　　　　　　　比如买东西超过10个打八折，超过20个打七折；

　　　　　　　　对外暴露统一的接口，内部采用不同的策略计算

　　8.函数式编程（推荐使用生成式）：

　　　　把电脑运算视作数学上的函数计算（lambda计算）

　　　　高阶函数：map/reduce/filter；

　　　　无副作用，相同的参数调用始终产生同样的结果

print(list(map(lambda x:x*2,range(10))))
#求1到9和
reduce(lambda x,y:x+y,range(10))
#求10内偶数
filter(lambda x:x%2==0,range(10))

　　9.闭包：引用了外部自由变量的函数；自由变量：不在当前函数定义的变量；特性：自由变量会和闭包函数同时存在

　　　　绑定了外部作用域的变量的函数；

　　　　即使程序离开外部作用域，如果闭包仍然可见，绑定变量不会销毁；

　　　　每次运行外部函数都会重新组建闭包

 1 from functools import wraps
 2 
 3 def catche(func):   #装饰器
 4     store={}
 5     @wraps(func)
 6     def _(n):   #闭包函数
 7         if n in store:
 8             return store[n]
 9         else:
10             res=func(n)
11             srore[n]=res
12             return res
13     return _
14 
15 @catche
16 def f(n):
17     if n<=1:
18         return 1
19     else:
20         return f(n-1)+f(n)

View Code

　　10.Linux常考命令：

　　　　man：查看某个命令怎末用；

　　　　tldr：更简洁（pip install tldr）

　　　　文件：chown/chmod/chgrp

　　　　ls/rm/mv/touch/rename/ln（软硬连接）

　　　　locate/find/grep

　　　　编辑器 vi/nano

　　　　cat/head/tail查看文件

　　　　more/less交互式查看文件

　　　　ps查看进程，kill杀死，top/htop监控进程

　　　　free查看可用内存；

　　　　了解每一列含义，排查泄露

　　　　ipconfig/lsof/netstat/ssh/scp。tcpdump

　　　　useradd/usermod/grepadd/grepmod

　　11.线程和进程的区别：

　　　　进程是对运行程序的封装，是系统资源调度和分配的基本单位；

　　　　线程是进程的子任务，cou调度和分配的基本单位，实现进程内并发；

　　　　一个进程可以包含多个线程，线程依赖进程存在，并共享进程内存

　　12.线程安全：

　　　　Python中哪些是线程安全的：

　　　　　　一个操作可以在多线程环境中安全使用，获取正确的结果；

　　　　　　线程安全的操作好比线程是顺序执行而不是并发执行的；

　　　　　　一般如果涉及到写操作需要考虑如何让多个县城安全访问数据

　　　　线程同步的方式：

　　　　　　互斥量（锁）：通过互斥机制防止多个线程同时访问公共资源；

　　　　　　信号量：控制同一时刻多个线程同时访问同一个资源的线程数

　　　　　　事件（信号）：通过通知的方式保持多个线程同步

　　　　进程间通信：

　　　　　　管道/匿名管道/有名管道（pipe）

　　　　　　信号：比如用户ctrl+c产生SININT程序终止信号

　　　　　　消息队列

　　　　　　共享内存；

　　　　　　信号量；

　　　　　　套接字：最常用的

　　13.操作系统内存管理机制：

　　　　分页机制：操作系统为了高效管理内存，减少碎片

　　　　把逻辑地址和物理地址分离的内存分配管理方案：

　　　　　　　　　程序的逻辑地址划分为固定大小的页；

　　　　　　　　　物理地址划分为同样大小的帧；

　　　　　　　　　通过页表对应逻辑地址和物理地址

　　　　分段机制：分段是为了满足代码的一些逻辑需求

　　　　　　数据共享，数据保护，动态链接等

　　　　　　通过段表实现逻辑地址和物理地址的映射关系；

　　　　　　每个段内部是内存分配，段和段之间是离散分配的

　　　　分页和分段的区别：

　　　　　　页是出于内存利用率的角度提出的离散分配机制；

　　　　　　段是出于用户角度，用于数据保护，数据隔离等用途的管理机制；

　　　　　　页的大小是固定的，操作系统决定，；段的大小不确定，用户程序决定

　　　　什么是虚拟内存：

　　　　　　通过把一部分暂时不用的内存信息放到硬盘上：

　　　　　　　　局部性原理，程序运行时候只有部分必要的信息装入内存；

　　　　　　　　内存中暂时不需要的内容放到硬盘上；

　　　　　　　　系统似乎提供了比实际内存大得多的容量，称之为虚拟内存

　　　　什么是内存抖动（颠簸）：

　　　　　　频繁的页调度，进程中不断产生缺页中断；

　　　　　　置换一个页，又不断再次需要这个页；

　　　　　　运行程序太多了；页面替换策略不好。终止进程或者增加物理内存；

　　　　Python垃圾回收机制：https://blog.csdn.net/csucsgoat/article/details/81510313

　　　　　　引用计数为主（缺点：循环引用无法解决【两个对象互相引用之后引用计数无法归零】，del减少引用计数）；

　　　　　　引用标记清除和分代回收解决引用计数的问题；

　　　　　　引用计数为主+标记清除和分代回收为辅

　　　　什么时候引用计数增加：

　　　　　　对象创建 a=1；

　　　　　　对象被引用：b=a；

　　　　　　对象作为参数传递func(a);

　　　　　　对象存储在容器中 l=[a];

　　　　什么时候引用计数会减少：

　　　　　　显示使用del a；

　　　　　　引用指向了别的对象 b=None；

　　　　　　离开了对象的作用域（比如函数执行结束）；

　　　　　　从一个容器移除对象或者销毁容器

　　　　　　循环引用：

#a和b的引用计数都为1
a=[1]
b=[1]
#a和b的引用计数都为2
a.append(b)
b.append(a)
#a和b都销毁 但是还是1
del a
del b

　　　　　　标记清除：

　　　　　　　　从根访问，如果不可达的点（独立的）就标记

　　　　　　分代回收：

　　　　　　　　分三代（0 1 2），每隔一定时间对每一代实行标记回收

四.网络协议TCP/UDP/HTTP

　　浏览器输入一个url中间经历的过程：

　　　　DNS查询->TCP握手->HTTP请求->反向代理nginx->uwsgi/gunicom->wep app响应->TCP挥手

　　TCP三次握手,四次挥手，状态转换：https://blog.csdn.net/ZWE7616175/article/details/80432486

　 TCP和UDP的区别： https://www.cnblogs.com/xiaomayizoe/p/5258754.html

　　　　TCP是面向连接的，可靠的，基于字节流的；

　　　　UDP是无连接，不可靠，面向报文的；

　　HTTP协议：

　　　　HTTP请求的组成：

　　　　　　状态行；

　　　　　　请求头；

　　　　　　消息主体（可能为空）

　　　　HTTP响应组成：

　　　　　　状态行；响应头；向应正文

　　　　HTTP请求头：https://www.cnblogs.com/honghong87/articles/6941436.html

　　　　HTTP常见状态码：https://blog.csdn.net/laishaohe/article/details/79052085

　　　　HTTP GET/POST的区别：https://www.cnblogs.com/logsharing/p/8448446.html

　　　　　　Restful语义上一个是获取，一个是创建；

　　　　　　Get是幂等的，POST是不幂等的；

　　　　　　GET请求参数放到url（明文），长度限制；POST放在请求体，更安全

　　　　什么是幂等的（指多次请求结果和请求一次结果一致）：https://blog.csdn.net/qq_15037231/article/details/78051806

　　　　　　幂等方法是无论调用多少次得到相同结果的HTTP方法；

　　　　　　例如：a=4是幂等的，a+=4就是非幂等的；

　　　　　　幂等的方法客户端可以安全的从发请求

　　　　　　幂等：OPTIONS/GET/HEAD?PUT?DELETE;非幂等：POST/PATCH　

　　　　　　安全的（是否会修改数据）：OPTIONS/HEAD/GET;不安全的：PUT/POST/DELETE/PATCH　

　　　　HTTP长连接：https://www.cnblogs.com/cswuyg/p/3653263.html　

　　　　　　短连接：建立连接。。。数据传输。。关闭连接（连接的建立和关闭开销大）

　　　　　　长连接：Connection：Keep-alive。保持TCp连接不断开；

　　　　　　如何区分不同的HTTP请求：Content-Length（长度）|Transfer-Encoding(分段发送)

　　　　cookie和session的区别:

　　　　　　Session一般是服务器生成后交给客户端（通过url参数或cookie）；

　　　　　　Cookie是实现session的一种机制，通过HTTP cookie字段实现；

　　　　　　Session通过服务器保存sessionid识别用户，cookie存储在客户端

　　网络编程：

　　　　TCP/UDP socket编程；HTTP编程：https://www.cnblogs.com/zengzy/p/5107516.html

　　　　使用socket发送HTTP请求：

　　　　　　。。。。

　　IO多路复用：操作系统提供的同时监听多个socket的机制

　　　　五种IO模型　

　　　　常见的提升并发能力的方式：

　　　　　　多线程模型；多进程模型；　

　　　　IO多路复用：

　　　　　　为了实现高并发需要一种机制并发处理多个socket；

　　　　　　Linux常见的是select/poll/epoll

　　　　　　select/poll/epoll的区别：https://www.cnblogs.com/Anker/p/3265058.html

　　Python并发网络库：

　　　　哪些并发网络库：

　　　　　　Tornado vs Gevent ns Asyncio：

　　　　　　　　Tornado并发网络库和同时也是一个web微框架；

　　　　　　　　Gevent绿色线程（greenlet）实现并发，猴子补丁修改内置socket；

　　　　　　　　Asyncio Python3内置的并发网络库，基于原生协程

　　　　Tornado：

　　　　　　适用于微服务，实现restful接口：

　　　　　　　　低层基于Linux多路复用；

　　　　　　　　可以通过协程或者回调实现异步编程；

　　　　　　　　不过生态不够完善，相应的异步框架比如ORM不完善

　　　　Gevent：

　　　　　　基于轻量级绿色线程实现并发；

　　　　　　需要注意monkey patch，gevent修改了内置的socket改为非阻塞；

　　　　　　配合gunicorn和gevent部署作为wsgi server

　　　　Asyncio：

　　　　　　基于协程实现的内置并发网络库：

　　　　　　　　Python3引入内置库，协程加事件循环；

　　　　　　　　生态不够完善，没有大规模生产环境检验；

　　　　　　　　目前应用不广泛，基于Aiohttp可以实现一些小的服务

五.数据库：

　　Mysql基础考点：

　　　　事务的原理，特性，事务并发控制；

　　　　常用的字段，含义的区别；

　　　　常用的数据库引擎之间的区别；

　　什么是事务：

　　　　事务是数据库并发控制的基本单位；

　　　　事务可以看作是一些列SQL语句的集合；

　　　　事务必须要么全部执行成功，要么全部执行失败（回滚），如转账操作。。。

　　事务的四个特性（ACID）：

　　　　原子性：一个事务中的所有操作要不全部完成成功，要不全部失败；

　　　　一致性：事务开始和结束后数据完整性没有被破坏；

　　　　隔离性：允许多个事务同时对数据库修改和读写；

　　　　持久性：事务结束后，修改是永不丢失的

　　事务的并发控制：

　　　　如果不对事务进行并发控制，可能产生四种异常情况：

　　　　　　幻读：一个事务第二次查出现第一次没有结果；

　　　　　　非重复读：一个事务重复读两次得到的结果不同；

　　　　　　脏读：一个事务读取到另一个事务没有提交的修改；

　　　　　　丢失修改：并发写入造成其中一些修改丢失

　　为了解决并发控制异常，定义了4种事务隔离级别：

　　　　读未提交：别的事务可以读取到未提交改变；

　　　　读已提交：只能读已经提交的数据；

　　　　可重复读：同一个事务先后查询的结果一样（默认）；

　　　　串行化：事务完全串行化串行，隔离级别最高，执行效率最低

　　如何解决高并发场景下，写辱数据库有数据重复问题：

　　　　使用数据库唯一索引；

　　　　使用队列异步写入；

　　　　使用redis等实现分布式锁　　

　　乐观锁和悲观锁：

　　　　悲观锁是先获取锁再进行操作。一锁二查三更新 select for update；

　　　　乐观锁先修改，更新的时候发现数据已经变了就回滚 check and set；

　　　　使需要根据响应速度，冲突频率，重试代价来判断使用哪一种

　　数据类型：。。。。int(10)，表示最小显示十个字符宽

　　Innodb和MyISAM区别：

　　　　MyISAM不支持事务u，InnoDB支持事务；

　　　　MyISAM不支持外键，InnoDB支持外键；

　　　　MyISAM只支持表锁，InnoDB支持行锁和表锁；

　　　　MyISAM支持全文索引，InnoDB不支持；

　　　　。。。

　　Mysql索引原理及优化：

　　　　索引的原理，类型，结构；

　　　　创建索引的注意事项，使用原则；

　　　　如何排查和消除慢查询

　　　　什么是索引：

　　　　　　索引是数据表种一个或者多个列进行排序的数据结构，索引能够大幅提升检索速度（查找结构：线性，二分，二叉树。。。。）；

　　　　　　创建，更新索引本身也会耗费空间和时间；

　　　　什么是B-Tree：

　　　　　　查找结构进化史：

　　　　　　　　线性查找：一个个找；实现简单；太慢；

　　　　　　　　二分查找：有序；简单；要求有序，插入特别慢；

　　　　　　　　HASH：查询块；占用空间；不太适合存储大规模数据；

　　　　　　　　二叉查找树：插入和查询很快（logn）；无法存储大规模数据，复杂度退化（单边增长，成线性）;

　　　　　　　　平衡树：解决bst退化的问题，树是平衡的；节点非常多的时候，依然树高很高；

　　　　　　　　多路查找树：一个父亲多个孩子节点（度）；节点过多树高不会特别深；

　　　　　　　　多路平衡查找树：B-Tree（无法使用范围查找）

　　　　B-Tree：多路平衡查找树（每个节点最多m（m>=2）个孩子，称未m阶或者度）；

　　　　　　　　叶节点具有相同的深度；

　　　　　　　　节点种的数据key从左到右是递增的；

　　　　B+Tree：

　　　　　　B+Tree是B-Tree的变形：

　　　　　　　　Mysql实际使用的B+Tree作为索引的数据结构；

　　　　　　　　只在叶子节点带有记录的指针（为什么？可以增加树的度）

　　　　　　　　叶子节点通过指针相连。为什么？实现范围查询

　　　　　　阶（度/孩子）越多越好吗？

　　　　　　　　操作系统内存分页，硬盘分块；

　　　　　　　　以磁盘块的大小去确定阶的大小，这样操作系统去读取和缓存数据就非常友好。

　　　　索引类型：

　　　　　　普通索引（create index）；

　　　　　　唯一索引，索引列的值必循唯一（create unique index）；

　　　　　　多列索引

　　　　　　主键索引：一个表只能有一个

　　　　　　全文索引：InnoDB不支持，倒排索引

　　　　什么时候创建索引：

　　　　　　经常用作查询条件的字段（WHERE条件）；

　　　　　　进场用做表连接的字段；

　　　　　　经常出现在order by，group by之后的字段

　　　　创建索引需要注意的：

　　　　　　最佳实践：　　　

　　　　　　　　非空字段 NOT NULL，Mysql很难对空值作查询优化；

　　　　　　　　区分度高，离散度大，作为索引的字段值尽量不要大量相同值；

　　　　　　　　索引的长度不要太长（比较耗费时间）

　　　　索引什么时候失效：

　　　　　　记忆口诀：模糊匹配，类型隐转，最左匹配；

　　　　　　以%开头的LIKE语句；

　　　　　　出现隐式类型转换（在Python这种动态语言查询中需要注意），无法匹配；

　　　　　　没有满足最左前缀匹配（为什么是最左前缀）（a,b,c） (1,2,3) (1,2,4)，相当于元组，从左往右比较，如(a,b,c),(a,b),(a)能比较，但是(a,b,c)和(b,c)不能比较，第一个都不相同

　　　　聚集索引和非聚集索引：

　　　　　　聚集还是非聚集指得是B+Tree叶节点存的是指针还是数据记录；

　　　　　　MyISAM索引和数据分离，使用的是非聚集索引；

　　　　　　InnoDB数据文件就是索引文件，主键索引就是聚集索引　　　　

　　　　如何排查慢查询：

　　　　　　慢查询缺少索引，索引不合理或者业务代码实现导致：

　　　　　　　　slow_query_log_file开始并且查询慢查询日志；

　　　　　　　　通过explain排查索引问题；

　　　　　　　　调整数据修改索引；业务代码层限制不合理访问。

　　　　Mysql语句：

　　　　　　常用连接：

　　　　　　　　内连接：两个表都存在匹配时，才会返回匹配行；

　　　　　　　　外连接：返回一个表的行，即使另一个没有匹配；

　　　　　　　　全连接：只要某一个表存在匹配就返回

　　　　　　内连接：

　　　　　　　　将左表和右表能够关联的数据连接返回；

　　　　　　　　类似于求两个表的“交集”；

　　　　　　　　select * from A inner join B on a.id=b.id

　　　　　　外连接：

　　　　　　　　左连接：返回左表的所有记录，即使右表中没有任何满足匹配的记录；

　　　　　　右连接：返回右表的所有记录，即使左表中没有任何满足匹配的记录；

　　　　　全连接：

　　　　　　　　只要某一个表存在匹配，就返回行；

　　　　　　　　类似于求两个表的“并集”；

　　　　　　　　到时Mysql不支持，可以用left join 和union，right join联合使用模拟

　　　　缓存及redis：

　　　　　　缓存的使用场景，为什么使用：

　　　　　　　　内存缓存（常见的有Redis，Memcached）：

　　　　　　　　缓解关系数据库（常见的是Mysql）并发访问的压力：热点数据；

　　　　　　　　减少响应时间：内存IO速度比磁盘快；

　　　　　　　　提升吞吐量：Redis等内存数据库单机就可以支撑很大并发

　　　　redis和memcached的区别：

　　　　　　https://www.cnblogs.com/457248499-qq-com/p/7392653.html

　　　　resis常用数据类型及使用场景：

　　　　　　String（字符串）：用来实现简单的KV键值对存储，比如计数器；

　　　　　　List（链表）：实现双向链表，比如用户的关注，粉丝列表；

　　　　　　Hash（哈希表）：用来存储彼此相关信息的键值对；

　　　　　　Set（集合）：存储不重复元素，比如用户的关注者；

　　　　　　Sorted Set（有序集合）：实时信息排行榜

　　　　Redis内置实现：使用C语言实现；

　　　　　　　　　　　　String：整数或者sds（Simple Dynamic String）；

　　　　　　　　　　　　List：ziplist（压缩链表，通过一个连续的内存块实现list结构，其中的每个entry节点头部保存前后节点长度信息，实现双链表功能）或者double linked list；

　　　　　　　　　　　　Hash：ziplist或者hashtable（可以自己设置，大于某个值使用什么）；

　　　　　　　　　　　　Set：intset或者hashtable；

　　　　　　　　　　　　SortedSet：skiplist跳跃表

　　　　时间空间复杂度。。。。

　　　　Sorted Set为了简化实现，使用skiplist而不是平衡树实现：

　　　　Redis有哪些持久化的方式：

　　　　　　快照方式：把数据快照放在磁盘二进制文件中，dump.rdb；

　　　　　　AOF（Append Only File）：每一个写命令追加到appendonly.aof中；

　　　　　　可以修改Redis配置实现使用哪种方式

　　　　Redis的事务：

　　　　　　将多个请求打包，一次性，按序执行多个命令的机制；

　　　　　　Redis通过MULTI，EXEC，WATCH等命令实现事务功能；

　　　　　　Python redis-py,pipeline=conn.pipeline(transaction=True)

　　　　Redis实现分布式锁：

　　　　　　使用setnx实现加锁，可以同时通过expire添加超时时间；

　　　　　　锁的value值可以使用一个随机的uuid或者特定的命名；

　　　　　　释放锁的时候，通过uuid判断是否是该锁，是则执行delete释放锁

　　　　使用缓存的模式：

　　　　　　Cache Aside：同时更新缓存和数据库；

　　　　　　Read/Write Througr：先更新缓存，缓存负责同步更新数据库；

　　　　　　Write behind Caching:先更新缓存，缓存定期异步更新数据库。

　　　　　　（先更新数据库后更新缓存，并发写操作可能导致缓存读取的是脏数据，一般先更新数据库然后删除缓存）

　　　　缓存穿透的问题：

　　　　　　大量在缓存查询不到的数据的请求落到后端数据库，数据库压力增大

　　　　　　由于大量缓存查不到就去数据库取，数据库也没有要查的数据（爬虫id遍历，有可能大量的id没有）

　　　　　　解决：对于没查到的返回为None的数据也缓存；

　　　　　　插入数据的时候删除相应缓存，或者设置较短的超时时间

　　　　缓存击穿的问题：

　　　　　　某些非常热点的数据key过期，大量请求达到后端数据库；

　　　　　　热点数据key失效导致大量请求达到数据库增加数据库压力；

　　　　　　分布式锁：获取锁的线程从数据库拿数据更新缓存，其他线程等待

　　　　　　异步后台更新：后台任务针对过期的key自动刷新

　　　　缓存雪崩：

　　　　　　大量缓存不可用或者大量的缓存key同时失效（或重启缓存服务器），大量的请求直接打到数据库

　　　　　　　　解决：多级缓存：不同级别的key设置不同的超时时间；

　　　　　　　　　　　随机超时：key的超时时间随机设置，防止同时超时；

　　　　　　　　　　　架构层：提升系统的可用性。监控，报警完善

　　　　Mysql问题：https://blog.csdn.net/HeatDeath/article/details/79833462

　　　　Redis实现分布式锁：https://baijiahao.baidu.com/s?id=1623086259657780069&wfr=spider&for=pc

六.Python web

　　　WSGI;常见Web框架：

　　　什么是WSGI？为什么需要它？

　　　　　Python Web Server Gateway Interface（pep3333）

　　　　　解决Python Web Server乱象mod_python,CGI,FastCGI等

　　　　　描述了Web Server（Gunicorn/uWSGI）如何与web框架（Flask/Django）交互，Web框架如何处理请求　

　　　　　def application(environ,start_response):

　　　　　　application就是WSGI app，一个可调用的对象

　　　　　　参数：

　　　　　　　　environ：一个包含WSGI环境信息的字典，由WSGI服务器提供，常见的key有PATH_INFO，QUERY_STRING等

　　　　　　　　start_response：生成WSGI响应的回调函数，接收两个参数，status和headers

　　　　　　函数返回响应体的迭代器

　　编写兼容WSGI的小应用（使用Python内置的WSGI server）：　　

　　　　函数：　

 1 def myapp(environ,start_response):
 2     status="200 OK"
 3     headers=[('Content-Type','text/html;charset=utf8')]
 4     start_response(status,headers)
 5     #可迭代对象，字节
 6     return [b'<h1>Hello World</h1>']
 7 
 8 if __name__=="__main__":
 9     from wsgiref.simple_server import make_server
10     httpd=make_server('127.0.0.1',8888,myapp)
11     httpd.serve_forever()

View Code

效果

　　　封装成类：

 1 class Application(object):
 2 
 3     def __init__(self,routers,**kwargs):
 4         self.routers=routers
 5 
 6     def __call__(self, environ, start_response):
 7         try:
 8             request=Request(environ)
 9             callback,args=routers.match(request.path)
10             response=callback(request,*args)
11         except FileNotFoundError:
12             response=Response("<h1>Not Found</h1>",status=404)
13         start_response(response.status,response.headers.items())
14         return iter(response)

View Code

　　常用Python Web框架对比：

　　　　Django VS Flask VS Tarnado

　　　　Django大而全，内置ORM，Admin等组件，第三方插件较多

　　　　Flask：微框架，插件机制，比较灵活

　　　　Tornado：异步支持的微框加和异步网络库

　　什么是MVC：Model（模型），View（视图），控制器（Controller）【解耦数据，展示和操作】

　　　　Model：负责业务对象和数据库的交互（ORM）

　　　　View：负责与用户的交互展示

　　　　Controller：接收请求参数调用模型和视图完成请求

　　什么是ORM（对象关系映射）：提升开发效率和维护性

　　　　用于实现业务对象与数据表的字段映射

　　　　优势：代码更加面对对象，代码量更少，灵活性高，提升开发效率；

　　　　缺点：拼接对象比较耗时，有一定性能影响

　　一个Web框架的组成：

　　　　中间件：用于请求之前和请求之后做一些处理（比如记录日志等）

　　　　路由，表单验证，权限认证，ORM，视图函数，模板渲染，序列化

　　　　第三方插件：Redis连接，RESTful支持等

　　什么是Gunicorn：gunicorn -w 4 myapp:app（部署4个进程）

　　　　纯Python编写的高性能WSGI Server

　　　　pre-fork预先分配多个worker进程处理请求（master-slave）

　　　　多种worker支持：Sync/Async（Gevent）/Tornado/AsyncIO

　　Web安全：

　　　　SQL注入：

　　　　　　通过构造特殊的参数传入Web应用，导致后端执行了恶意的SQL

　　　　　　通常由于程序员未对输入进行过滤，直接动态拼接SQL产生

　　　　　　可以使用开源工具sqlmap，SQLninja检测

　　　　　创建表并插入几条数据：

 1 from hashlib import md5
 2 def ha_md(s):
 3     m=md5()
 4     m.update('haha'.encode('utf-8'))
 5     return m.hexdigest()
 6 
 7 sql="""
 8 create table users(
 9 id int PRIMARY KEY not null auto_increment,
10 name varchar(50) null,
11 email varchar(50) null,
12 password varchar(50) null
13 );
14 insert into users(name,email,password) values('LYQ','lyq@haha.com','{0}');
15 insert into users(name,email,password) values('LYQ2','lyq2@haha.com','{1}');
16 insert into users(name,email,password) values('LYQ3','lyq3@haha.com','{2}');
17 """.format(ha_md('123411'),ha_md('adade'),ha_md('467241'))
18 
19 #sql注入演示代码
20 import os
21 import MySQLdb
22 db=MySQLdb.connect(host='localhost',
23                    user='root',
24                    passwd='112358',
25                    db='test',
26                    charset='utf8')
27 
28 cur=db.cursor()
29 cur.execute(sql)
30 cur.close()
31 db.commit()
32 db.close()

View Code

　　　　　　　直接拼接：如果password输入--（表示注释），只要name对了就能找到，修改为sql="select * from name=%s AND password=md5(%s)"就不会了

 1 #sql注入演示代码
 2 import MySQLdb
 3 db=MySQLdb.connect(host='localhost',
 4                    user='root',
 5                    passwd='112358',
 6                    db='test',
 7                    charset='utf8')
 8 
 9 cur=db.cursor()
10 name=input("请输入姓名：")
11 print("您1输入的姓名是：{0}".format(name))
12 password=input("请输入密码：")
13 print("您输入的密码是：{0}".format(password))
14 #直接拼接sql
15 sql="select * from name='"+name+"'"+" AND password=md5('"+password+"')"
16 cur.execute(sql)
17 cur.close()
18 db.commit()
19 db.close()

View Code

　　　　　　如何防范SQL注入：

　　　　　　　　web安全一大法则：永远不要相信用户的任何输入

　　　　　　　　对输入参数做好检查（类型和范围）；过滤和转义特殊字符；

　　　　　　　　不要直接拼接sql，使用ORM可以大大降低sql注入的风险；

　　　　　　　　数据库层：做好权限管理配置i；不要明文存储敏感信息

　　　　XSS攻击：跨站脚本攻击

　　　　　　恶意用户将代码植入到提供给其他用户使用的页面中，未经转义的恶意代码输出到其他用户的浏览器被执行；

　　　　　　用户浏览页面的时候嵌入页面中的脚本（js）会被执行，攻击用户；

　　　　　　主要分为两类：反射型（非持久型），存储型（持久型）

　　　　　　如：博客评论：<script>alert("haha");</script>，如果没有转义js代码，访问会弹出haha；（存储型）

　　　　　　　　还有的可以手机用户的document.cookie发送到指定的服务器上

　　　　　　　　反射型如把脚本放在url参数里面，诱导用户去点击

　　　　　　xss危害：

　　　　　　　　盗用cookie，获取敏感信息；

　　　　　　　　利用用户私人账号执行一些违法行为，比如盗取个人或者商业资料，执行一些隐私操作；

　　　　　　　　甚至可以在一些访问量很大的网站上实现DDos攻击

　　　　　　如何访问xss攻击：

　　　　　　　　过滤（输入和参数）。对敏感标签<script><img> <a>等进行过滤。；

　　　　　　　　转义。对常见符号（“&”，“<”,“and”）转义（python3有个html.escape转义）；

　　　　　　　　设置HttpOnly禁止浏览器访问和操作Document.cookie

　　　　CSRF：跨站请求伪造

　　　　　　利用网站对已认证用户的权限去执行未授权的命令的一种恶意攻击；

　　　　　　攻击者会盗用你的登录信息，以你的身份模拟发送请求；

　　　　　　web身份认证机制只能识别一个请求是否来自某个用户的浏览器，但是无法保证请求是用户自己或者批准发的

　　　　csrf:https://www.cnblogs.com/lovesong/p/5233195.html

　　　　csrf攻击具备的两个条件：

　　　　　　受害者已经登录到了目标网站并且没有退出（保持登录状态）；

　　　　　　受害者访问攻击者链接或者吧表单

　　　　　　二者缺一不可

　　　　如何防范csrf：不要再任何GET请求中有任何数据修改操作

　　　　　　令牌操作（STP）:再用户请求的表单中嵌入一个隐藏的csrf_token，服务端验证其是否与cookie中的一致（基于同源策略其他网站是无法获取cookie中的csrf_token）　　

　　　　　　黑客是拿不到你cookie中的csrftoken值的，前提是网站本身没有xss漏洞；

　　　　　　如果是js提交需要先从cookie获取csrf_token作为X-CSRFToken请求头提交

　　　　　　其他：检测来源HTTP Referer（容易被伪造）；验证码方式（安全但是繁琐）

　　前后端分离和Restful：

　　　　什么是前后端分离：

　　　　　　后端只负责数据接口，不再渲染模板，前端获取数据并呈现

　　　　前后端分离的意义和方式：

　　　　　　前后端解耦，接口复用（前端和客户端公用接口），减少开发量；

　　　　　　各司其职，前后端同步开发，提升工作效率。定义好接口规范；

　　　　　　更有利于调试，测试和运维部署

　　　　什么是RESTfulL：

　　　　　　表现层状态转移，由HTTP协议的主要设计者Roy Fielding提出；

　　　　　　资源（使用URL指向的一个实体），表现层（资源的表现形式，比如图片，HTML文本等），状态转化（GET，POST，PUT，DELETE等动词来操作资源，实现资源状态的改变）；

　　　　　　是一种资源为中心的web软件架构风格，可以用Ajax和RESTful web服务构建应用

　　　　设计的概念和准则：

　　　　　　所有事物抽象为资源，资源对应唯一的标识；

　　　　　　资源通过接口进行操作实现状态转移，操作本身是无状态的

　　　　什么是RESTful API：

　　　　　　RESTful风格的API接口：

　　　　　　　　通过HTTP GET/POST/DELETE 获取/新建/更新/删除资源

　　　　　　　　一般通过JSON格式返回数据；

　　　　　　　　一般web框架都有相应的插件支持RESTful API

　　　　如何设计RESTful API

　　　　　　GET http://[hostname]/api/users 检索用户列表.....

　　　　什么是https。。。http和https的区别。。。你了解对称加密和非对称加密码。。。

　　　　HTTPS的通信过程？

六.系统设计

　　什么是系统设计：

　　　　系统设计是一个定义系统架构，模块，接口和数据满足特定需求的过程；

　　　　比如设计一个短网址服务，评论服务，Feed流服务，抢红包系统；

　　　　微服务架构很多系统被按照业务拆分，需要单独设计一个系统服务

　　系统设计难点：中高级工程师必经之路

　　　　需要具备相关领域，算法经验，有一定的架构设计能力；

　　　　熟悉后端技术组件，比如消息队列，缓存，数据库，框架；

　　　　具备文档撰写，流程图绘制，架构设计，编码实现等综合能力

　　系统设计的要素：

　　　　使用场景和限制条件；

　　　　数据存储设计；

　　　　算法模块设计

　　按照三个元素来答：

　　　　什么场景和条件下使用；（比如短网址系统提供站内各种服务生成短网址；限制条件：用户估计有多少？至少要能支撑多少用户（服务）？估算并发qps：峰值qps是多少？平均qps是多少）

　　　　设计存储模块；

　　　　设计算法模块

　　　　数据存储设计：

　　　　短网址系统的存储设计？需要存储哪些字段？

　　　　如何设计短网址系统？

　　　　　　按照设计数据库，需要哪些字段，使用类型》数据增长规模；

　　　　　　数据库选型：是否需要持久化？使用关系型还是NoSQL；

　　　　　　如何优化？如何设计索引？是否可以使用缓存？

　　　　算法模块设计：

　　　　　　需要哪些接口？几口如何设计？

　　　　　　使用什么算法或者模型？

　　　　　　不同实现方式之间的优劣对比?如何取舍?

　　　　扩展：用户多了，qps高了如何处理？

　　　　　　数据存储多了不够存了如何处理？

　　　　　　　故障如何处理？单点失败？多点失败，雪崩问题

　　短网址系统的设计和实现：

　　　　什么是短网址系统，包含哪些功能？

　　　　　　把一个长网址转成短网址的服务。

　　　　　　比如https://bitly.com。

　　　　　　转换之后网址的后缀不超过7位（字符或数字）

　　　　使用场景：

　　　　　　一个长网址转成短网址并存储；根据短网址还原长url；

　　　　　　要求短网址的后缀不超过7位（大小写字母和数字）；

　　　　　　预估峰值插入请求数量级：数百；查询请求数量级：数千。

　　　　数据存储设计：

　　　　　　根据需求设计数据存储方式：

　　　　　　　　使用Mysql即可满足；

　　　　　　　　需要的字段有哪些：

　　　　　　　　　　id token（索引设计） url（原网址） created_time

　　　　短网址生成算法有哪些？对比优缺点

　　　　　　两个API：long2short_url,short2long_url

　　　　　　md5摘要算法：得到的是32位，可以阶段，取前7个字符，但是冲突/

　　　　　　类似于62进制的数字。二进制：0，1；十六进制0-9，a-f；十进制->62进制

　　　　　　十进制->二进制转换：

 1 #不断取余，倒序输出
 2 def mybin(num):
 3     if num==0:
 4         return 0
 5     result=[]
 6     while num:
 7         num,rem=divmod(num,2)
 8         result.append(str(rem))
 9     return ''.join(reversed(result))
10 
11 print(mybin(10))

View Code

　　　　　　十进制->16进制：递增序列算法

 1 CHARS='abcdefghijklmnopqrstuvwxwzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789'
 2 def encode(num):
 3     if num==0:
 4         return CHARS[0]
 5     res=[]
 6     while num:
 7         num,rem=divmod(num,len(CHARS))
 8         res.append(CHARS[rem])
 9     return ''.join(reversed(res))
10 print(encode(61))

View Code

　　　　　　（需要自增id，需要一个计数器Redis incr）

　　　　　　　request->redis incr index->token->mysql->url

　　　　如何设计秒杀系统：

　　　　　　什么是秒杀系统？有没有用过？

　　　　　　如何根据三要素设计？

　　　　　　秒杀系统涉及到哪些后端组件？

　　　　　　https://www.jianshu.com/p/d789ea15d060　　　　　　

posted @ 2019-04-13 07:53 biu嘟阅读(5554) 评论(0) 收藏举报

刷新页面返回顶部