摘要:
爬虫开发过程中 进程和线程的概念是非常重要的 提高爬虫的 工作效率 打造分布式爬虫 都离不开进程和线程的身影 多进程 多线程 协程 分布式进程等四个方面 使用os模块中的fork方法 使用multiprocessing模块 前者仅仅适用Unix/Linux操作系统 对windows不支持 后者是跨平 阅读全文
摘要:
对象的序列化在很多高级编程语言中都有相应的实现 程序运行时候 所有的 变量都是在内存中的 d=dict(url="index.html",title="首页",content="首页") 程序运行过程中 爬取的页面的链接 会不断变化 比如url改成second.html 但是程序一结束 或意外中断 阅读全文
摘要:
当我们想在容器中存储的对象是独一无二的时候 就不那么有效了 集合是无序的 知道的不多冲动就大 可哈希对象 与 可用做字典键值 正是因为穷啊 强东哥哥 阅读全文
摘要:
a=object() a.x=7 这样是错误的 为了节省内存 Python默认禁止object拥有任何属性 其他的一些内置数据结构也是一样 在我们的类中 可以使用插槽(slot) 来限制任意priperty属性 类和对象应该只在你想要同时指定数据和行为的时候被使用 如果你要用可以修改的 为什么不用列 阅读全文