2019年10月18日

摘要: 网络爬虫 通用爬虫技术框架 爬虫系统首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子放入待爬取URL队列中,爬虫从待爬取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。然后将其和网页相对路径名交给网页下载器,网页下载器负责页 阅读全文
posted @ 2019-10-18 23:40 kexinxin 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 跳跃表 跳跃表的引入 无论是数组还是链表在插入新数据的时候,都会存在性能问题。排好序的数据,如果使用数组,插入新数据的方式如下: 如果要插入数据3,首先要知道这个数据应该插入的位置。使用二分查找可以最快定位,这一步时间复杂度是O(logN)。插入过程中,原数组中所有大于3的商品都要右移,这一步时间复 阅读全文
posted @ 2019-10-18 16:50 kexinxin 阅读(1284) 评论(0) 推荐(0) 编辑
摘要: 正向代理和反向代理 正向代理 A同学在大众创业、万众创新的大时代背景下开启他的创业之路,目前他遇到的最大的一个问题就是启动资金,于是他决定去找马云爸爸借钱,可想而知,最后碰一鼻子灰回来了,情急之下,他想到一个办法,找关系开后门,经过一番消息打探,原来A同学的大学老师王老师是马云的同学,于是A同学找到 阅读全文
posted @ 2019-10-18 11:26 kexinxin 阅读(127) 评论(0) 推荐(0) 编辑
摘要: java内存泄露与内存溢出 基本概念 内存泄露:指程序中动态分配内存给一些临时对象,但是对象不会被GC所回收,它始终占用内存。即被分配的对象可达但已无用。 内存溢出:指程序运行过程中无法申请到足够的内存而导致的一种错误。内存溢出通常发生于OLD段或Perm段垃圾回收后,仍然无内存空间容纳新的Java 阅读全文
posted @ 2019-10-18 10:18 kexinxin 阅读(454) 评论(0) 推荐(0) 编辑

导航