摘要: 现在的网络爬虫越来越多,有很多爬虫都是初学者写的,和搜索引擎的爬虫不一样,他们不懂如何控制速度,结果往往大量消耗服务器资源,导致带宽白白浪费了。 其实Nginx可以非常容易地根据User Agent过滤请求,我们只需要在需要URL入口位置通过一个简单的正则表达式就可以过滤不符合要求的爬虫请求: 变量 阅读全文
posted @ 2019-11-13 22:50 xj-record 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 多数据源 使用Spring Boot时,默认情况下,配置DataSource非常容易。Spring Boot会自动为我们配置好一个DataSource。 如果在application.yml中指定了spring.datasource的相关配置,Spring Boot就会使用该配置创建一个DataSo 阅读全文
posted @ 2019-11-13 15:27 xj-record 阅读(21597) 评论(3) 推荐(5) 编辑
摘要: 在网页中,常常需要用到图片,而图片需要消耗较大的流量。正常情况下,浏览器会解析整个HTML代码,然后从上到下依次加载的图片标签。如果页面很长,隐藏在页面下方的图片其实已经被浏览器加载了。如果用户不向下滚动页面,就没有看到这些图片,相当于白白浪费了图片的流量。 所以,淘宝、京东这些流量非常巨大的电商, 阅读全文
posted @ 2019-11-13 15:17 xj-record 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 在应用程序中,经常需要全局唯一的ID作为数据库主键。如何生成全局唯一ID? 首先,需要确定全局唯一ID是整型还是字符串?如果是字符串,那么现有的UUID就完全满足需求,不需要额外的工作。缺点是字符串作为ID占用空间大,索引效率比整型低。 如果采用整型作为ID,那么首先排除掉32位int类型,因为范围 阅读全文
posted @ 2019-11-13 14:30 xj-record 阅读(317) 评论(0) 推荐(0) 编辑