摘要: 之前写的两篇爬虫体验基本上涵盖了一般的Html页面提取场景,但是有些时候,如果目标页面不是纯静态的页面,而是使用js动态渲染的页面(比如one),之前的爬虫就不好使了,这种时候就要借助一些其他工具来进行实现。 一般爬取动态页面的思路是通过软件模拟浏览器行为获取到渲染后的页面镜像,然后再对渲染后的页面 阅读全文
posted @ 2019-03-14 17:19 螃海哥 阅读(4962) 评论(0) 推荐(0) 编辑
摘要: 主要思路是通过软链将npm添加到usr/local/bin下面: 阅读全文
posted @ 2019-03-08 12:25 螃海哥 阅读(670) 评论(0) 推荐(0) 编辑
摘要: 自从使用hexo在github page更新博客之后,我每次在cnblog上发布文章,需要手动再更新hexo。hexo使用markdown格式来写文章,手动更新需要对文章本身内容进行转化,做成md文件再进行上传,后来就想到,本身爬虫就可以对页面中的各种元素进行提取,同时markdown使用的是标记语 阅读全文
posted @ 2018-11-22 11:26 螃海哥 阅读(586) 评论(0) 推荐(0) 编辑
摘要: 我们在PHP开发当中难免会遇到这种情况,在用composer做包管理工具的时候,项目依赖的某个开源组件的部分代码需要根据整个项目的需求进行修改,这种时候可以通过修改vendor包里面的组件源码来实现,然而修改vendor包容易导致一个问题,那就是版本不容易进行管理,如果进行composer upda 阅读全文
posted @ 2018-11-21 17:42 螃海哥 阅读(2035) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫在大数据时代可以非常高效地自动进行数据的收集处理,而传统爬虫最简单也是最基本的功能实现原理即是下载网页,然后通过抽取页面元素来达到收集信息的目的。 PHP作为一门灵活易用的脚本语言,实现这些功能自然是不在话下的。 这里实现爬虫基于两个组件: guzzle:最好用的PHP HTTP客户端,用来 阅读全文
posted @ 2018-10-15 10:09 螃海哥 阅读(3944) 评论(0) 推荐(0) 编辑
摘要: 因为工作需要kafka作为消息中间件,所以在本地开发环境进行测试的时候需要给PHP添加rdkafka扩展,使用PHP作为producer或者cosumer,在此纪录一下rdkafka的安装过程。 扩展下载地址:http://pecl.php.net/package/rdkafka 根据自身PHP版本 阅读全文
posted @ 2018-04-27 15:47 螃海哥 阅读(3356) 评论(1) 推荐(0) 编辑
摘要: 参考文章: https://51.ruyo.net/2783.html http://blog.csdn.net/VgFengYe/article/details/78609040 官方 quick start文档:https://github.com/google/bbr/blob/master/ 阅读全文
posted @ 2018-02-24 16:00 螃海哥 阅读(3271) 评论(0) 推荐(0) 编辑
摘要: 注册: 注册地址为:https://aws.amazon.com/cn/free/ 点击页面中间的创建免费用户,进入下一步页面 然后就是填写各种个人信息的页面了 接下来填写付款信息: 付款信息会进行一个电话验证,这里需要先填写对应的电话号码和验证码,然后点立刻呼叫我,提示音之后从手机键盘上输入提示的 阅读全文
posted @ 2018-02-24 14:30 螃海哥 阅读(738) 评论(0) 推荐(0) 编辑
摘要: 在PHP的一个类中,带有static关键字的方法和属性被称为静态方法和静态属性,这样的方法和属性可以通过类直接访问,而不需要通过类对应的实例来进行访问,在类中访问静态变量以及静态属性的时候,可以使用self关键字和static关键字,两种访问方式看起来似乎没有区别,但是实际上还是不一样的 运行之后的 阅读全文
posted @ 2018-02-22 19:35 螃海哥 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 最近开始重新拾掇自己优惠时贪便宜买的一台京东云主机,然而早已经将当年集成环境一键安装时设置的mysql密码给忘了。 于是度娘了解决办法,大致分为以下步骤: 结果执行之后报这个错误 “Unknown column 'password' in 'field list'”。 后查询得知mysql在5.7版 阅读全文
posted @ 2018-02-06 23:08 螃海哥 阅读(183) 评论(0) 推荐(0) 编辑