博客园 I'm coming

      之前断断续续的在轻博客点点【http://cphmvp.diandian.com/】 写下些有关java,爬虫,正则, 硬件服务器的一些工作中用到的,

比较喜欢点点的域名个性定制,今期想把15个月的爬虫工作学习资料整理下,发现在点点上排版有些蹩脚,特别是代码显示上。寻思了

几天,终于找着一个适合it程序猿记录,分享技术的博客。

      有点迟,但希望还不晚。我是一名90后,在it这个一脚探下去不知道深浅的行业里,待了才刚一年半。在技术上,一直在做各种爬虫,

很少用nutch、heritrix 这些牛气的开源爬虫,从开始接触爬虫的时候就开始定位的思想就是自己构建的感觉可控性强些。做的过程中,

慢慢发现了解 nutch ,heritrix 的架构 实现还是很有启发的,比如现在我们团队做的一个爬虫产品,里融合的有nutch和heritrix的设计

思想 ,(闲下来会陆续好好拜读下,详细的源码)。 自己写爬虫有个无可比拟的好处就是,针对性定向开发,会很快,一些业务的逻辑

比较容易较好的在爬取过程中进行融合,对付一些较为特殊的 异步数据请求,动态页面,登录 ,使用起来就灵活的多。

  每一个做coding 的程序猿都希望在某一个领域成为大牛,提起来像黑客 那样的NB感觉, 个人觉得技术很重要,但绝对不是最重要的

(上家公司教会我的)。 但在这个行业里的初始两年最好能埋下头好好专研下技术还是很有必要的,有些东西(像转管理),可以不那么急,

这样的路线会更觉得稳健。 我主攻的方向是网络爬虫 crawler,工作的过程中,数据库接触的oracle最多。在此基础上个人对oracle数据库的

系统架构,管理机制 ,有很强的兴趣,也使得我今年初的时候,选报了一个培训,在8、9月份的时候考取了一个ocp的认证。 所以在该博客

空间上,会逐渐学习,把我理解的(不正确的欢迎指正交流)爬虫方面,oracle维护方面,记录下来,分享给大家。

     coding ,很苦逼。无论怎样的环境,怎样的现在,盯紧心中的梦想,一步一步靠近就好。

 

posted @ 2013-09-01 00:42  cphmvp  阅读(199)  评论(0编辑  收藏  举报
爬虫在线测试小工具: http://tool.haoshuju.cn/