随笔分类 -  开源项目

1
摘要:沙漠君在闭关4个月后,终于把开源数据神器Hawk(详细介绍在这里)的文档和教学视频基本录制完毕, 并同步更新在有爱无广告二次元的B站! 教程总时间超过3个小时,覆盖了网页采集器,数据清洗,文件读写等方方面面。内容蜜汁丰富,有原理,有如何填坑的tip,更有完整的操作步骤,让你一看就能明白。 教程更是增 阅读全文
posted @ 2019-06-07 22:10 FerventDesert 阅读(1559) 评论(2) 推荐(2) 编辑
摘要:从即日起,Hawk将停止升级工作,其版本号将停留在5。 https://github.com/ferventdesert/Hawk Hawk已经开发和维护6年时间了,它曾经承载了开发者很多的期待。背后也有不少故事和为它付出过的朋友。6年间Hawk拥有了上万的用户,并获得了很多好评。 在这6年间,我为 阅读全文
posted @ 2019-02-13 20:10 FerventDesert 阅读(4704) 评论(7) 推荐(2) 编辑
摘要:最近又要租房了,哪里的性价比更高?买房却不知道全国市场的趋势如何?程序员自有办法,抓取网络的房产交易和租房数据来分析啊! 用Python写起来麻烦,用商业软件速度慢还收费,开源的图形化爬虫Hawk,已经在其任务市场里内置了全国链家和我爱我家的工程任务。一键即可加载市场任务,一键在全国几十个城市之间切 阅读全文
posted @ 2019-01-16 08:05 FerventDesert 阅读(4443) 评论(9) 推荐(3) 编辑
摘要:https://ferventdesert.github.io/Hawk/ Hawk是一款由沙漠之鹰历时五年个人业余时间开发的,开源图形化爬虫和数据清洗工具,GitHub Star超过2k+,前几代版本介绍如下: Hawk3: "终于等到你: 图形化开源爬虫Hawk 3发布!" Hawk2: "12 阅读全文
posted @ 2019-01-14 09:33 FerventDesert 阅读(2780) 评论(12) 推荐(4) 编辑
摘要:超级图形化爬虫Hawk已经发布两年半时间了,2015年升级到第二版,收到上千条用户反馈(tucao),100多个红包,总共666块五毛~一直想攒着这笔钱,去北境之王天通苑的龙德商场买最心爱的阿迪王! 啥,你不知道Hawk是什么?它是智能而强大的网络数据采集工具,全图形化无需编程,一些功能强大到作者自 阅读全文
posted @ 2018-05-13 12:20 FerventDesert 阅读(6919) 评论(38) 推荐(72) 编辑
摘要:考虑将并行的所有逻辑封装到一个模块之内,向外部提供像串行执行一样的编程体验 阅读全文
posted @ 2017-06-02 16:14 FerventDesert 阅读(14812) 评论(3) 推荐(1) 编辑
摘要:毕业后的2016年年初,搬入新家,总算不用在出租屋里鬼混了,于是就想把之前童年的梦想:智能家居+家庭影院好好实现一下~ 相比帝都高昂的房价,这些东东还凑合玩得起,不过在有限预算下实现尽可能定制和强大的功能会更有意思。我yy了以下几个场景: 每当下班回家,指纹解锁大门,家里温馨的灯光自动打开,天气热的 阅读全文
posted @ 2017-05-20 16:26 FerventDesert 阅读(35038) 评论(148) 推荐(181) 编辑
摘要:Hawk是沙漠之鹰历时五年开发的开源免费网页抓取工具(爬虫),无需编程,全部可视化。 自从上次发布Hawk 2.0过了小半年,可是还是有不少朋友通过邮件或者微信的方式询问如何使用。看文档还是不如视频教学方便,沙漠君决定录播几段视频来帮助大家~ 软件最新的下载地址(或点击原文) https://git 阅读全文
posted @ 2017-04-16 11:11 FerventDesert 阅读(5126) 评论(3) 推荐(6) 编辑
摘要:XMove是沙漠君和几个死党从2010年开始开发的一套 人体动作捕捉 系统,软硬件全部自行开发,投入了大量的精力,历经三年,发展四个版本。文章分上下篇,本文为下篇,前三代的故事在《[光荣与梦想| XMove动作感应系统(一)][1]》,建议阅读。 2012年的最后一天,我安静地走出科研楼的大门,那一 阅读全文
posted @ 2017-02-06 12:10 FerventDesert 阅读(2289) 评论(14) 推荐(8) 编辑
摘要:XMove是我和几个死党从2010年开始开发的一套 人体动作捕捉 系统,软硬件全部自行开发,投入了大量的精力,历经三年,发展四个版本。 ![此处输入图片的描述][1] 今年春节回到老家,翻出了2011年春节时焊电路用过的松香和和硬盘角落里的代码。感慨万分,遂有此文。文章过长,分为两部分,本文为201 阅读全文
posted @ 2017-02-06 12:07 FerventDesert 阅读(2816) 评论(3) 推荐(2) 编辑
摘要:本文写于圣诞节北京下午慵懒的午后。本文偏技术向,不过应该大部分人能看懂。 五年之痒 2016年,能记入个人年终总结的事情没几件,其中一个便是开源了Hawk。我花不少时间优化和推广它,得到的评价还算比较正面,因为负面评价也没什么渠道进我耳朵。 不过你知道我写这个东西花了多久吗? 掐头去尾,这是第五个年 阅读全文
posted @ 2017-01-05 15:17 FerventDesert 阅读(3202) 评论(12) 推荐(7) 编辑
摘要:![image_1b57e17dr6sg1k6v110jdg5vb59.png 211.3kB][1] 沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0! 啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了 阅读全文
posted @ 2017-01-02 16:39 FerventDesert 阅读(10546) 评论(51) 推荐(85) 编辑
摘要:不少朋友反映,Hawk的手气不错,好像没法处理动态页面。其实很容易,比其他软件都容易,让我慢慢道来。 1. 什么是动态页面 很多网站,在刷新的时候会返回页面的全部内容,但实际上只需要更新一部分,这样可大大节约带宽。这种方式一般叫ajax,服务器传递xml或者json到浏览器,浏览器的js代码执行,并 阅读全文
posted @ 2016-08-29 23:56 FerventDesert 阅读(1473) 评论(0) 推荐(0) 编辑
摘要:Hawk在发布之后,收到了不少朋友的感谢和使用反馈,沙漠君表示非常开心。软件肯定有很多的问题和不足,还有很多可扩展的空间,因此我希望更多的朋友,能够参与到改进Hawk的计划中来,为开源世界作出努力。 不少朋友询问一些术语的意思,在下面解释一下: ETL:即数据清洗,包含抽取(E),转换(T)和加载( 阅读全文
posted @ 2016-05-30 23:09 FerventDesert 阅读(2345) 评论(9) 推荐(4) 编辑
摘要:1.这是什么鬼? 哦?美女? 最近看了这一篇文章:http://cuiqingcai.com/1001.html 大概说的是用Python和Pyspider(这货好像是我的一位师兄写的,吓尿),抓取淘宝淘女郎的所有美女照片。只是里面还要敲一堆代码,还要用其他动态js运行框架,看着好不烦人啊。 Haw 阅读全文
posted @ 2016-05-20 13:31 FerventDesert 阅读(8759) 评论(16) 推荐(7) 编辑
摘要:1. 主角出场:Hawk介绍 Hawk是沙漠之鹰开发的一款数据抓取和清洗工具,目前已经在Github开源。详细介绍可参考:http://www.cnblogs.com/buptzym/p/5454190.html 强烈建议先读这篇文章,该文介绍了详细原理和抓取链家二手房的攻略,以此为基础,才能较好的 阅读全文
posted @ 2016-05-17 11:59 FerventDesert 阅读(31455) 评论(38) 推荐(30) 编辑
摘要:1. 调试模式和执行模式 1.1.调试模式 系统能够通过拖拽构造工作流。在编辑流的过程中,处于 调试模式 ,为了保证快速地计算和显示当前结果(只显示前20个数据,可在 调试 的采样量中修改),此时,所有 执行器 都不会参与到工作流中,意味着数据库和数据表都不会被写入和更新。 (是否记得所有模块分为 阅读全文
posted @ 2016-05-17 11:58 FerventDesert 阅读(6746) 评论(2) 推荐(1) 编辑
摘要:Hawk: Advanced Crawler& ETL tool written in C /WPF 1.软件介绍 Hawk3已经发布,本文的很多信息已经不完整或过期,所有更新信息和下载地址都可参考下面的链接: https://github.com/ferventdesert/Hawk HAWK是一 阅读全文
posted @ 2016-05-03 12:48 FerventDesert 阅读(49166) 评论(53) 推荐(29) 编辑
摘要:购买kindle之后,自然欣喜万分,不来自于工具本身,而来自于发现自己能够静下心来阅读长篇和复杂的文字了,可喜可贺。更重要的是,kindle减轻了我眼睛的莫大的压力。但马上就出现几个问题: 不是所有的电子书都有kindle,最常见的是扫描PDF 大量的论文无法阅读,这和上面的问题一致 网络上很多精彩 阅读全文
posted @ 2016-03-07 10:33 FerventDesert 阅读(12049) 评论(4) 推荐(4) 编辑
摘要:当你在一个城市,穿越大街小巷,跑步跑了几千公里之后,一个显而易见的想法是,如果能把在这个城市的所有路线全部画出来,会是怎样的景象呢? 文章代码比较多,为了不吊人胃口,先看看最终效果,上到北七家,下到南三环,西到大望路,东到首都机场。二环32公里,三环50公里,这是极限,四环先暂时不考虑了。。。。 ( 阅读全文
posted @ 2016-03-02 19:36 FerventDesert 阅读(10286) 评论(20) 推荐(22) 编辑

1