上一页 1 2 3 4 5 6 7 8 9 10 ··· 15 下一页
摘要: tn是desert(沙漠之鹰)和tan共同开发的一种用于匹配,转写和抽取文本的语言(DSL)。并为其开发和优化了专用的编译器。基于递归下降方法和正则表达式,能解析自然文本并转换为树和字典,识别时间,地址,数量等复杂序列模式。 github地址:https://github.com/ferventde 阅读全文
posted @ 2016-04-06 21:03 FerventDesert 阅读(3190) 评论(2) 推荐(6) 编辑
摘要: 有一天,楼上姐姐的老公说,他半程马拉松跑了两小时二十分,我说我能跑大概1小时四十分这样。姐姐在旁边说,还好,也就差40分钟。我当时没说什么,是啊,好像差别也没多大。 实际上,以跑十公里为例,我能轻轻松松跑到50分,咬牙极限能跑到45分,但到了40分,却是基本不可能。你可能想,就差那么一点点,每分钟稍 阅读全文
posted @ 2016-04-04 20:53 FerventDesert 阅读(1191) 评论(0) 推荐(0) 编辑
摘要: (本文成文于2015年11月12日,为作者原创,发布在博客园方便诸君阅读) 前段时间发了一篇分析房价的文章,于是这两天在微信上咨询我的朋友络绎不绝。今天是光棍节,我什么都没抢到。下午,有一位学姐在微信上找我,怀着激动的心情打开微信。 学姐说,“看到你之前发的文章了,能不能帮我在北京选一套婚房啊?” 阅读全文
posted @ 2016-04-02 17:59 FerventDesert 阅读(2242) 评论(4) 推荐(8) 编辑
摘要: etlpy是python编写的网页数据抓取和清洗工具,核心文件etl.py不超过500行,具备如下特点 爬虫和清洗逻辑基于xml定义,不需手工编写 基于python生成器,流式处理,对内存无要求 内置线程池,支持串行和并行处理 内置正则解析,html转义,json转换等数据清洗功能,直接输出可用文件 阅读全文
posted @ 2016-03-25 18:34 FerventDesert 阅读(30916) 评论(5) 推荐(15) 编辑
摘要: 每本软件的著作里,都会提到“开源软件”,多数都会往哲学的层面上去解释,相当的形而上。我想,开源这回事,不就是大家把代码传到网上,给人下载学习,之后有了Linux,Apache一系列牛逼作品么?这么简单接地气的事情,为什么要搞得那么形而上呢? 开源也给我带来了不少的困惑,很多商业软件的授权费相当昂贵, 阅读全文
posted @ 2016-03-19 22:46 FerventDesert 阅读(533) 评论(4) 推荐(1) 编辑
摘要: 代码是宝贵的,世界上最郁闷的事情,便是写好的代码,还要在另外的平台上重写一次,或是同时维护功能相同的两套代码。所以才需要跨平台。 不仅如此,比如有人会吐槽Python的原生解释器CPython跑得太慢,或想让Python在.NET或JAVA虚拟机上运行,便开发了IronPython和Jython这样 阅读全文
posted @ 2016-03-15 15:45 FerventDesert 阅读(11730) 评论(6) 推荐(1) 编辑
摘要: 应不少读者的要求,笔者总结北京2014年到2015年涨幅较大的几个区域,并按照涨价百分比(而非绝对涨价值)绘制了如下的北京楼市涨跌地图: 同时,笔者总结了涨价幅度较高的六大区域(凑个吉利数字吧(∩_∩))。 第六名.东城区(东西城合并?平均涨价14%) 东城区虽然属于中心城区,但在教育上一直无法与西 阅读全文
posted @ 2016-03-11 14:06 FerventDesert 阅读(983) 评论(1) 推荐(0) 编辑
摘要: 买房是一件大事,好处是你再也不用担心年年涨价的房租,不用住墙壁脱皮的次卧,能挑选自己心爱的家具和心爱的人温馨的住在一起。坏处是更久的通勤时间和每个月的按揭。反正房奴和蚁族,总得二选一嘛。 在北京买房子,更是难上加难,绝大多数人只能考虑二手房。我们今天就聊一下,如何在北京买到自己心仪的房子。 买房第一 阅读全文
posted @ 2016-03-11 14:01 FerventDesert 阅读(1643) 评论(3) 推荐(0) 编辑
摘要: 作者注:本文为“沙漠之鹰”原创文章,为了保证行文流畅,没有插入实现代码,简单统计分析博客园的读者应该都能做。 过年之后,很多人选择租房。我的不少朋友告诉我,"之前你发布的北京买房攻略很有意思,可是不接地气啊,能不能分析一下帝都租房的情况啊"! 我想也是,于是下班之后,配置了爬虫工具,从北京各大中介网 阅读全文
posted @ 2016-03-08 08:57 FerventDesert 阅读(11612) 评论(53) 推荐(50) 编辑
摘要: 1.需求 在数据清洗(ETL),日志文件分析,分隔符信息提取时,我们都会遇到如下常见的文本数据: 中楼层/14层,东西,西直门南大街 3号院,1985年建,板楼 中楼层/23层,南北,通惠南路6号,2003年建,板楼 中楼层/12层,南北,通惠南路6号 1号院,2003年建,塔楼- 一个常见的处理思 阅读全文
posted @ 2016-03-07 11:19 FerventDesert 阅读(6620) 评论(1) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 15 下一页