2011 年 2月随笔档案 - 怪怪

02 2011 档案

css parsing中词法的RegEx（python）

摘要：W3C网站上的有点小bug，而且他们写的正则是FLEX一类的，和自己手写时不太一样。瞎改了一下，贴这，谁用得着谁拿去，有问题请通知作者更新。虽然是python的，其实现在这些RegEx都是perl风格的，应该能通用。除了做词法，这些定义也可以这么用：如果是找找特定字串，从这里选取一部分改吧改吧就好了；或者在这堆天书里看看有啥用法是咱不知道的？(?:..)的意思是不建立capturing group，不知道别的运行时是不是这么定义的；字串前面的r意思是不用转义字符，.NET里好像是@？已然忘了。另外，W3C的词法分析配置是忽略大小写，不忽略空白：别忘了后代选择器是基于空白的。另外，w3c的没有. 阅读全文

posted @ 2011-02-23 20:49 怪怪阅读(833) 评论(1) 推荐(0) 编辑

终于合一起了...

摘要：一直打算找个时间把Earley算法的框架整合到我的parse算法上，感觉能够得到一个更好的思路。这两天水到渠成的把这件事做了。说的挺轻松呵呵，当初折腾自己的算法的时候，和第一次接触Earley算法把它做对的时候，都下了些功夫；尤其是前者。而且一直没有融合，也不完全是没有时间，而是思路没理顺。跟Earley Parser比，有更小的空间占用和更简单的步骤，因为Earley的从根本上可以说是一种Chart Parser，所以难免有些多余的格子和操作。好像它上面的研究者都没想着应该换个思路。跟我自己最初的算法比，那个基本上是从NFA Simulation上硬生生长出来的，过小的起点基础根本承受不住我阅读全文

posted @ 2011-02-08 16:19 怪怪阅读(728) 评论(10) 推荐(0) 编辑

关于Earley第二篇论文给的建立parse tree的算法的bug

摘要：今天检查自己的算法，发现有个以前写的注释问是不是有错，印象里这个问题已经解决了啊，原来Tomita的论文还不知道放哪儿去了，妈的。查了一下，看见这个： I pulled the following message from the website text search. I find it hard to follow the example in the message though, and wonder if anyone can further explain why Earley's parsing extension to his recognizer algorithm 阅读全文

posted @ 2011-02-06 01:54 怪怪阅读(1804) 评论(17) 推荐(0) 编辑

公告

Wir müssen wissen, wir werden wissen.

昵称：怪怪
园龄： 17年5个月
荣誉：推荐博客
粉丝： 149
关注： 2

+加关注

怪怪 | Nothing, Everything

02 2011 档案

css parsing中词法的RegEx（python）

终于合一起了...

关于Earley第二篇论文给的建立parse tree的算法的bug

导航

公告

搜索

常用链接

我的标签

随笔档案 (231)

阅读排行榜

评论排行榜

推荐排行榜

最新评论