02 2011 档案

css parsing中词法的RegEx(python)
摘要:W3C网站上的有点小bug,而且他们写的正则是FLEX一类的,和自己手写时不太一样。瞎改了一下,贴这,谁用得着谁拿去,有问题请通知作者更新。虽然是python的,其实现在这些RegEx都是perl风格的,应该能通用。除了做词法,这些定义也可以这么用:如果是找找特定字串,从这里选取一部分改吧改吧就好了;或者在这堆天书里看看有啥用法是咱不知道的?(?:..)的意思是不建立capturing group,不知道别的运行时是不是这么定义的;字串前面的r意思是不用转义字符,.NET里好像是@?已然忘了。另外,W3C的词法分析配置是忽略大小写,不忽略空白:别忘了后代选择器是基于空白的。另外,w3c的没有. 阅读全文

posted @ 2011-02-23 20:49 怪怪 阅读(833) 评论(1) 推荐(0) 编辑

终于合一起了...
摘要:一直打算找个时间把Earley算法的框架整合到我的parse算法上,感觉能够得到一个更好的思路。这两天水到渠成的把这件事做了。说的挺轻松呵呵,当初折腾自己的算法的时候,和第一次接触Earley算法把它做对的时候,都下了些功夫;尤其是前者。而且一直没有融合,也不完全是没有时间,而是思路没理顺。跟Earley Parser比,有更小的空间占用和更简单的步骤,因为Earley的从根本上可以说是一种Chart Parser,所以难免有些多余的格子和操作。好像它上面的研究者都没想着应该换个思路。跟我自己最初的算法比,那个基本上是从NFA Simulation上硬生生长出来的,过小的起点基础根本承受不住我 阅读全文

posted @ 2011-02-08 16:19 怪怪 阅读(728) 评论(10) 推荐(0) 编辑

关于Earley第二篇论文给的建立parse tree的算法的bug
摘要:今天检查自己的算法,发现有个以前写的注释问是不是有错,印象里这个问题已经解决了啊,原来Tomita的论文还不知道放哪儿去了,妈的。查了一下,看见这个: I pulled the following message from the website text search. I find it hard to follow the example in the message though, and wonder if anyone can further explain why Earley's parsing extension to his recognizer algorithm 阅读全文

posted @ 2011-02-06 01:54 怪怪 阅读(1804) 评论(17) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示