2012 年 11月 3 日随笔档案 - tonybom

2012年11月3日

摘要：最近的实习项目需要做一个大数据库（语料库），采集博客、微博、问答库的信息。将数据库的内容进行训练，最后应该是做成一个类似中文siri的模型吧。第一步新闻抓取器已经稳定运行了，基本原理用的是爬虫去爬新闻门户网站的代码，可以看到各新闻节点是比较规范的：存在<li>或者<table>节点下，有标题、时间、新闻链接。找到这些特征就好办了，通过Winista.HtmlParser把节点都提取出来。判断是否符合定义的新闻格式。当然，这里用到正则表达式。最近在看关于微博抓取的资料，发现数据挖掘这个领域太奇妙了。感慨自己学识有限啊。这里收集一些有意思的东西。先把一些东西备份，现在看不懂阅读全文

posted @ 2012-11-03 23:49 tonybom 阅读(963) 评论(0) 推荐(0) 编辑

tonybom

公告