摘要: 在宿舍的win7系统上做微博抓取,WebBrowser控件的DocumentText可以取到源代码。到了公司,从SVN上把项目弄下来运行。居然在WebBrowser.DocumentText处引发了System.IO.FileNotFoundException异常:System.IO.FileNotFoundException系统找不到指定的文件。(异常来自HRESULT:0x80070002)解决方法:升级IE!(找了半天都没有解决方法,最后自己感觉是IE版本太低了,因为公司用的IE6,很复古吧呵呵) 阅读全文
posted @ 2012-11-05 14:12 tonybom 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 最近的实习项目需要做一个大数据库(语料库),采集博客、微博、问答库的信息。将数据库的内容进行训练,最后应该是做成一个类似中文siri的模型吧。第一步新闻抓取器已经稳定运行了,基本原理用的是爬虫去爬新闻门户网站的代码,可以看到各新闻节点是比较规范的:存在<li>或者<table>节点下,有标题、时间、新闻链接。找到这些特征就好办了,通过Winista.HtmlParser把节点都提取出来。判断是否符合定义的新闻格式。当然,这里用到正则表达式。最近在看关于微博抓取的资料,发现数据挖掘这个领域太奇妙了。感慨自己学识有限啊。这里收集一些有意思的东西。先把一些东西备份,现在看不懂 阅读全文
posted @ 2012-11-03 23:49 tonybom 阅读(963) 评论(0) 推荐(0) 编辑
摘要: 国内语料库建设一览表类型语料库名称及大小建设单位英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大大学英语学习者口语语料库 COLSEC (5万)上海交大香港科技大学学习者语料库 HKUST Learner Corpus香港科技大学中国英语专业语料库 CEME (148万)南京大学中国英语学习者口语语料库 SECCL (100万)南京大学国际外语学习者英语口语语料库中国部分 LINSEI-China (10万)华南师大硕士写作语料库 MWC (12万)华中科技大学平行语料库汉英平行语料库 PCCE北外南大-国关平行语料库南京大学英汉文学作品语料库;外研社冯友兰 阅读全文
posted @ 2012-10-22 17:15 tonybom 阅读(438) 评论(0) 推荐(0) 编辑
摘要: using System.Net;using System.IO;WebRequestprivate string GetWebRequest(string url){ Uri uri = new Uri(url); WebRequest myReq = WebRequest.Create(uri); WebResponse result = myReq.GetResponse(); Stream receviceStream = result.GetResponseStream(); StreamReader readerOfStream = new Strea... 阅读全文
posted @ 2012-10-22 15:16 tonybom 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 简单点说:分类是将一片文章或文本自动识别出来,按照先验的类别进行匹配,确定。聚类就是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技术。分类和聚类都是将相似对象归类的过程。区别是,分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。 . 阅读全文
posted @ 2012-10-22 10:21 tonybom 阅读(1199) 评论(0) 推荐(0) 编辑
摘要: 无论是float型还是double型变量都存在精度的限制,所以,使用浮点型变量的一个原则就是避免将浮点型变量用“==”或“!=”与数值进行精确比较,应该借鉴误差区间的概念,转化为“>=”或“<=”形式,假设浮点型变量的名字为num,下面这种写法是存在隐患的。num == 0.0;正确的写法如下所示。((num <= delta) && (num >= -delta));其中,delta是允许的误差范围,如0.000001等。注意,该方法不仅仅适用于浮点型变量和0的比较,与其他数值的比较也同样如此。 阅读全文
posted @ 2012-10-15 10:09 tonybom 阅读(334) 评论(0) 推荐(0) 编辑