todoit - 博客园

2012年5月3日

摘要：命名实体抽取阅读全文

posted @ 2012-05-03 21:50 todoit 阅读(1941) 评论(0) 推荐(1)

2012年4月28日

摘要：转自TF-IDF 以及文本相似性度量 | 丕子因为最近在开发一个个性化文献推荐系统，所以考虑了怎么进行基于内容的用户推荐，简单的说就是怎么样描述文献和用户之间的相似度。TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF. 阅读全文

posted @ 2012-04-28 16:47 todoit 阅读(590) 评论(0) 推荐(0)

2012年4月27日

【转】java文件输出流，写到.txt文件，如何实现换行

摘要： java中写.txt文件，实现换行的几种方法：1.使用java中的转义符"\r\n":Java代码Stringstr="aaa";str+="\r\n"; 这样在str后面就有换行了．　注意：\r,\n的顺序是不能够对换的，否则不能实现换行的效果．2.BufferedWriter的newline()方法:Java代码FileOutputStreamfos=newFileOutputStream("c;\\11.txt");BufferedWriterbw=newBufferedWriter(fos);bw.writ 阅读全文

posted @ 2012-04-27 11:36 todoit 阅读(11673) 评论(1) 推荐(0)

2012年4月23日

【转】ultraedit 正则表达式

摘要： UltraEdit风格正则表达式语法1、%功能说明: 匹配一行的开始位置。这个符号表示所寻找的字符在每一行的开始的位置，不包括每一行其上一行的结束字符。2、$功能说明：匹配一行的结束位置。这个符号表示所寻找的字符在每一行的结束的位置。这个$和上面说的“行头”恰恰相反，它是“行尾”。3、?功能说明：匹配每一个字符，除了“换行符”以外。4、*功能说明：匹配任意个数的任何字符，除了“换行符”以外。5、+功能说明：匹配一个或多个所提到的字符或是表达式，至少要出现一次。不匹配重复的“换行符”。6、++功能说明：匹配零次或是很多次所提到的字符或表达式，不匹配重复的“换行符”。7、^b功能说明：匹配分页符。阅读全文

posted @ 2012-04-23 13:05 todoit 阅读(1185) 评论(0) 推荐(0)

【转】自然语言处理P,R,F值的计算公式

摘要： http://blog.csdn.net/wen718/article/details/5960666在对汉语分词性能进行评估时，采用了常用的３个评测指标：准确率（Ｐ）、召回率（Ｒ）、综合指标Ｆ值（Ｆ）。准确率表示在切分的全部词语中，正确的所占的比值。召回率指在所有切分词语中（包括切分的和不应该忽略的），正确切分的词语所占的比值。准确率描述系统切分的词语中，正确的占多少。召回率表示应该得到的词语中，系统正确切分出了多少。计算公式如下：Ｐ＝准确切分的词语数/切分出的所有词语数Ｒ＝准确切分的词语数/应该切分的词语数实际评估一个系统时，应同时考虑Ｐ和Ｒ，但同时要比较两个数值，很难做到一目了然。所以阅读全文

posted @ 2012-04-23 11:27 todoit 阅读(2068) 评论(0) 推荐(0)

2012年4月21日

Java heap space 解决方法

摘要：今天用MetaMap处理pubmed数据，总是遇到java.lang.OutOfMemoryError: Java heap space，在网上搜了一大圈，终于找到了解决方法，记录一下。以下内容来自：wfnlibo因为程序要从数据读取近10W行记录处理，当读到9W的时候就出现java.lang.OutOfMemoryError: Java heap space 这样的错误。在网上一查可能是JAVA的堆栈设置太小的原因。跟据网上的答案大致有这两种解决方法：1、设置环境变量set JAVA_OPTS= -Xms32m -Xmx512m可以根据自己机器的内存进行更改,但本人测试这种方法并没有解决问题阅读全文

posted @ 2012-04-21 20:14 todoit 阅读(1271) 评论(0) 推荐(0)

java学习笔记——jsp简单方法读取txt文本数据

摘要：该方法不需要数据库和excel插件，程序简单，实现速度快。目标：如下面的txt文档有200多个，每个txt文档都有20条不规则记录，需要将每个文档中的每条数据保存到excel中。这些txt是从网站中保存下来的，由于一些网站要验证session和ip，所以不是很好实现网上抓取，就对下载下来的文本文件进行处理，以后再研究网上抓取的过程。文本片段例子： HIGHLY CITED PAPERS FOR (PEOPLES R CHINA) Sorted by: Citations Publication Year Journal Title 881 - 900 ... 阅读全文

posted @ 2012-04-21 19:58 todoit 阅读(4309) 评论(0) 推荐(1)

2009年12月13日

一个完全独立的今天

摘要： “一个完全独立的今天”，这句话是什么意思呢，在去耶鲁演讲的几个月以前，他曾乘一艘很大的海轮横渡大西洋。他看见船长站在驾驶仓里按了一个按钮，在一阵机器运转的响声后，船的几个部分就立刻彼此隔绝开了——隔成几个防水的隔舱。奥斯勒博士对那些耶鲁的学生说：“你们每一个人的机制都要比那条大海轮精美得多，而且要走的航程也遥远得多。我想奉劝诸位：你们也应该学会控制自己的一切。只有活在一个“完全独立的今天”中，才能在航行中确保安全。在驾驶仓中，你会发现那些大隔舱都各有用处。按下一个按钮。注意观察你生活中的每一个侧面，用铁门把过去隔断——隔断那些已经逝去的昨天；按下另一个按组，用铁门把未来也隔断——隔断那些尚未. 阅读全文

posted @ 2009-12-13 16:13 todoit 阅读(304) 评论(0) 推荐(0)

2009年12月12日

元数据登记系统

摘要：摘自" 科技部科技基础条件平台工作重点项目研究成果---《元数据标准规范开放登记系统研究》作者：梁娜，张晓林 "中部分内容元数据登记系统作为公共、公开、可靠和可持续的机制，支持元数据定义信息的规范化发布和检索，对于复杂环境下的开放的数字信息服务机制具有重要意义。一、元数据登记系统的基本类别：（1）单一命名域（Namespace）MR负责管理一个命名域的元数据，例如DCMIRegistry http... 阅读全文

posted @ 2009-12-12 22:54 todoit 阅读(699) 评论(0) 推荐(0)

2009年12月11日

XML+RDF——实现Web数据基于语义的描述（转载）

摘要： XML+RDF——实现Web数据基于语义的描述（转载）http://www.ibm.com/developerworks/cn/xml/x-xmlrdf/index.html 阅读全文

posted @ 2009-12-11 11:05 todoit 阅读(357) 评论(0) 推荐(0)

点滴

记录我的成长之路

公告