boilerpipe(Boilerplate Removal and Fulltext Extraction from HTML pages) 源码分析

摘要: 开源Java模块boilerpipe(1.1.0), http://code.google.com/p/boilerpipe/ 使用例子, URL url = new URL("http://www.example.com/some-location/index.html "); // NOTE: Use ArticleExtractor unless DefaultExtractor give... 阅读全文
posted @ 2011-07-05 21:01 fxjwind 阅读(598) 评论(0) 推荐(0) 编辑

Python常用模块

摘要: 查找帮助 dir(string) #可以查看模块所有的成员变量和函数 #下面的代码可以把变量和函数分开放到list里面for fv in dir(string): name="string.%s"%fv if callable(eval(name)): funOrC.append(fv) else: vars.append(fv)有两个函数需要说明,eval, 功能是将字符串生成语句执行, 比如e... 阅读全文
posted @ 2011-07-05 21:00 fxjwind 阅读(405) 评论(0) 推荐(0) 编辑

Python标准模块logging

摘要: 开发Python, 一直以来都是使用自己编写的logging模块. 比较土......今天发现python的标准模块的这个功能做的挺好, 记录一下, 以后使用模块来进行logging.对于这个模块的介绍网上也很多, 我也不用自己写了, 比较好的如下,http://crazier9527.iteye.com/blog/290018 Python的标准logging模块http://blog.endlesscode.com/2010/06/03/python-logging-module/ Python的logging模块http://docs.python.org/library/logging 阅读全文
posted @ 2011-07-05 20:56 fxjwind 阅读(1246) 评论(1) 推荐(1) 编辑

Python之道 (大道至简)

摘要: The Zen of Python 1. Beautiful is better than ugly. 2. Explicit is better than implicit. 3. Simple is better than complex. 4. Complex is better than complicated. 5. Flat is better than nested. 6. Spar... 阅读全文
posted @ 2011-07-05 20:54 fxjwind 阅读(546) 评论(0) 推荐(0) 编辑

Zope简介

摘要: 之前一直使用Django在开发web应用, 觉得Django易学, 好用. 后来看到Zope, 觉得两者的scope有重合, 所以大概学习了下Zope, 记录一下. 了解Zope可以先看看这篇Blog, zope系列一: zope的悲剧 (http://www.douban.com/group/topic/11400495/) Zope(Z Object Publishing Environmen... 阅读全文
posted @ 2011-07-05 20:54 fxjwind 阅读(692) 评论(0) 推荐(0) 编辑

海量文档查同或聚类问题 -- Locality Sensitive Hash 算法

摘要: 考虑一下这个场景 , 使用网络爬虫高速爬取大量的网页内容 , 如果想把这些网页进行实时聚类 , 并从中提取每个网页聚类的主题 . 我们应该怎么样去做 对于普通或常见的聚类算法 , 比如 K-means, 或 Hierarchical 聚类 , 无法适用于这个常见 , 对于这些聚类算法无法进行 incremental 聚类 , 即在聚类开始前必须知道整个数据集 , 而这个场景中的数据集是随着爬虫不断增多的 . 而且这些聚类算法的 performance 不够高 , 比如对于 K-means 需要不断的 partition 以达到比较好的聚类效果 . 所以向来聚类算法在我的印象中是低效的 , 而面 阅读全文
posted @ 2011-07-05 20:53 fxjwind 阅读(2241) 评论(0) 推荐(0) 编辑

Inside C++ object Model--构造函数

摘要: 默认构造函数 构造函数是干啥的, 是在构造类对象的时候, 给程序员进行对象初始化操作的机会. 不仅如此, 同时也是给编译器进行对象初始化的机会. 当然程序员和编译器的扮演的角色是不一样的, 考虑的问题也是不一样的. 当程序员觉得这个类对象没有任何初始化的必要时, 他就不会特意去声明构造函数.那么对于一个类, 当程序员没有声明任何构造函数的时候, 编译器有可能 会为该类声明一个default 构造函数. 之所以是'有可能', 是因为编译器也是很懒的, 如果他也觉得这个类没有任何初始化的必要时, 他其实也是不会真正构造default 构造函数的. 只有当他认为这个构造函数为nont 阅读全文
posted @ 2011-07-05 20:49 fxjwind 阅读(339) 评论(0) 推荐(0) 编辑

Inside C++ object Model--多态(Object-Oriented)

摘要: C++支持如下三种programming paradigms(程序设计典范): 1. The procedural model as programmed in C, and, of course, supported within C++. 2. The abstract data type (ADT) model in which users of the abstraction are pr... 阅读全文
posted @ 2011-07-05 20:48 fxjwind 阅读(265) 评论(0) 推荐(0) 编辑

Inside C++ object Model--对象模型概述

摘要: 在C中, "数据"和"处理数据的操作"是分开声明的, 语言本身并没有支持"数据和函数"之间的关联性. 这种称为"procedural", 由一组算法函数所驱动, 他们处理的是共同的外部数据. 而C++, 则在程序风格, 更在程序的思考上有明显的差异, 它以ADT或class hierarchy的数据封装建立数据和操作的关联性. 在软件工程的眼光来看更为合理. 但是程序员往往出于效率和简易性考虑而选... 阅读全文
posted @ 2011-07-05 20:47 fxjwind 阅读(311) 评论(0) 推荐(0) 编辑

C语言 -- 函数内局部数组

摘要: 直接看这个例子 void test(){ char b[25]; printf("%s\n",b); b[0]= 'a'; b[1] = 'b'; b[2] = 'c'; b[3]= '\0'; printf("%s\n",b);}对于上面的test函数, 如果连续调用两次, 会得到什么样的输出 答案是: ??? abc abc abc 这是我实际测出的值, 我当时很迷惑, 为什么b是局部数组, ... 阅读全文
posted @ 2011-07-05 20:45 fxjwind 阅读(1146) 评论(1) 推荐(1) 编辑