2009年12月11日
摘要: 由捕获到的数据包重组html页面技术2008-12-18 01:49由捕获到的数据包重组html页面技术 由捕获到的数据包重组html网页技术 原创:杜香和 根据解析协议得到端口号,由端口号判断对应进程,再根据进程对数据的封装格式,可以由捕获的数据包恢复数据(数据重组技术)。下面介绍如何根据捕获到的 http 协议 TCP 数据包恢复 html 网页技术。 任何一应用程序要利用网络进行通信,必须有自己的通信格式,即,发送端发送的数据,接收端要能够正确解释;接收端返回数据,发送端也要能解释返回的数据并作相应处理。浏览器也不例外。 HTTP 有两类报文,从客户到服务器的请求报文和从服务器到客户的响 阅读全文
posted @ 2009-12-11 00:21 tankzhouqiang 阅读(798) 评论(0) 推荐(0) 编辑
  2009年11月17日
摘要: LIBSVM2.83软件包的介绍和移植(vc版本)LIBSVM软件包是台湾大学林智仁(Chih-Jen Lin)博士等用C++实现的LIBSVM库,可以说是使用最方便的SVM训练工具[71]。可以解决分类问题(包括C-SVC、n-SVC)、回归问题(包括e-SVR、n-SVR)以及分布估计(one-class-SVM )等问题,提供了线性、多项式、径向基和S形函数四种常用的核函数供选择,可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。但是,在Windows环境下,此软件包只提供DOS工具集(主要包括:训练工具svmtrain.exe,预测工具svmpredic 阅读全文
posted @ 2009-11-17 01:20 tankzhouqiang 阅读(540) 评论(1) 推荐(0) 编辑
摘要: #不少文本引用自#http://blog.csdn.net/Felomeng/archive/2009/04/09/4058669.aspx#和其他等等地方from svm import *#一个有3个类的问题labels = [0, 1, 1, 2]samples = [0, 0], [0, 1], [1, 0], [1, 1]"""可以理解为这个图B-C| |A-B"""problem = svm_problem(labels, samples)#结构体svm_problem将问题形式化:#struct svm_problem#{ 阅读全文
posted @ 2009-11-17 00:54 tankzhouqiang 阅读(583) 评论(0) 推荐(0) 编辑
摘要: 支持向量机算法及其代码实现支持向量机(SVM),起初由vapnik提出时,是作为寻求最优(在一定程度上)二分类器的一种技术。後来它又被拓展到回归和聚类应用。SVM是一种基于核函数的方法,它通过某些核函数把特征向量映射到高维空间,然後建立一个线性判别函数(或者说是一个高维空间中的能够区分训练数据的最优超平面,参考异或那个经典例子)。假如SVM没有明确定义核函数,高维空间中任意两点距离就需要定义。 解是最优的在某种意义上是两类中距离分割面最近的特征向量和分割面的距离最大化。离分割面最近的特征向量被称为”支撑向量”,意即其它向量不影响分割面(决策函数)。 有很多关于SVM的参考文献,这是两篇较好的入 阅读全文
posted @ 2009-11-17 00:43 tankzhouqiang 阅读(1424) 评论(0) 推荐(0) 编辑
  2009年11月16日
摘要: 使用 JTidy 协助抽取网页内容Tidy 是 W3C 用来解析网页的一个软件包,可以方便地将 HTML 文档转换为符合 XML 标准的文档,由于 XML 可以方便地使用 XSLT 技术对内容进行抽取,所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来,保存成我们需要的格式。通过 JTidy 可以方便地将标准的 HTML 网页转换为 XML 的 DOM 对象,然后,通过 XPaht 和 XSLT 将需要的内容抽取出来。使用 JTidy 抽取网页内容的代码如下:package com.tsinghua;import java.io.File;import java.io.Fi 阅读全文
posted @ 2009-11-16 14:43 tankzhouqiang 阅读(196) 评论(0) 推荐(0) 编辑
  2009年11月12日
摘要: WinPcap学习笔记2008年05月09日 星期五 下午 05:33这是上学期上的《网络编程实践》课上,老师提供的学习文档。基本上算比较基础的内容了。第三部分有一些源代码,发过来的时候我删掉了,都是WinPcap官方提供的文档里面的例子,官方文档的内容其实已经非常完整了,如果英文看不懂的话,网上搜索一下也有中文的版本。把官方文档的教程看完了也就能掌握基本的了。——————————————————————————————————————————————————————一、什么是WINPCAPwinpcap(windows packet capture)是windows平台下一个免费、开源、公共 阅读全文
posted @ 2009-11-12 19:33 tankzhouqiang 阅读(400) 评论(0) 推荐(0) 编辑
  2009年11月4日
摘要: 转] heritrix学习总结JAVA 2009-10-03 21:59 阅读17评论0 字号: 大大 中中 小小 1 下载 和 解压从http://crawler.archive.org/下载解压到本地 E:\heritrix-1.14.32 配置环境变量HERITRIX_HOME=E:\heritrix-1.14.3path后追加 ;%HERITRIX_HOME%\bin3配置 heritrix 拷贝E:\heritrix-1.14.3\conf\jmxremote.password.template到E:\heritrix-1.14.3下并从命名为jmxremote.password 修 阅读全文
posted @ 2009-11-04 18:47 tankzhouqiang 阅读(343) 评论(0) 推荐(0) 编辑
摘要: [转] eclipse中配置heritrix的图文过程----heritrix-1.14.3 JAVA 2009-10-03 21:02 阅读46评论0 字号: 大大 中中 小小 关于搜索引擎书籍中国目前比较少,有过这方面了解的朋友一般都看过2007年人民邮电出版 lucene 2.0+heritrix 这本书吧。本人感觉还不错,理论知识较少点,具体步骤还比较详细。适合初学者。 简单介绍下heritrix: heritrix 是Java编写的开源爬虫。 扩展性比较好,但是配置适合的采集规则,比较复杂难理解。适合学习和研究。 此书中的heritrix在eclipse中的配置写的不够详细,我把自己 阅读全文
posted @ 2009-11-04 18:20 tankzhouqiang 阅读(665) 评论(0) 推荐(0) 编辑