摘要: 比如一段html: <td>t1</td><td>t2</td><td>t3</td>我们想取出<td>与</td>之间的值,使用如下捕获组正则即可达到要求: 调用:GetHtmls(“<td>”, “</td>”, html)/// <summary> /// ... 阅读全文
posted @ 2010-01-09 23:30 真功夫 阅读(1046) 评论(1) 推荐(0) 编辑
摘要: 搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容。简单来说,就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分(我们这里不考虑图片). 将HTML文本中的标记分为:注释,script ,style,以及其他标记分别去掉: 1.去注释,正则为: output = Regex.Replace(input, @"<!--[^-]*-->&... 阅读全文
posted @ 2010-01-09 23:22 真功夫 阅读(830) 评论(0) 推荐(0) 编辑
摘要: 网页自动登录和提交POST信息的核心就是分析网页的源代码(HTML),在C#中,可以用来提取网页HTML的组件比较多,常用的用WebBrowser、WebClient、HttpWebRequest这三个。以下就分别用这三种方法来实现:       1、WebBrowser是个"迷你"浏览器,其特点是Post时不用关心Cookie... 阅读全文
posted @ 2010-01-09 22:03 真功夫 阅读(1296) 评论(0) 推荐(0) 编辑
摘要: 页自动登录(提交Post内容)的用途很多,如验证身份、程序升级、网络投票等,以下是用C#实现的方法。    网页自动登录和提交POST信息的核心就是分析网页的源代码(HTML),在C#中,可以用来提取网页HTML的组件比较多,常用的用WebBrowser、WebClient、HttpWebRequest这三个。以下就分别用这三种方法来实现:    1、Web... 阅读全文
posted @ 2010-01-09 22:03 真功夫 阅读(773) 评论(0) 推荐(0) 编辑
摘要: 很多应用中,开发者需要自己构建一个浏览器,并且对通过这个浏览器提交的请求进行截获,比如用户通过这个浏览器浏览了一个网页,并向网站提交(POST) 了一些信息,我们想在其提交到网站前对这些POST数据在浏览器侧进行截获,做一些跟踪日志,或者对这些数据先加密或转换后再发送到服务 器。.Net   提供的WebBrowser控件可以让开发者很轻松的构建一个类似IE的浏览器,但这个控件... 阅读全文
posted @ 2010-01-09 22:02 真功夫 阅读(7418) 评论(4) 推荐(2) 编辑
摘要: 这是我一年前写的一个用C#模拟以POST方式提交表单的代码,现在记录在下面,以免忘记咯。那时候刚学C#~忽忽。。很生疏。。代码看上去也很幼稚 臃肿不堪 #region 内容添加函数(Contentinsert)     public string Contentinsert(string bookID, string bookTitle, string bookCo... 阅读全文
posted @ 2010-01-09 22:02 真功夫 阅读(16751) 评论(0) 推荐(1) 编辑
摘要: 话说有了WebBrowser类,终于不用自己手动封装SHDocVw的AxWebBrowser这个ActiveX控件了。这个类如果仅仅作为一个和IE一模一样浏览器,那就太没意思了(还不如直接用IE呢)。那么,无论我们是想做一个“定制版IE”,还是希望利用HTML来做用户界面(指WinApp而非WebApp。许多单机软件,包括Windows的帮助支持中心,都是HTML做的),都少不了Windows F... 阅读全文
posted @ 2010-01-09 22:01 真功夫 阅读(4109) 评论(0) 推荐(0) 编辑
摘要: 今天发现使用WebBrowser时载入一个页面后DocumentCompleted事件会被调用2次,后来发现这两次WebBrowser的ReadyState状态是不一样的,第一次是Intercative,第二次是Complete。MSDN上面对两个状态值的解释是:Complete 该控件已完成新文档及其所有内容的加载。Interactive 该控件已经加载足够的文档以允许有限的用户交互,比如单击已... 阅读全文
posted @ 2010-01-09 21:32 真功夫 阅读(867) 评论(0) 推荐(0) 编辑
摘要: 曾今向网友介绍过我的一个自己编写的自动填写网页表单的小程序,很多网友都觉得很实用,也许多会对这个程序的源码很感兴趣,这里我只是简介下程序中用到的主要代码。最初我是通过下面这篇文章渐渐积累的相关知识,再慢慢完善,现转来同大家分享,共同学习。 话说有了WebBrowser类,终于不用自己手动封装SHDocVw的AxWebBrowser这个ActiveX控件了。这个类如果仅仅作为一个和IE一模一样浏览器... 阅读全文
posted @ 2010-01-09 19:09 真功夫 阅读(9416) 评论(3) 推荐(2) 编辑
摘要: 公司每天都要平凡登录几个特定网站,每次输帐号密码,很是不爽. 利用C# webBrowser 想自动填表提交登录. 结果发现其中有被登录网站表单中的登录按扭没有name名字 表单如下所示: C# code <form id="f_login" name="f_login" target="_top" method="pos... 阅读全文
posted @ 2010-01-09 19:08 真功夫 阅读(3042) 评论(0) 推荐(0) 编辑
摘要: 判断是否网络正常 private   bool IsConnectedToInternet() {     int Desc;     return internet.InternetGetConnectedState(out   Desc, 0); }   设置默认页... 阅读全文
posted @ 2010-01-09 19:01 真功夫 阅读(848) 评论(0) 推荐(0) 编辑
摘要: HTMLParser HTMLParser是Python自带的模块,能够很容易实现HTML文件的处理 使用HTMLParser解析HTML文件 BeautifulSoup 看了一下介绍,觉得功能很强劲,还没又时间去研究。 BeautifulSoup简单文档有空我会去完善的。 从HTML文件中抽取正文的简单方案 从HTML文件中抽取正文的简单方案 从HTML中得到准确的文章标题 (原创... 阅读全文
posted @ 2010-01-09 18:39 真功夫 阅读(989) 评论(0) 推荐(0) 编辑
摘要: SQLite 是个轻量级的数据库系统,无需系统服务,只有一个db文件,可移植性很好。 如果有大量数据需要处理的话是个很好的选择。 SQLite 安装 Windows下使用Python2.5版本可以直接使用。 在Linux下面需要先装sqlite再装Python否则会出现“No module named _sqlite3”的错误: >>> import sqlite3Trac... 阅读全文
posted @ 2010-01-09 18:38 真功夫 阅读(2523) 评论(0) 推荐(0) 编辑
摘要: Python 文件处理很简单,使用内置的文件类. 请看下面的例子: 打开一个文件 #open返回一个文件类infile = open("file_name")   #读整个文件内容到 file_contentfile_content = infile.read()   #读取所有行,存为list(列表)infile.seek(0)fi... 阅读全文
posted @ 2010-01-09 18:38 真功夫 阅读(532) 评论(0) 推荐(0) 编辑
摘要: 在使用urllib的时候经常会死掉,以前debug过,是没有设置 timing out 所以超时后就会死掉。 PycURL是curl的python库,虽然有些curl的功能没有实现,但是还是很强劲的。 curl是非常强劲的一个工具, google内部用它来 debug GDATA API. Using cURL to interact with Google data services 可以去... 阅读全文
posted @ 2010-01-09 18:37 真功夫 阅读(1265) 评论(0) 推荐(0) 编辑
摘要: python 为我们提供了 poplib 模块,利用这个模块,我们可以很方便的收取邮件。 # -*- coding=GBK -*-   import stringimport poplibimport StringIO, rfc822   servername = "pop3.126.com"username = "usern... 阅读全文
posted @ 2010-01-09 18:37 真功夫 阅读(1453) 评论(0) 推荐(0) 编辑
摘要: 使用Python自带的cgi库,可以很容易的实现CGI编程。 下面的例子实现了使用 类FieldStorage 得到POST或GET参数的方法 表单示例 <form method="POST" action="http://host.com/cgi-bin/test.py"> <p>Your first name: <inp... 阅读全文
posted @ 2010-01-09 18:36 真功夫 阅读(2773) 评论(1) 推荐(0) 编辑
摘要: 在使用urllib的时候经常会死掉,以前debug过,是没有设置 timing out 所以超时后就会死掉。 PycURL是curl的python库,虽然有些curl的功能没有实现,但是还是很强劲的。 curl是非常强劲的一个工具, google内部用它来 debug GDATA API. Using cURL to interact with Google data services 可以去... 阅读全文
posted @ 2010-01-09 18:34 真功夫 阅读(837) 评论(0) 推荐(0) 编辑
摘要: [1]使用PyExcelerator读写EXCEL文件(Platform: Win,Unix-like) 优点:简单易用      缺点:不可改变已存在的EXCEL文件。 PyExcelerator是一个开源的MS Excel文件处理python包。它主要是用来写 Excel 文件.URL:  http://sourceforge.net... 阅读全文
posted @ 2010-01-09 18:22 真功夫 阅读(3983) 评论(0) 推荐(0) 编辑
摘要: Python控制Photoshop(Python+Com)#这个脚本演示了如何控制PhotoshopCS。#功能:打开D:\\32.bmp文件from win32com.client import DispatchPHApp = Dispatch("Photoshop.Application")numDocs = PHApp.Documents.countif numDocs ... 阅读全文
posted @ 2010-01-09 18:20 真功夫 阅读(3785) 评论(1) 推荐(0) 编辑