2010 年 1月 9 日随笔档案 - 真功夫

2010年1月9日

摘要：比如一段html: <td>t1</td><td>t2</td><td>t3</td>我们想取出<td>与</td>之间的值，使用如下捕获组正则即可达到要求：调用:GetHtmls(“<td>”, “</td>”, html)/// <summary> /// ... 阅读全文

posted @ 2010-01-09 23:30 真功夫阅读(1046) 评论(1) 推荐(0) 编辑

c# 正则表达式对网页进行有效内容抽取

摘要：搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容。简单来说，就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分（我们这里不考虑图片）. 将HTML文本中的标记分为:注释,script ,style，以及其他标记分别去掉： 1.去注释,正则为: output = Regex.Replace(input, @"&... 阅读全文

posted @ 2010-01-09 23:22 真功夫阅读(830) 评论(0) 推荐(0) 编辑

C#网页自动登录和提交POST信息的多种方法

摘要：网页自动登录和提交POST信息的核心就是分析网页的源代码（HTML），在C#中，可以用来提取网页HTML的组件比较多，常用的用WebBrowser、WebClient、HttpWebRequest这三个。以下就分别用这三种方法来实现： 1、WebBrowser是个"迷你"浏览器，其特点是Post时不用关心Cookie... 阅读全文

posted @ 2010-01-09 22:03 真功夫阅读(1296) 评论(0) 推荐(0) 编辑

C#三种模拟自动登录和提交POST信息的实现方法

摘要：页自动登录（提交Post内容）的用途很多，如验证身份、程序升级、网络投票等，以下是用C#实现的方法。网页自动登录和提交POST信息的核心就是分析网页的源代码（HTML），在C#中，可以用来提取网页HTML的组件比较多，常用的用WebBrowser、WebClient、HttpWebRequest这三个。以下就分别用这三种方法来实现： 1、Web... 阅读全文

posted @ 2010-01-09 22:03 真功夫阅读(773) 评论(0) 推荐(0) 编辑

C#用WebBrowser控件获取Post数据

摘要：很多应用中，开发者需要自己构建一个浏览器，并且对通过这个浏览器提交的请求进行截获，比如用户通过这个浏览器浏览了一个网页，并向网站提交（POST) 了一些信息，我们想在其提交到网站前对这些POST数据在浏览器侧进行截获，做一些跟踪日志，或者对这些数据先加密或转换后再发送到服务器。.Net 提供的WebBrowser控件可以让开发者很轻松的构建一个类似IE的浏览器，但这个控件... 阅读全文

posted @ 2010-01-09 22:02 真功夫阅读(7418) 评论(4) 推荐(2) 编辑

c#以POST方式模拟提交表单

摘要：这是我一年前写的一个用C#模拟以POST方式提交表单的代码，现在记录在下面，以免忘记咯。那时候刚学C#~忽忽。。很生疏。。代码看上去也很幼稚臃肿不堪 #region 内容添加函数(Contentinsert) public string Contentinsert(string bookID, string bookTitle, string bookCo... 阅读全文

posted @ 2010-01-09 22:02 真功夫阅读(16751) 评论(0) 推荐(1) 编辑

C#实现表单提交（1）

摘要：话说有了WebBrowser类，终于不用自己手动封装SHDocVw的AxWebBrowser这个ActiveX控件了。这个类如果仅仅作为一个和IE一模一样浏览器，那就太没意思了（还不如直接用IE呢）。那么，无论我们是想做一个“定制版IE”，还是希望利用HTML来做用户界面（指WinApp而非WebApp。许多单机软件，包括Windows的帮助支持中心，都是HTML做的），都少不了Windows F... 阅读全文

posted @ 2010-01-09 22:01 真功夫阅读(4109) 评论(0) 推荐(0) 编辑

关于WebBrowser.DocumentCompleted事件

摘要：今天发现使用WebBrowser时载入一个页面后DocumentCompleted事件会被调用2次，后来发现这两次WebBrowser的ReadyState状态是不一样的，第一次是Intercative,第二次是Complete。MSDN上面对两个状态值的解释是：Complete 该控件已完成新文档及其所有内容的加载。Interactive 该控件已经加载足够的文档以允许有限的用户交互，比如单击已... 阅读全文

posted @ 2010-01-09 21:32 真功夫阅读(867) 评论(0) 推荐(0) 编辑

C# WebBrowser实现网页自动填表

摘要：曾今向网友介绍过我的一个自己编写的自动填写网页表单的小程序，很多网友都觉得很实用，也许多会对这个程序的源码很感兴趣，这里我只是简介下程序中用到的主要代码。最初我是通过下面这篇文章渐渐积累的相关知识，再慢慢完善，现转来同大家分享，共同学习。话说有了WebBrowser类，终于不用自己手动封装SHDocVw的AxWebBrowser这个ActiveX控件了。这个类如果仅仅作为一个和IE一模一样浏览器... 阅读全文

posted @ 2010-01-09 19:09 真功夫阅读(9416) 评论(3) 推荐(2) 编辑

C# webBrowser 自动表单提交问题

摘要：公司每天都要平凡登录几个特定网站,每次输帐号密码,很是不爽. 利用C# webBrowser 想自动填表提交登录. 结果发现其中有被登录网站表单中的登录按扭没有name名字表单如下所示: C# code <form id="f_login" name="f_login" target="_top" method="pos... 阅读全文

posted @ 2010-01-09 19:08 真功夫阅读(3042) 评论(0) 推荐(0) 编辑

C# ,webBrowser,登录,数据填充,模拟点击链接,运行JS函数

摘要：判断是否网络正常 private bool IsConnectedToInternet() { int Desc; return internet.InternetGetConnectedState(out Desc, 0); } 设置默认页... 阅读全文

posted @ 2010-01-09 19:01 真功夫阅读(848) 评论(0) 推荐(0) 编辑

Python 解析 html 文件

摘要： HTMLParser HTMLParser是Python自带的模块，能够很容易实现HTML文件的处理使用HTMLParser解析HTML文件 BeautifulSoup 看了一下介绍，觉得功能很强劲，还没又时间去研究。 BeautifulSoup简单文档有空我会去完善的。从HTML文件中抽取正文的简单方案从HTML文件中抽取正文的简单方案从HTML中得到准确的文章标题（原创... 阅读全文

posted @ 2010-01-09 18:39 真功夫阅读(989) 评论(0) 推荐(0) 编辑

Python SQLite 编程

摘要： SQLite 是个轻量级的数据库系统，无需系统服务，只有一个db文件，可移植性很好。如果有大量数据需要处理的话是个很好的选择。 SQLite 安装 Windows下使用Python2.5版本可以直接使用。在Linux下面需要先装sqlite再装Python否则会出现“No module named _sqlite3”的错误: >>> import sqlite3Trac... 阅读全文

posted @ 2010-01-09 18:38 真功夫阅读(2523) 评论(0) 推荐(0) 编辑

Python 文件(file)处理例子

摘要： Python 文件处理很简单，使用内置的文件类. 请看下面的例子: 打开一个文件 #open返回一个文件类infile = open("file_name") #读整个文件内容到 file_contentfile_content = infile.read() #读取所有行，存为list(列表)infile.seek(0)fi... 阅读全文

posted @ 2010-01-09 18:38 真功夫阅读(532) 评论(0) 推荐(0) 编辑

Python PycURL 网络编程

摘要：在使用urllib的时候经常会死掉，以前debug过，是没有设置 timing out 所以超时后就会死掉。 PycURL是curl的python库，虽然有些curl的功能没有实现，但是还是很强劲的。 curl是非常强劲的一个工具， google内部用它来 debug GDATA API. Using cURL to interact with Google data services 可以去... 阅读全文

posted @ 2010-01-09 18:37 真功夫阅读(1265) 评论(0) 推荐(0) 编辑

Python POP3 收取邮件

摘要： python 为我们提供了 poplib 模块，利用这个模块，我们可以很方便的收取邮件。 # -*- coding=GBK -*- import stringimport poplibimport StringIO, rfc822 servername = "pop3.126.com"username = "usern... 阅读全文

posted @ 2010-01-09 18:37 真功夫阅读(1453) 评论(0) 推荐(0) 编辑

Python CGI 编程 | 类FieldStorage的使用

摘要：使用Python自带的cgi库，可以很容易的实现CGI编程。下面的例子实现了使用类FieldStorage 得到POST或GET参数的方法表单示例 <form method="POST" action="http://host.com/cgi-bin/test.py"> <p>Your first name: <inp... 阅读全文

posted @ 2010-01-09 18:36 真功夫阅读(2773) 评论(1) 推荐(0) 编辑

Python PycURL 网络编程

posted @ 2010-01-09 18:34 真功夫阅读(837) 评论(0) 推荐(0) 编辑

用Python处理Excle文件

摘要：［1］使用PyExcelerator读写EXCEL文件(Platform: Win,Unix-like) 优点：简单易用缺点：不可改变已存在的EXCEL文件。 PyExcelerator是一个开源的MS Excel文件处理python包。它主要是用来写 Excel 文件.URL: http://sourceforge.net... 阅读全文

posted @ 2010-01-09 18:22 真功夫阅读(3983) 评论(0) 推荐(0) 编辑

Python控制Photoshop（Python＋Com）

摘要： Python控制Photoshop（Python＋Com）#这个脚本演示了如何控制PhotoshopCS。#功能：打开D:\\32.bmp文件from win32com.client import DispatchPHApp = Dispatch("Photoshop.Application")numDocs = PHApp.Documents.countif numDocs ... 阅读全文

posted @ 2010-01-09 18:20 真功夫阅读(3785) 评论(1) 推荐(0) 编辑

真功夫

公告