摘要: 首先大家需要清楚一点的是:任何网站的页面,无论是php、jsp、aspx这些动态页面还是用后台程序生成的静态页面都是可以在浏览器中查看其HTML源文件的。所以当你要开发数据采集程序的时候,你必须先对你试图采集的网站的前台页面结构(HTML)要有所了解。当你对要采集数据的网站里的HTML源文件内容十分熟悉之后,剩下程序上的事情就很好办了。因为C#对Web站点进行数据采集其原理就在于“把你要采集的页面HTML源文件下载下来,分析其中HTML代码然后抓取你需要的数据,最后将这些数据保存到本地文件”。基本流程如下图所示:1.页面源文件下载首先引用System.Net命名空间usingSystem.Ne 阅读全文
posted @ 2011-06-24 15:12 云中雀 阅读(666) 评论(0) 推荐(1) 编辑
摘要: 字符串和正则表达式 一、 System.String 类 复习前面知识 二、正则表达式 1、引入:在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。 Windows/Dos下用于文件查找的通配符(wildcard),也就是*和?。如果你想查找某个目录下的所有的Word文档的话,你会搜索*.doc。在这里,*会被解释成任意的字符串。和通配符类似,正则表达式也是用来进行文本匹配的工具,只不过比起通配符,它能更精确地描述你的需求。 2、简单例子: 代码:View Code 1 using Sy 阅读全文
posted @ 2011-06-24 15:08 云中雀 阅读(323) 评论(0) 推荐(1) 编辑
摘要: 主要有12条:1. Make fewer HTTP requests 尽可能少的http请求其中JS请求,CSS请求,CSS background images请求,如果这3项加载的过多,对页面加载的非常不利,但纯img请求,并没有列为不利因素一般情况下页面上只会出现一个JS和一个CSS(对JS的封装得有一定的要求)。一般页面上的ICON,栏目背景啊,图片按钮啊,我们都会用图片CSS背景来实现,而一般这个图片CSS背景用到的图片都是比较小的,所以完全可以把这些图片合并成一个相对比较大的图片,这样页面上只会出现一个CSS background images请求,最多也就2-3个。后来仔细看了下雅 阅读全文
posted @ 2011-06-10 09:01 云中雀 阅读(253) 评论(0) 推荐(1) 编辑
摘要: http://www.cnblogs.com/parry/archive/2011/03/19/outputcache_in_mvc3.html 阅读全文
posted @ 2011-06-09 08:57 云中雀 阅读(225) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/jams742003/archive/2010/02/21/1670155.html 阅读全文
posted @ 2011-06-08 10:36 云中雀 阅读(279) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/P_Chou/archive/2011/01/07/details-asp-net-mvc-09.htmlhttp://www.bianceng.cn/webkf/aspx/201105/26702_2.htm 阅读全文
posted @ 2011-06-07 19:51 云中雀 阅读(385) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/dudu837/archive/2010/08/06/1793789.html 阅读全文
posted @ 2011-06-04 19:56 云中雀 阅读(199) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/answercard/archive/2011/05/07/2039657.html 阅读全文
posted @ 2011-06-02 19:17 云中雀 阅读(276) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/upupto/archive/2011/03/02/1968765.html 阅读全文
posted @ 2011-06-02 19:00 云中雀 阅读(212) 评论(0) 推荐(0) 编辑
摘要: Temporary ASP.Net Files探究 了解.net平台的兄弟都知道,.net也是采用动态编译的也就是说我们常说的build生成的dll只是中间代码而在web第一次请求的时候才是真正意义上的编译生成二进制代码这也就是为什么刚编译完第一次打开web页面的时候会比较慢的原因好了,闲话少扯今天一个兄弟问我,为什么他开发环境打开编译后的页面越来越慢下面是我的解决方案:1.关掉inetinfo.exe的进程2.关掉aspnet_wp.exe3.关掉打开的visual studio4.清掉%SystemRoot%\Microsoft.NET\Framework\versionNumber\Te 阅读全文
posted @ 2011-06-02 17:32 云中雀 阅读(4571) 评论(1) 推荐(0) 编辑