摘要: 下面介绍两个函数:File.AppendAllText(String, String)File.AppendAllText (String, String, String)File.AppendAllText 方法 (String, String)函数说明:打开一个文件,向其中追加指定的字符串,然后关闭该文件。 如果文件不存在,此方法创建一个文件,将指定的字符串写入文件,然后关闭该文件。命名空间: System.IO程序集: mscorlib(在 mscorlib.dll 中)语法:public static void AppendAllText( string path, str... 阅读全文
posted @ 2013-12-20 18:18 lmei 阅读(13945) 评论(0) 推荐(0) 编辑
摘要: 使用FormsAuthentication.HashPasswordForStoringInConfigFile("需要加密的字符串", "MD5")这个方法进行加密时,编译器显示“FormsAuthentication上下文不存在”。下面是部分代码,for(Int32 i = 100; i <= 1750; i++){ String ii = i.ToString(); string strmd5 = FormsAuthentication.HashPasswordForStoringInConfigFile(ii, "md5" 阅读全文
posted @ 2013-12-19 16:15 lmei 阅读(1078) 评论(0) 推荐(0) 编辑
摘要: 我的第一个c#练习程序,果然又出现问题了。。。在Form1_Load() not work。估计我的人品又出现问题了。下面实现的功能很简单,就是声明一个label1然后,把它初始化赋值为hello,然后点击它的时候,它显示改为world。代码如下:using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using System.Drawing;using System.Linq;using System.Text;using System.Windows.Forms; 阅读全文
posted @ 2013-12-19 13:05 lmei 阅读(13231) 评论(0) 推荐(4) 编辑
摘要: 在HTML网页中经常使用相对URL。绝对URL是不依赖其他URL路径。在一定的上下文环境可以使用相对URL。网页中的相对URL的形式如:“./index.html”。可以在<A>和<img>标签中使用相对URL。如:<img src = "../images/a.gif" />。 那么如何把相对UR 阅读全文
posted @ 2013-12-14 16:21 lmei 阅读(1270) 评论(0) 推荐(0) 编辑
摘要: 实现从Web网页提取文本之前,首先要识别网页的编码,有时候还需要进一步识别网页所使用的语言。因为同一种编码可能对应多种语言,例如UTF-8编码可能对应英文或中文等语言。 识别编码整体流程如下: (1)从WEB服务器返回的content type头信息中提取编码,如果是GB2312的编码要当GBK处理 阅读全文
posted @ 2013-12-14 15:53 lmei 阅读(1930) 评论(1) 推荐(1) 编辑
摘要: 由于要做一个系统,需要用到搜索引擎开发的很多知识点。对于开发语言的选择,我一般不是擅长什么才选择什么的,而是通过对比之后,考虑开发时间和难易程度来选择。尽管现在的开发经验还不足,也只能凭借自己弱弱的判断能力来选择。所以选择了C#。 基本语法 (C#与java的比较) (1)语法上,C#和java非常类似,主要的差别不是语言本身,而是所执行的平台。java程序运行需要运行环境JRE,而C#运行环境CLR(Common Language Runtime)。 (2)java源码可以被编译成字节代码的一种中间状态,然后由已提供的虚拟机来执行这些字节代码。而C#代码也被编译成一种中间状态,称为中... 阅读全文
posted @ 2013-12-12 16:38 lmei 阅读(676) 评论(0) 推荐(0) 编辑
摘要: 利用爬虫技术获取网页源代码后,针对网页抽取出它的特定文本内容,利用正则表达式和抽取工具,能够更好地抽取这些内容。 下面介绍一种抽取工具 -- HtmlParser HtmlParser是一个用来解析HTML文件的java包,主要用于转换、抽取两个方面。 利用HtmlParser可以实现下面内容的抽取 阅读全文
posted @ 2013-12-11 14:31 lmei 阅读(1391) 评论(2) 推荐(1) 编辑
摘要: 网络爬虫的基本操作是抓取网页。首先要了解下URL~~ 在理解URL之前,先了解下URI,这两个概念我曾经混淆过~@_@|| 什么是URI? Web上每种可用的资源,如:html文档、视频,图片等都由一个通用的资源标志符(Universal Resources Identifier,即URI)进行定位 阅读全文
posted @ 2013-12-11 13:54 lmei 阅读(1414) 评论(0) 推荐(0) 编辑
摘要: 爬虫策略: 网页抓取策略分为三种:深度优先、广度优先和最佳优先。 爬虫的行为策略: (1)选择策略:选择要下载的页面。 (2)重新访问策略:页面什么时候会更新。 (3)并行策略:通过分布式抓取获得更好效果。 爬虫的组成: 在网络爬虫的系统框架中,主要由控制器、解析器、资源库三个部分组成。 控制器:主 阅读全文
posted @ 2013-12-07 22:44 lmei 阅读(1462) 评论(0) 推荐(0) 编辑
摘要: 最近在做网页信息提取这方面的,由于没接触过这系列的知识点,所以逛博客,看文档~~看着finallyly大神的博文和文档,边看边学习边总结~~ 对网站页面进行信息提取,需要进行页面解析,解析的方法有以下几种: 1、利用HTML标记的分布规律进行解析 2、利用HTML标记间的关系进行解析 3、利用页面的 阅读全文
posted @ 2013-12-05 17:04 lmei 阅读(2215) 评论(0) 推荐(0) 编辑
摘要: DOM 是这样规定的:整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 nodeName 属性含有某个节点的名称。元素节点的 nodeName 是标签名称属性节点的 nodeName 是属性名称文本节点的 nodeName 永远是 #text文档节点的 nodeName 永远是 #document FROM:http://www.cnblogs.com/gossip/archive/2012/03/12/2392465.html 阅读全文
posted @ 2013-12-04 16:30 lmei 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://blog.csdn.net/sptoor/article/details/4930069 思路:汉字匹配,把字符都转换成宽字符,然后再匹配。 需要用到以下和宽字符有关的类: 1、wstring: 作为STL中和string相对应的类,专门用于处理宽字符串。方法和string都一样,区别是value_type是wchar_t。wstring类的对象要赋值或连接的常量字符串必须以L开头标示为宽字符。 2、wregex: 和regex相对应,专门处理宽字符的正则表达式类。同样可以使用regex_match()和regex_replace()等函数。regex_m... 阅读全文
posted @ 2013-12-03 22:26 lmei 阅读(892) 评论(0) 推荐(0) 编辑
摘要: 文本分类问题就是将文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。第一,用于分类所需要的类别体系是预先确定的第二,一篇文档并没有严格规定只能被分配给一个类别。类别分配的主观性强,同一篇文章可能被分到几个类别中。 文本分类问题,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。 因此,核心的问题便转化为用哪些特征表示一个文本才能保证有效和快速的分类(注意这两方面的需求往往是互相矛盾的)。因此自有文本分类系统的那天起,就一直是对特征的不同选择主导着方法派... 阅读全文
posted @ 2013-12-03 16:38 lmei 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。 文本聚类(Text clustering)文档聚类主要是依据著名的聚类假设: 阅读全文
posted @ 2013-12-02 16:28 lmei 阅读(660) 评论(0) 推荐(0) 编辑
摘要: SASS是一种 CSS 的开发工具,提供了许多便利的写法,大大节省了设计者的时间,使得 CSS 的开发,变得简单和可维护。 SASS 提供四个编译风格的选项:* nested:嵌套缩进的 css 代码,它是默认值。* expanded:没有缩进的、扩展的 css 代码。* compact:简洁格式的 css 代码。* compressed:压缩后的 css 代码。 注:在rails的production环境下,一般采用的是第四种编译风格。 sass安装和使用 1 、安装 SASS 是 Ruby 语言写的,但是两者的语法没有关系。不懂 Ruby,照样使用。只是必须先安装 Ruby,然后... 阅读全文
posted @ 2013-11-29 22:54 lmei 阅读(267) 评论(0) 推荐(0) 编辑
摘要: git clone 命令参数:usage: git clone [options] [--] [] -v, --verbose be more verbose -q, --quiet be more quiet --progress force progress reporting -n, --no-checkout don't create a checkout --bare create a bare repository --mirror ... 阅读全文
posted @ 2013-11-29 22:32 lmei 阅读(1365) 评论(0) 推荐(0) 编辑
摘要: 1.git init 当前目录初始化2.git status 检查当前文件状态Changes to be committed” 这行下面的,就说明是已暂存状态Changed but not updated” 这行下面,说明已跟踪文件的内容发生了变 化,但还没有放到暂存区。要暂存这次更新,需要运行git add命令3.git add . 修改目录下所有文件 ;git add 文件名 修改此文件4.cat .gitignore 忽略某些文件5.git diff 查看尚未暂存的文件更新了哪些部分 ; 终端用p 停止查看6.git commit 提交更新7.编辑提交文件的后出错,删掉swp文件8... 阅读全文
posted @ 2013-11-29 22:24 lmei 阅读(275) 评论(0) 推荐(0) 编辑
摘要: .htaccess文件(或者"分布式配置文件")提供了针对目录改变配置的方法, 即,在一个特定的文档目录中放置一个包含一个或多个指令的文件, 以作用于此目录及其所有子目录。作为用户,所能使用的命令受到限制。管理员可以通过Apache的AllowOverride指令来设置。概述来说,htaccess文件是Apache服务器中的一个配置文件,它负责相关目录下的网页配置。通过htaccess文件,可以帮我们实现:网页301重定向、自定义404错误页面、改变文件扩展名、允许/阻止特定的用户或者目录的访问、禁止目录列表、配置默认文档等功能。Unix、Linux系统或者是任何版本的Ap 阅读全文
posted @ 2013-10-18 16:29 lmei 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 在Apache服务器的前提下利用.htaccess文件来防盗链的原理是通过检查图片或文件请求头信息中的Referer属性(也就是请求的来源),判断它是否属于你所规定的合法的请求来源,从而实现让合法来源能够获得请求的图片或文件、不合法的请求被转向到另一个指定的链接(通常是盗链提示的图片,并且尽量控制该文件大小从而降低流量损耗)。具体的做法是在.htacess文件中添加类似以下几行的代码RewriteEngine onRewriteCond %{HTTP_REFERER} !^$ [NC]RewriteCond %{HTTP_REFERER} !purplesecond.com [NC]Rewri 阅读全文
posted @ 2013-10-18 16:20 lmei 阅读(556) 评论(0) 推荐(0) 编辑
摘要: ThinkPHP是一款不错的轻量级的PHP+MVC框架,它吸取了Ruby On Rails的特性,不仅将Model、View、Controller分开,而且实现了ORM、模板标签等高级特性。 开发工具:个人推荐调试工具用phpstorm,这款工具和RubyMine是同种风格的,相对其他开发工具更方便调试。刚开始体验php开发的时候,是用wampserver这款集成工具,因为比较简单入手,但是其实最好还是不要用集成的,这样会更安全些。 ThinkPHP框架初体验 下载地址:http://www.thinkphp.cn/down.html下载完,拷贝到wampserver的www目录中,这个时候T 阅读全文
posted @ 2013-10-18 15:49 lmei 阅读(994) 评论(0) 推荐(0) 编辑