随笔分类 -  数据采集

摘要:1.如何控制线程的数量?2.如何防止多线程下载同一网页?3.如何判断线程结束?4.如何控制线程结束? 下面就这几个问题提出解决方法:1.线程数量我们可以通过for循环来实现,就如同当年初学编程的打点程序一样。比如已知用户指定了n(它是一个int型变量)个线程吧,可以用如下方法开启五个线程。Thread[] downloadThread;//声名下载线程,这是C#的优势,即数组初始化时,不需要指定其... 阅读全文
posted @ 2009-10-12 09:26 周骏 阅读(542) 评论(0) 推荐(0) 编辑
摘要:多线程这里,我主要是使用全局变量来控制当前线程数量,在每个线程内部,已启动就进行原子操作增加当前活动线程数量,线程结束时再进行原子操作,减少当前活动线程数量。当队列为空并且活动线成为0时,认为任务完成,退出循环。如果队列为空但是有活动线程则主线程休眠,然后再次判断条件。队列线程均不为空,或队列不空线程为空,判断线程数量并决定是否开启新线程抓取。 /* * XssScan.cs,云舒,070704下... 阅读全文
posted @ 2009-10-10 13:08 周骏 阅读(1113) 评论(1) 推荐(0) 编辑
摘要:特殊字符有不少元字符在试图对其进行匹配时需要进行特殊的处理。要匹配这些特殊字符,必须首先将这些字符转义,也就是在前面使用一个反斜杠 (\)。下表给出了这些特殊字符及其含义:特殊字符说明$匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身,请使用 \$。( )标记一个子表达式的开始和结束位置。子表达式可以... 阅读全文
posted @ 2009-05-22 09:24 周骏 阅读(2510) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示