Discuz 楼主帖子采集
try { for (int i = 1; i < 130; i++) { var html = GetHtmls("http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page="+i,"","","gbk"); var ms = Regex.Matches(html, @"<table[\s\S]+?</table"); File.AppendAllText("1.html",string.Format( "<h4>第{0}页</h4><hr>",i)); foreach (Match m in ms) { var temp = m.Groups[0].Value; if (!temp.Contains("鱼骨的个人空间")) continue; var m1 = Regex.Match(temp, @"t_msgfont"">([\s\S]+?)</div>\s+<br"); var str = m1.Groups[1].Value; str = Regex.Replace(str, @"\[<i>\s*本帖最后由.+?编辑\s*</i>\]", ""); File.AppendAllText("1.html","<p>"+str+"</p>"); } } MessageBox.Show("over"); } catch (Exception ex) { MessageBox.Show(ex.Message); }
看到这帖子不错 http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page=1
写了一段代码 进行采集,看着方便多了
365的
try { for (int i = 1; i < 36; i++) { var html = GetHtmls("http://xxxxxxx/thread-536585-"+i+"-1.html"); var ms = Regex.Matches(html, @"<tr><td\s+width\=""20%""\s+align\=""left""\s+nowrap>[\s\S]+?id\=""msg"">([\s\S]+?)</div>"); File.AppendAllText("365.html", string.Format("<h4>第{0}页</h4><hr>", i)); foreach (Match m in ms) { var temp = m.Groups[0].Value; if (!temp.Contains("5>yswgxx</font>")) continue; var m1 = Regex.Match(temp, @"(<font\s+color\=blue>[\s\S]+?)</td>"); var str = m1.Groups[1].Value;
str = str+"<br>"+m.Groups[1].Value;
File.AppendAllText("365.html", "<p>" + str.Replace("<font color=#A7CF7A><i><b>------ 发表于安卓手机365App</b></i></font>","") + "</p>");
} //break; } MessageBox.Show("over"); } catch (Exception ex) { MessageBox.Show(ex.Message); }
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)