随笔- 54 文章- 3 评论- 762 阅读- 39万

开始学习web scraping

最近在做一个关于web scraping的项目，这几天一直在看相关的资料。国内好像研究不多，baidu找了很久都找不到需要的，而google上太多了。主要看了看dapper，一个API自定义网站，可以把网页中特定内容模块抽取出来，组成用户想要的内容信息，可以生成html,xml,rss..等。这里有一个demo，看了就会用 [dapper demo]。

posted on 2007-04-25 11:06 紫色阴影阅读(860) 评论(5) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试？测试工程师会被淘汰吗？

公告

本blog原创文字只代表本人某一时间内的观点或结论，与本人所在公司没有任何关系。第三方若用于商业用途的转载，须取得本人授权。一般的引用、转载请标明出处。
------------------------------
姓名：黄昕
MSN：babyrockxray@hotmail.com
Email：bluse.huang@gmail.com
现就职于Tencent SNG

曾就职于
ThoughtWorks中国
Hanna Strategies(现Autodesk)中国

昵称：紫色阴影
园龄： 18年3个月
粉丝： 80
关注： 1

<

2007年4月

>

日

一

二

三

四

五

六

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

随笔分类 (57)

.Net(7)

ADO.NET Entity (2)

Agile(9)

Android(1)

Asp.net 2.0(7)

Asp.net MVC(1)

Design(4)

For rss sub(1)

Linq(14)

News(2)

SharePoint 2007(1)

Something(7)

Web Scraping(1)

随笔档案 (54)

2012年11月(1)

2010年1月(1)

2009年11月(1)

2009年10月(3)

2009年9月(1)

2009年2月(1)

2009年1月(1)

2008年7月(1)

2008年6月(5)

2008年5月(1)

2008年1月(2)

2007年11月(2)

2007年10月(6)

2007年9月(1)

2007年8月(2)

文章分类 (3)

我的收藏(3)

Friends

Mo Li

Ye Zheng

Patrick Kua

gigix

Personal

我的相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:在团队中如何推行一项新的实践
【人的一生】0岁出场，10岁成长，20岁彷徨，30岁定向，40岁打拼，50岁回望，60岁告老，70岁搓麻，80岁晒太阳，90岁躺床上，100岁挂墙上。生的伟大，死的凄凉，能牵手的时候，请别肩并肩，能拥...
--前方一片光明
2. Re:持续集成简介
有个百度效率云，里面包含持续交付iPipe，有兴趣的可以看看，一起分享下
--小点小
3. Re:Linq之动态条件(1)
Expression.Constant(123, typeof(Int64));
为什么报 “ 参数类型不匹配”？谢谢。
--Jai1985
4. Re:Android ellipsize的小问题
字体文件在哪
--Wendell_Sir
5. Re:Linq之动态条件(1)
业务是稳定的, 即使有一定的动态性, 也可以归纳, 文章中的示例为什么不这样解决:var results = candidates.Where(str => { for (int i = 0; i <...
--departure
6. Re:Linq to SQL的Select性能测试
if (reader.Read()){ Product p = new Product(); p.ProductID = (int)reader["ProductID"]; p.ProductName...
--conanvista
7. Re:使用Linq实现强类型反射
学习了，引用下
--浣霜之剑
8. Re:谈谈领域模型--贫血还是充血？
学习了解中。
--紫色的奶牛
9. Re:Linq之动态条件(1)
下一篇！！！！
--avak
10. Re:Android ellipsize的小问题
这个问题纠结我好久啦，按照楼主的方式，一实验，果断无乱码。
--cczscq
11. Re:Linq之动态条件(1)
您好，请问下这个你是怎么做的？到现在为止，请联系下 yjddit@qq.com
--大海啊
12. Re:asp.net TreeView 一些操作
有一个BUG，当所有的子节点全部取消的时候父节点仍然是选中状态。
--无影
13. Re:Linq to SQL之查询和添加
@ 雲淡風清引用NorthwindDataContext ctx = new NorthwindDataContext(); Customer c = new Customer { CustomerI...
--蛊惑的我
14. Re:Linq to SQL之删除
@ JesseWong我的也不出怎么弄的？...
--xuebin.du
15. Re:谈谈领域模型--贫血还是充血？
充血模型：层次结构和上面的差不多，不过大多业务逻辑和持久化放在Domain Object里面，Business Logic只是简单封装部分业务逻辑以及控制事务、权限等，这样层次结构就变成Client-...
--bikaqiou2000

我要啦免费统计