CSDN文章抓取
摘要:
在抓取网页的时候只想抓取主要的文本框,例如 中的主要文本框为下图红色框: 抓取的思想是,利用 查找所有的 ,用正则筛选出每个 里面的中文,找到中文字数最多的 就是属于正文的 了。定义一个抓取的头部抓取网页内容: 识别每个 中文字的正则: 遍历每一个 ,利用正则判断里面中文的字数长度,找到长度最长的 阅读全文
posted @ 2017-10-30 15:02 TTyb 阅读(486) 评论(0) 推荐(0) 编辑
不用多久
我就会升职加薪
当上总经理
出任CEO
迎娶白富美
走上人生巅峰