个人博客转至:tybai.com

无聊就想打码,打码使我快乐


Fork me on GitHub

2017年10月24日

python识别html主要文本框

摘要: 在抓取网页的时候只想抓取主要的文本框,例如 中的主要文本框为下图红色框: 抓取的思想是,利用 查找所有的 ,用正则筛选出每个 里面的中文,找到中文字数最多的 就是属于正文的 了。定义一个抓取的头部抓取网页内容: 识别每个 中文字的正则: 遍历每一个 ,利用正则判断里面中文的字数长度,找到长度最长的 阅读全文

posted @ 2017-10-24 14:41 TTyb 阅读(1659) 评论(0) 推荐(0) 编辑

导航


不用多久

我就会升职加薪

当上总经理

出任CEO

迎娶白富美

走上人生巅峰

Pulpit rock