个人博客转至:tybai.com

无聊就想打码,打码使我快乐


Fork me on GitHub

10 2017 档案

CSDN文章抓取
摘要:在抓取网页的时候只想抓取主要的文本框,例如 中的主要文本框为下图红色框: 抓取的思想是,利用 查找所有的 ,用正则筛选出每个 里面的中文,找到中文字数最多的 就是属于正文的 了。定义一个抓取的头部抓取网页内容: 识别每个 中文字的正则: 遍历每一个 ,利用正则判断里面中文的字数长度,找到长度最长的 阅读全文

posted @ 2017-10-30 15:02 TTyb 阅读(490) 评论(0) 推荐(0) 编辑

python识别html主要文本框
摘要:在抓取网页的时候只想抓取主要的文本框,例如 中的主要文本框为下图红色框: 抓取的思想是,利用 查找所有的 ,用正则筛选出每个 里面的中文,找到中文字数最多的 就是属于正文的 了。定义一个抓取的头部抓取网页内容: 识别每个 中文字的正则: 遍历每一个 ,利用正则判断里面中文的字数长度,找到长度最长的 阅读全文

posted @ 2017-10-24 14:41 TTyb 阅读(1665) 评论(0) 推荐(0) 编辑

selenium下拉到页面最底端
摘要:selenium操控浏览器下拉到页面最底端: !/usr/bin/env python coding: utf 8 from selenium import webdriver import time if __name__ == '__main__': url = "http://blog.csd 阅读全文

posted @ 2017-10-13 18:00 TTyb 阅读(1736) 评论(0) 推荐(1) 编辑

dataframe去除null、NaN和空字符串
摘要:去除null、NaN 去除 中的 、 有方法 ,用 找出带有 、 的行,用 删除行: 去除空字符串 去除空字符串用 : 阅读全文

posted @ 2017-10-12 11:00 TTyb 阅读(9008) 评论(0) 推荐(0) 编辑

导航


不用多久

我就会升职加薪

当上总经理

出任CEO

迎娶白富美

走上人生巅峰

Pulpit rock

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示