摘要: 0. 1.参考 W3C HTML 表格 表格标签 表格元素定位 参看网页源代码并没有 thead 和 tbody。。。 2.提取表格数据 表格标题可能出现超链接,导致标题被拆分, 也可能不带表格标题。。 表格内容换行 tag 规律 2.1提取所有表格标题列表 2.2每个表格分别写入csv文件 代码处 阅读全文
posted @ 2017-10-22 16:11 my8100 阅读(13123) 评论(0) 推荐(0) 编辑
摘要: 0.目录 1.参考2.问题定位不间断空格的unicode表示为 u\xa0',超出gbk编码范围?3.如何处理.extract_first().replace(u'\xa0', u' ').strip().encode('utf-8','replace') 1.参考 Beautiful Soup a 阅读全文
posted @ 2017-10-22 13:06 my8100 阅读(6016) 评论(0) 推荐(0) 编辑