上一页 1 2 3 4 5 6 ··· 11 下一页
摘要: 昨天下午发现在入数据的时候总是报这个异常,日志里一大堆,很明显是长度超了,但是查看了DDL,text类型 后来通过直接把数据存入mysql,发现没什么问题,那问题出在哪里呢? 再次查看代码,因为存储的是html源码,后面通过html.escape(html_src) 这样已编码,长度就会增加, 在此 阅读全文
posted @ 2022-04-07 10:30 kakaok 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 在做数据备份或导出数据的时候经常需要查询mysql的导出命令,特此记录下 1: 导出表数据到sql文件 备份数据 mysqldump -h 127.0.0.1 -uroot -p topickws t_e_keywords_google > t_e_keywords_google.sql topic 阅读全文
posted @ 2022-03-31 14:14 kakaok 阅读(4570) 评论(0) 推荐(0) 编辑
摘要: 火车头的官方现在已支持python写插件,最开始按照官方文档安装了一个python3.8.8,调用插件总是报错,后面咨询客服说是版本太高,后面删除后python重新安装了一个python3.6,重新测试发现完美解决 贴一个写好的插件 # -*- coding: utf-8 -*- # @Author 阅读全文
posted @ 2022-03-17 11:16 kakaok 阅读(706) 评论(0) 推荐(0) 编辑
摘要: python里替换经常用replace函数,最近发现在清洗数据的时候用到replace有一些问题,后来发现是自己使用不当 比如 "a and a materials" 要把 'a' 'and' 清洗掉,用replace处理后变成"nd mterils" sp_list = string_input. 阅读全文
posted @ 2022-03-08 11:00 kakaok 阅读(87) 评论(0) 推荐(0) 编辑
摘要: 最近需要清洗一批数据,涉及到好几个流程,以前的方式是所有数据处理完一步后再进行下一步,这种方式也能很好的完成需求。 最近发现了一个python的PipeLine库 fastcore 里面有个pipeline模块,正好满足我的需求 from fastcore.transform import Pipe 阅读全文
posted @ 2022-03-08 10:54 kakaok 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 之前一直在寻找比较内容差异的库,原来python标准库里自带有difflib库 这就比较有意思了,对于数据采集来说比较两次请求参数的变化就很有用了,可以知道哪些是变化的,方便定位比较 import difflib def diff_headers(): text1 ='''Accept: text/ 阅读全文
posted @ 2022-02-17 14:55 kakaok 阅读(248) 评论(0) 推荐(0) 编辑
摘要: def regex_filter(): html_str = '''<div class="cont-cont"> <p></p><table cellspacing="0" cellpadding="0" width="90%" style="border:1px solid #000000; t 阅读全文
posted @ 2022-02-14 17:02 kakaok 阅读(167) 评论(0) 推荐(0) 编辑
摘要: html = """<div class="w-number this is class"> <span class="tpte">this is class 14℃</span> </div>""" 如上源码,在class中包含 this is class 而在span的正文里也有this is 阅读全文
posted @ 2022-01-05 10:14 kakaok 阅读(124) 评论(0) 推荐(0) 编辑
摘要: search_json = { "size": 0, "aggs": { "group_by_title": { "terms": { "field": "title_en.raw", "size": 5000 }, "aggs": { "having": { "bucket_selector": 阅读全文
posted @ 2021-12-08 08:59 kakaok 阅读(523) 评论(0) 推荐(0) 编辑
摘要: 只想保留table的"colspan", "rowspan" 两个属性值,其余的属性都去掉 最开始想到的是正则匹配,发现太费劲 后面发现BeautifulSoup可以解决 # bs4 去除特定属性 def remove_css_tags(): html_str = '''<table cellspa 阅读全文
posted @ 2021-11-01 17:05 kakaok 阅读(675) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 11 下一页