摘要:
昨天下午发现在入数据的时候总是报这个异常,日志里一大堆,很明显是长度超了,但是查看了DDL,text类型 后来通过直接把数据存入mysql,发现没什么问题,那问题出在哪里呢? 再次查看代码,因为存储的是html源码,后面通过html.escape(html_src) 这样已编码,长度就会增加, 在此 阅读全文
摘要:
在做数据备份或导出数据的时候经常需要查询mysql的导出命令,特此记录下 1: 导出表数据到sql文件 备份数据 mysqldump -h 127.0.0.1 -uroot -p topickws t_e_keywords_google > t_e_keywords_google.sql topic 阅读全文
摘要:
火车头的官方现在已支持python写插件,最开始按照官方文档安装了一个python3.8.8,调用插件总是报错,后面咨询客服说是版本太高,后面删除后python重新安装了一个python3.6,重新测试发现完美解决 贴一个写好的插件 # -*- coding: utf-8 -*- # @Author 阅读全文
摘要:
python里替换经常用replace函数,最近发现在清洗数据的时候用到replace有一些问题,后来发现是自己使用不当 比如 "a and a materials" 要把 'a' 'and' 清洗掉,用replace处理后变成"nd mterils" sp_list = string_input. 阅读全文
摘要:
最近需要清洗一批数据,涉及到好几个流程,以前的方式是所有数据处理完一步后再进行下一步,这种方式也能很好的完成需求。 最近发现了一个python的PipeLine库 fastcore 里面有个pipeline模块,正好满足我的需求 from fastcore.transform import Pipe 阅读全文
摘要:
之前一直在寻找比较内容差异的库,原来python标准库里自带有difflib库 这就比较有意思了,对于数据采集来说比较两次请求参数的变化就很有用了,可以知道哪些是变化的,方便定位比较 import difflib def diff_headers(): text1 ='''Accept: text/ 阅读全文
摘要:
def regex_filter(): html_str = '''<div class="cont-cont"> <p></p><table cellspacing="0" cellpadding="0" width="90%" style="border:1px solid #000000; t 阅读全文
摘要:
html = """<div class="w-number this is class"> <span class="tpte">this is class 14℃</span> </div>""" 如上源码,在class中包含 this is class 而在span的正文里也有this is 阅读全文
摘要:
search_json = { "size": 0, "aggs": { "group_by_title": { "terms": { "field": "title_en.raw", "size": 5000 }, "aggs": { "having": { "bucket_selector": 阅读全文
摘要:
只想保留table的"colspan", "rowspan" 两个属性值,其余的属性都去掉 最开始想到的是正则匹配,发现太费劲 后面发现BeautifulSoup可以解决 # bs4 去除特定属性 def remove_css_tags(): html_str = '''<table cellspa 阅读全文