摘要:
词云图是根据词出现的频率生成词云,词的字体大小表现了其频率大小。 写在前面: 用wc.generate(text)直接生成词频的方法使用很多,所以不再赘述。 但是对于根据generate_from_frequencies()给定词频如何画词云图的资料找了很久,下面只讲这种方法。 generate_f 阅读全文
摘要:
问题/需求: 需要将字符串切分,但是分隔符在整个字符串中并不一致 (即:需要用多个分隔符切分字符串) str.split()方法不可行: 只支持单一分隔符,不支持正则及多个切割符号,不感知空格的数量 解决办法: re.split() 适用:多个 分隔符,切割功能非常强大 语法: re.split(p 阅读全文
摘要:
matplotlib是Python著名的绘图库,默认并不支持中文显示,因此在不经过修改的情况下,无法正确显示中文。 本文将介绍解决这一问题的方法。 不修改文件,加两行代码即可: 改前: 改后: 阅读全文
摘要:
一、列表内建方法--sort() 作用:就地对列表排序(直接在原列表上做排序) 语法: list.sort(func=None, key=None, reverse=False) 当reverse=False时:正向排序;当reverse=True时:逆向排序。默认为False。 执行完后会改变原来 阅读全文
摘要:
一、不写入Mysql 以爬取哪儿网为例。 以下为脚本: 这个脚本里只是单纯的将结果打印在pyspider 的web ui中,并没有存到其它地方。 二、存入Mysql中 插入数据库的话,需要我们在调用它之前定义一个save_in_mysql函数。 并且需要将连接数据库等初始化放在__init__函数中 阅读全文
摘要:
1.Kafka 是什么? 用一句话概括一下:Apache Kafka 是一款开源的消息引擎系统。 倘若“消息引擎系统“这个词对你来说有点陌生的话,那么“消息队列“、“消息中间件”的提法想必你一定是有所耳闻的。不过说实话我更愿意使用消息引擎系统这个称谓,因为消息队列给出了一个很不明确的暗示,仿佛 Ka 阅读全文
摘要:
两条sql语句: creat_time datetime DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',update_time timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMES 阅读全文
摘要:
首先,拿好宝剑: 先把yield看做“return”, 普通的return是什么意思,就是在程序中返回某个值,返回之后程序就不再往下运行了。 看做return之后再把它看做一个是生成器(generator)的一部分(带yield的函数才是真正的迭代器), 返回的不是一个函数的输出,是一个生成器的结果 阅读全文
摘要:
解决pyspider框架web预览框过小问题 Chrome 使用pyspider框架时,web预览框只有一小条: 解决办法: 找到debug.min.css文件,替换为如下内容: 在web ui中打开一个项目调试,点到WEB页面,按Ctrl+F5 刷新测试,网页预览框已恢复正常。 亲测可用: 阅读全文
摘要:
什么是可哈希(hashable)? 简要的说可哈希的数据类型,即不可变的数据结构(字符串str、元组tuple、对象集objects)。 哈希有啥作用? 它是一个将大体量数据转化为很小数据的过程,甚至可以仅仅是一个数字,以便我们可以用在固定的时间复杂度下查询它,所以,哈希对高效的算法和数据结构很重要 阅读全文