随笔分类 - Python
摘要:项目中使用了gensim计算帖子向量和相似度,model文件已经训练好,但是在运行的过程中发现,模型加载十分缓慢,需要大约1-2分钟,我们不能让用户等那么长时间,于是得想办法 想法,是否可以将其打包为api的方式,资源只需加载一次模型,然后利用即可,消耗小,速度快 查找各方资料比较中意的有2个方案D
阅读全文
摘要:百度解决办法有的说是java虚拟内存设置问题,经过排查发现并非如此 实则因为程序找不到spark,最终解决办法 #pip安装findspark pip install findspark #在程序中添加一以下代码 import findspark findspark.init() 至此,程序可以正常
阅读全文
摘要:在spark中试图将RDD转换成DataFrame时,有时会提示ValueError: Some of types cannot be determined by the first 100 rows, please try again with sampling 原因 RDD中元素的内部结构是未知
阅读全文