摘要:Timestamp就是时间戳,主要用于数据库中,该类在java.sql下。如果在数据库中用Date类,只能到某一天,而时间戳可以到秒,比Date要精确,通常用于防止数据脏读现象。 代码: package TimeAndStamp; import java.util.Arrays; import ja 阅读全文
python爬取网页数据
2020-02-07 15:28 by 默默不语, 10517 阅读, 0 推荐, 收藏, 编辑
摘要:python时间戳 将时间戳转为日期 #!/usr/bin/python # -*- coding: UTF-8 -*- # 引入time模块 import time #时间戳 timeStamp = 1581004800 timeArray = time.localtime(timeStamp) 阅读全文
selenium爬取网页内容知识点总结(代码均亲测可用)
2020-02-06 16:04 by 默默不语, 2187 阅读, 0 推荐, 收藏, 编辑
摘要:1.selenium获取网页iframe内容 语法:driver.switch_to.frame(iframe) ①通过tag_name driver.get(url) #该iframe为页面的第几个iframe iframe = driver.find_elements_by_tag_name(' 阅读全文
绘制用户画像——根据用户行为计算标签权重介绍及实现
2020-02-05 18:03 by 默默不语, 4421 阅读, 0 推荐, 收藏, 编辑
摘要:上篇博客说到绘制用户画像时根据用户行为计算标签权重很重要,计算标签权重最常用的算法是TF-IDF标签权重算法,但是如何计算并没有详细介绍,那么这篇博客咱们就来详细说说基于TF-IDF算法计算用户标签权重。 TF-IDF算法用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,常用于计 阅读全文
jaccard相似系数(Jaccard similarity coefficient)
2020-02-04 20:28 by 默默不语, 11570 阅读, 0 推荐, 收藏, 编辑
摘要:jaccard相似系数 jaccard相似系数(Jaccard similarity coefficient)主要应用场景为数据聚类、比较文本的相似度,用于文本的查重与去重,计算对象间的距离。 jaccard相似系数用于比较有限样本集之间的相似性和差异性J(A,B)为A与B交集的大小与A与B并集的大 阅读全文
推荐系统——冷启动问题
2020-02-03 20:26 by 默默不语, 755 阅读, 0 推荐, 收藏, 编辑
摘要:冷启动 推荐系统主要是通过用户的历史行为来构建用户画像,从而为用户推荐他们感兴趣的内容,但是新注册的用户在系统中无历史行为,该如何为他们推荐内容是一个很重要的问题,即冷启动问题。推荐系统冷启动问题指的就是对于新注册的用户或者新入库的标的物, 该怎么给新用户推荐标的物让用户满意,怎么将新标的物分发出去 阅读全文
<%@ taglib uri="http://java.sun.com/jsp/jstl/core" prefix="c"%>报错
2020-02-03 00:08 by 默默不语, 10011 阅读, 2 推荐, 收藏, 编辑
摘要:jsp界面想要使用c:if标签,结果使用后报错说找不到这个标签,最后发现缺少<%@ taglib uri="http://java.sun.com/jsp/jstl/core" prefix="c"%>这个引用,加上这行代码后又报错 经查找,原因为缺少这两个jar包。 解决方法: 这两个jar包位于 阅读全文
jieba 分词库(python)
2020-02-02 18:11 by 默默不语, 2196 阅读, 0 推荐, 收藏, 编辑
摘要:安装jieba:pip install jieba 原理: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 阅读全文
Server Tomcat v8.0 Server at localhost was unable to start within 45 seconds. If the server requires more time, try increasing the timeout in the server editor.
2020-02-02 18:02 by 默默不语, 368 阅读, 0 推荐, 收藏, 编辑
摘要:eclipse在tomcat上部署网页时报错:Server Tomcat v8.0 Server at localhost was unable to start within 45 seconds. 问题:本地的tomcat服务器不能够在45秒内启动。 原因:在tomcat中部署的项目太多因此不能 阅读全文
用户画像——“打标签”
2020-02-01 17:58 by 默默不语, 3738 阅读, 0 推荐, 收藏, 编辑
摘要:用户画像是根据用户社会属性、生活习惯、兴趣爱好和消费行为等信息而抽象出的一个标签化的用户模型,简而言之,就是给用户“打标签”。通过获取用户的信息,并对其进行分析,绘制用户画像。 用户信息可以分为两个维度,静态信息和动态信息,静态信息则指用户的固有属性,如性别,年龄,消费水平等,动态信息则是通过观察用 阅读全文