05 2019 档案

摘要:uber全球用户每天会产生500万条行程,保证数据的准确性至关重要。如果所有的数据都得到有效利用,t通过元数据和聚合的数据可以快速检测平台上的滥用行为,如垃圾邮件、虚假账户和付款欺诈等。放大正确的数据信号能使检测更精确,也因此更可靠。 为了解决我们和其他系统中的类似挑战,Uber Engineeri 阅读全文
posted @ 2019-05-31 15:04 bonelee 阅读(978) 评论(0) 推荐(0) 编辑
摘要:先看看官方文档: MinHash for Jaccard Distance MinHash is an LSH family for Jaccard distance where input features are sets of natural numbers. Jaccard distance 阅读全文
posted @ 2019-05-31 15:03 bonelee 阅读(4686) 评论(0) 推荐(0) 编辑
摘要:from: https://www.cnblogs.com/bourneli/archive/2013/04/04/2999767.html 问题背景 给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2)。当N比 阅读全文
posted @ 2019-05-31 14:06 bonelee 阅读(894) 评论(0) 推荐(0) 编辑
摘要:from:https://www.cnblogs.com/maybe2030/p/4953039.html 阅读目录 1. 基本思想 2. 局部敏感哈希LSH 3. 文档相似度计算 局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间找工作时接触到的一种衡 阅读全文
posted @ 2019-05-29 11:59 bonelee 阅读(12519) 评论(0) 推荐(0) 编辑
摘要:One Class SVM 是指你的training data 只有一类positive (或者negative)的data, 而没有另外的一类。在这时,你需要learn的实际上你training data 的boundary。而这时不能使用 maximum margin 了,因为你没有两类的dat 阅读全文
posted @ 2019-05-27 14:56 bonelee 阅读(3173) 评论(0) 推荐(0) 编辑
摘要:Scala实现的: https://github.com/skrusche63/spark-intent/tree/master/src/main/scala/de/kp/scala/hmm https://github.com/apache/spark/compare/master...lilre 阅读全文
posted @ 2019-05-21 17:21 bonelee 阅读(651) 评论(0) 推荐(0) 编辑
摘要:用户密码可被批量破解 在用户使用手机端登录时,对数据进行抓包分析。 多次抓包分析后,可得到几个关键TCP数据包。 根据前面逆向编写出的解密算法,使用socket进行数据发包测试: 可以模拟APK进行用户登录,并能进行其他操作。如获取设备列表、添加设备、修改设备密码等。 分析发现,在用户密码正确和错误 阅读全文
posted @ 2019-05-21 09:50 bonelee 阅读(4254) 评论(0) 推荐(0) 编辑
摘要:日志数据源主要包括系统日志、WEB日志、路由器日志等日志,其中,日志类型主要包括以下几个种: /var/log/secure,该日志记录了系统每天发生的各种各样的事情,包括那些用户曾经或者正在使用系统,可以通过日志来检查错误发生的原因,更重要的是在系统受到黑客攻击后,日志可以记录下攻击者留下的痕迹。 阅读全文
posted @ 2019-05-14 15:32 bonelee 阅读(883) 评论(0) 推荐(0) 编辑
摘要:For me the easiest way was exporting LabelEncoder as .pkl file for each column. You have to export the encoder for each column after using the fit_tra 阅读全文
posted @ 2019-05-14 12:04 bonelee 阅读(2601) 评论(0) 推荐(0) 编辑
摘要:实际项目我是这样做的: 输入数据参考了下面的优雅做法: 此外,HMM模型的持续增量训练: 阅读全文
posted @ 2019-05-14 10:46 bonelee 阅读(1099) 评论(0) 推荐(0) 编辑
摘要:Python读excel——xlrd Python读取Excel表格,相比xlwt来说,xlrd提供的接口比较多,但过程也有几个比较麻烦的问题,比如读取日期、读合并单元格内容。下面先看看基本的操作: 图表数据 整体思路为,打开文件,选定表格,读取行列内容,读取表格内数据详细代码如下: import 阅读全文
posted @ 2019-05-13 17:26 bonelee 阅读(385) 评论(0) 推荐(0) 编辑
摘要:其中,直接使用table是为了解决markdown pad2免费版不支持报表问题。同时加入style为了去掉默认丑陋表格的边框。 阅读全文
posted @ 2019-05-09 12:08 bonelee 阅读(452) 评论(0) 推荐(0) 编辑
摘要:Markdown 语法介绍 from:https://coding.net/help/doc/project/markdown.html 文章内容 1 Markdown 语法介绍 1.1 标题 1.2 锚点 1.3 引用 1.4 列表 1.5 代码 1.6 强调 1.7 自动链接 1.8 表格 1. 阅读全文
posted @ 2019-05-08 20:45 bonelee 阅读(382) 评论(0) 推荐(0) 编辑
摘要:1 基础知识1.1 网络熟悉常见网络协议:https://www.ietf.org/standards/rfcs/1.2 操作系统1.3 编程2 恶意软件分析2.1 分类2.1.1 木马2.1.2 Botnet2.1.3 挖矿2.1.4 勒索软件2.1.5 后门2.1.6 病毒2.1.7 蠕虫2.2 阅读全文
posted @ 2019-05-05 12:04 bonelee 阅读(585) 评论(0) 推荐(0) 编辑
摘要:https://onestore.nokia.com/asset/205166 阅读全文
posted @ 2019-05-05 11:09 bonelee 阅读(213) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示