上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 25 下一页
摘要: 好文推荐《两年内从零到每月十亿 PV 的发展来谈 Pinterest 的架构设计》地址: http://www.oschina.net/translate/scaling-pinterest-from-0-to-10s-of-billions-of-page-views?from=20130428英文原文: Scaling Pinterest - From 0 to 10s of Billions of Page Views a Month in Two Years介绍了web规模不断扩大时的框架应对策略,以及产品的选择。非常棒!都是干活!! 阅读全文
posted @ 2013-05-02 09:35 elar 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 搜索与排名1、全文搜索引擎,允许人们在大量文档中搜索一些列单词,并根据文档与这些单词的关联程度对结果进行排名。2、词干提取算法(stemming algorithm)词干提取算法试图将单词转换成对应的词干。例如,将单词“indexing”转换成“index”,这样当人们在搜索“index”时,也同样会得到包含indexing单词的文档。3、基于内容的排名法(content-based ranking)content-based ranking是根据网页的内容,利用某些可行的度量方式来对查询结果进行判断的。常用的评价度量有三个:①单词频度被查询的单词在文档中出现的次数,它可以帮助我们判断该单词与 阅读全文
posted @ 2013-04-24 17:13 elar 阅读(467) 评论(0) 推荐(0) 编辑
摘要: Sorting比较好的排序算法可以把时间复杂度控制在O(n*log2n),最糟的情况是O(n2).应该将sort当作一项基础处理,因为对于很多问题,当其数据变成sorted items时,解决起来会很容易。Stable Sorting对于key相同的元素,有时我们需要保持它们原先的顺序。但不幸的是,很少有快速算法是stable的。不过,我们可以将元素的位置作为第二参考量,当元素a.key = b.key时,原先位置小的仍然排在前面。选择排序(selection sort)选择排序就是将一个item list分为两部分,一部分是sorted,一部分是unsorted。每次都从unsorted的部 阅读全文
posted @ 2013-04-24 11:29 elar 阅读(1407) 评论(0) 推荐(1) 编辑
摘要: 1、聚类算法的目的是采集数据,然后从中找出不同的群组。2、Universal Feed Parser可以方便地解析RSS订阅源,即从RSS或Atom订阅源中得到标题、链接和文章的内容。3、皮尔逊相关度其实判断的是两组数据与某条直线的拟合程度,当两者完全匹配时,计算结果为1.0,当两者毫无关系时,计算结果为0.0.4、分级聚类分级聚类的结果会产生一棵树:分级聚类虽然会返回一棵形象直观的树,但这种方法有两个缺点。在没有额外指定的情况下,树形视图不会真正将数据拆分成不同的组,而且该算法的计算量惊人。因为我们必须计算每两个数据项之间的关系,并且在合并项之后这些关系还得再计算,所以在处理大规模的数据集时 阅读全文
posted @ 2013-04-23 19:11 elar 阅读(1064) 评论(0) 推荐(0) 编辑
摘要: 在mysql的文档里面看到一段有用的transaction代码,摘录留用。关键的部分都用红字标出。public void updateCoffeeSales(HashMap<String, Integer> salesForWeek) throws SQLException { PreparedStatement updateSales = null; PreparedStatement updateTotal = null; String updateString = "update " + dbName + ".COFFEES " + & 阅读全文
posted @ 2013-04-16 15:36 elar 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 》》paper及文章《《 2020 https://www.usenix.org/system/files/conference/atc13/atc13-bronson.pdf (TAO) https://www.usenix.org/system/files/conference/nsdi13/n 阅读全文
posted @ 2013-04-16 15:02 elar 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 情景设定 客户端为android手机,登录后希望保存其在线状态(server端),并且对于每一个在线用户都有一个相应的checksum值,每次执行操作时需要校验该值。为了防止黑客截获checksum值进行二次攻击,因此checksum值在每次登录或间隔一段时间后都会动态改变。因此需要在server端保存用户的在线状态,当用户离线时或超出一定时间没有操作时,删掉在线记录,这样每次新登录时就会产生新的checksum值。问题 需要定时清理过期的在线用户,因为有的用户喜欢保存密码而不使用登出功能。解决方法 定时清理过期的在线用户,可以想到使用一些周期性的定时任务。定时任务可以设置在操作系统中,... 阅读全文
posted @ 2013-04-16 11:45 elar 阅读(5547) 评论(0) 推荐(1) 编辑
摘要: 前言这个系列是毕业找工作的复习笔记,希望可以和广大正准备毕业的童鞋一起打牢基础,迎接各种笔试……为了应付中英文笔试,关键词都用英文进行标注,这样就不怕面对英文题目了。之所以开始这一系列是因为之前在参加微软笔试的时候,被一道stable sorting的选择题给卡住了,才发现自己的基本功什么时候变得这么差了。既然要找工作就要好好复习,从最基础的开始。算法的部分来自《The Algorithm Design Manual》的笔记。结构特点二叉搜索树的特点是,小的值在左边,大的值在右边,即比如:这样的结构有一个好处是很容易获得最大值(Maximum)、最小值(minimum)、某元素的前驱(Prec 阅读全文
posted @ 2013-04-11 19:05 elar 阅读(26311) 评论(1) 推荐(1) 编辑
摘要: 本来想用MD5做散列来做密码传输的,无奈现在字典满天飞,而且已经被碰撞破解了。后打算用SHA1,但是到MD5.JS 上一看,人家作者推荐用SHA256或者更强的。好吧,那就改用SHA256好了。服务器端JAVA的MessageDigest类直接可以做SHA散列,不过散列完以后是Byte[]类型数据,所以还要再处理一下,使用apache的commons-codec库来做,就不自己写了。commons-codec库的下载地址:http://commons.apache.org/proper/commons-codec/download_codec.cgi代码是:(标红的是关键语句)import j 阅读全文
posted @ 2013-04-09 16:30 elar 阅读(18423) 评论(0) 推荐(2) 编辑
摘要: 《Using one-time passwords to prevent password phishing attacks》讲说可以使用一次性的密码,当用户注册时候,通过用户填写的联系方式,如手机或者email来发送一次性密码。之后的登录貌似也是一样的。《Kamouflage Loss-Resistant Password Management》斯坦福的。讲说一般的系统都只存储用户的密码S。他们提出一个框架是存储S + (N-1)个S的变种,认为当用户设备被盗时,黑客破解的时间会增加。不过没看完这篇,跟我们的需求不符。Digest access authenticationIt applie 阅读全文
posted @ 2013-04-09 10:36 elar 阅读(404) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 25 下一页