摘要:
看到这篇文章,感觉写的非常好,特此转载。转载地址:相似图片搜索的原理作者:阮一峰日期:2011年7月21日上个月,Google把"相似图片搜索"正式放上了首页。你可以用一张图片,搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。一个对话框会出现。你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。上传后,Google返回如下结果:类似的"相似图片搜索引擎"还有不少,TinEye甚至可以找出照片的拍摄背景。================================== 阅读全文
摘要:
拼写纠正2011 年 08 月 14 日isnowfyalgorithmGo to comment一直以来用google reader订阅了大量的东西,加星了很多,但有些没怎么认真看过,这几天翻了翻以前的加星,发现一篇讲拼写纠正的文章讲的非常犀利,就像google里那样能够快速准确的纠正拼写。而且作者用python写的代码,只用了21行就完成了。http://norvig.com/spell-correct.html原文章在这里具体的东西可以去看英文原文,这里简单描述下犀利的思想。我们纠正单词的目的就是希望这样一个条件概率达到最大值P(我们猜测用户想输的单词|用户数的单词),于是我们有P(我们 阅读全文
摘要:
python中文分词2012 年 03 月 17 日isnowfyalgorithm,programGo to comment相对于英文而言,中文在计算机处理方面有个必须要面对的问题就是中文分词,英文的单词都是空格间隔的,而中文的词语则不同,所以用程序解决中文分词,在很多自然语言处理方面都是首要进行的步骤。其中最简单的就是最大匹配的中文分词了,比如“今天天气不错”可以分词为“今天/天气/不错”,但是面对一些有歧义的句子时却显得捉襟见肘,于是“南京市长江大桥”就会被分成“南京市长/江/大桥”而不是“南京市/长江/大桥”,于是更好的是基于统计学原理的分词,也就是说看哪种出现的频率更高。对于一个中文 阅读全文
摘要:
关于相似图片搜索2011 年 09 月 04 日isnowfyprogramGo to comment先说一下搜索的原理,其实就是不管你搜索什么,都是将你要搜的东西提取出特征值,然后按照特征值比较相似度,按照相似度排序呈献给用户就可以了,所以总共来说需要解决两个问题,一个是如何取得特征值,一个是如何计算相似度。首先说特征值,特征值可以用图片的颜色比例来,比如python用PIL中的histogram函数就可以得到颜色分布这幅图的颜色分布直方图是这样的通过这样我们就得到了一个图像的特征值,这种方法是得到的颜色的分配,还有另一种方式得到的则是图像的内容特征。基本想法是将图片弄成8*8的小图片这样摒 阅读全文
摘要:
QQ空间技术架构之深刻揭秘来源: 腾讯大讲堂发布时间: 2012-05-17 17:24阅读: 733 次全屏阅读 [收藏] QQ 空间作为腾讯海量互联网服务产品,经过近七年的发展,实现了从十万级到亿级同时在线的飞跃。在这个过程中,QQ 空间团队遇到了哪些技术挑战?其站点前后台架构随着业务规模的变化又进行了怎样的演进与变迁?成长背后有过怎样的心酸和快乐…… 4. 26 日晚间,腾讯大讲堂·深圳首站《QQ 空间技术架构之峥嵘岁月》活动在腾讯总部腾讯大厦多功能厅举办,腾讯 Web 前端研发领域专家、腾讯最早的专职 Web 开发团队核心成员、Qzone 核心架构研发总监徐晓在两小时的演讲中 阅读全文
摘要:
1.自动登录人人网:import re,time,sysfrom urllib import request, parsefrom http import cookiejarclass renren(): def __init__(self,email,password): self.url='http://www.renren.com/' self.email=email self.password=password self.cookie=cookiejar.LWPCookieJar() self.opener=r... 阅读全文
摘要:
Python字符编码详解本文简单介绍了各种常用的字符编码的特点,并介绍了在python2.x中如何与编码问题作战 :)请注意本文关于Python的内容仅适用于2.x,3.x中str和unicode有翻天覆地的变化,请查阅其他相关文档。尊重作者的劳动,转载请注明作者及原文地址 >.<1. 字符编码简介1.1. ASCIIASCII(American Standard Code for Information Interchange),是一种单字节的编码。计算机世界里一开始只有英文,而单字节可以表示256个不同的字符,可以表示所有的英文字符和许多的控制符号。不过ASCII只用到了其中的 阅读全文
摘要:
在python3.x的版本中将老版的urllib,urllib2两个模块合并在urllib包中,共五个模块:1.robotparser;2.parse;3.request;4.response;5.error。各个模块的重要函数:parse模块:urlencode(对字典或列表生成加密数据)request模块:Request(发送get或post请求)urlopen(根据url或Request创建文件对象)该包最简单实用方式:from urllib import requstresponse = request.urlopen('http://www.baidu.com')ht 阅读全文
摘要:
最近在学python,感觉很爽。完全彻底的面向对象化,极其灵活的动态绑定,还有内置的三大数据结构(Tuple,List, Dict),真是让人爱不释手。既然要学,就得写点什么,从简单的开始。自从我的大部分工作转移到Linux上以后,我发现自己越来越不想碰鼠标了,总希望所有的事情都可以在终端下很方便的完成,发个邮件也不例外。于是我就经常使用mail命令来发邮件。用过的人应该都知道,如果单纯的使用mail命令发邮件的话,在其内置的交互环境中写邮件正文的时候是不能修改上一行的。所以大家通常都是先把邮件正文写入文件,例如/tmp/tmpmail,然后用 mail -s "hello" 阅读全文
摘要:
python get百度获得搜索结果# -*- coding: cp936 -*-import urllib2,urllib,sys,io"""使用GET在百度搜索引擎上查询此例演示如何生成GET串,并进行请求."""url = "http://www.baidu.com/s"search = [('w','codemo')]getString = url + "?" + urllib.urlencode(search)req = urllib2.Request( 阅读全文