黄聪

论SEO对人类的重要性,请看我的博客:hcsem.com

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

08 2011 档案

摘要:今天使用http://crazymud.iteye.com/blog/452293给出的代码进行PHP生成校验码功能的实现,发现firefox一直提示“图像.......因其本身有错无法显示”的问题,作者也提示了说“如果浏览器显示“图像XXX因其本身有错无法显示”,可尽量去掉文中空格”,但把代码中所有空格都去掉了还是不能显示检验图片。于是深度google,大部分的解决方案也是将“<?”这句代码前的空格回车一切都删掉以防止有html输出,但这根本解决不了我的问题,后来看到有人在Header("Content-type:image/PNG");这句代码前使用ob_clea 阅读全文
posted @ 2011-08-31 22:23 黄聪 阅读(1307) 评论(6) 推荐(2) 编辑

摘要:对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中,我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签。 一、从HTML文档中提取链接 Python语言还有一个非常有用的模块HTMLParser,该模... 阅读全文
posted @ 2011-08-31 15:04 黄聪 阅读(10935) 评论(0) 推荐(1) 编辑

摘要:对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接、图像和Cookie等。最后,我们会给出一个规整HTML文件的格式标签的例子,通过这个例子您会发现使用python处理HTML文件的.. 阅读全文
posted @ 2011-08-31 13:24 黄聪 阅读(37221) 评论(1) 推荐(5) 编辑

摘要:对于大部分论坛,我们想要抓取其中的帖子分析,首先需要登录,否则无法查看。 这是因为 HTTP 协议是一个无状态(Stateless)的协议,服务器如何知道当前请求连接的用户是否已经登录了呢?有两种方式:在URI 中显式地使用 Session ID;利用 Cookie,大概过程是登录一个网站后会在本地保留一个 Cookie,当继续浏览这个网站的时候,浏览器会把 Cookie 连同地址请求一起发送过去。 Python 提供了相当丰富的模块,所以对于这种网络操作只要几句话就可以完成。我以登录 QZZN 论坛为例,事实上下面的程序几乎所有的 PHPWind 类型的论坛都是适用的。# -*- co... 阅读全文
posted @ 2011-08-30 22:19 黄聪 阅读(9268) 评论(0) 推荐(1) 编辑

摘要:亲爱的朋友:欢迎你!很高兴能在这里见到你,你能来到这里说明你真的很喜欢python,很想把python给学好!我觉的你很幸运,开始我学python的时候比较少资料,学起来也比较头疼,现在随着python越来越流行,资料也越来越多,大家以后学起来应该会轻松很多了。我前段时间花了很多时间整理了一些python教程,我觉的对初学python的朋友来说是个很好的引路人,我相信通过它你可以快速的上手python的。不信可以试试哦!最近索取资料的朋友比较多,让老王python感到欣慰!为了让更多的朋友了解python,学习python,喜欢python!我做出了一个艰难的决定:如果你想要得到这份资料的话: 阅读全文
posted @ 2011-08-30 11:51 黄聪 阅读(1376) 评论(0) 推荐(0) 编辑

摘要:Cookies基础 Cookies是web站点放置到你的硬盘上的程序。它们驻留在你的计算机上收集关于你在因特网上所做的一切事情的信息,并且web站点可以在任何时候读取到Cookies收集到的所有信息。 在新闻中这样定义是公平的,问题是,这个定义中没有一个是正确的,Cookies不是程序,它不能象程序一样能做很多事,因此它们自己不能收集任何信息,也不能收集关你你的机器的任何信息。 这里有一个关于Cookies的比较恰当的定义:一个Cookies是web服务器存放在用户硬盘的一段文本,Cookies允许一个wen站点在用户的机器存放一些文本的信息,并可以在以后重新获取它。这个基于文本的信息存储.. 阅读全文
posted @ 2011-08-30 11:36 黄聪 阅读(745) 评论(0) 推荐(0) 编辑

摘要:ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是,该源代码没有配套的文档,阅读起来可能有一定的障碍,尤其是对C/C++不熟的人来说.本人就一直用Java/VB作为主要的开发语言,C/C++上大学时倒是学过,不过工作之后一直没有再使用过,语法什么的忘的几乎一干二净了.但语言这东西,基本的东西都相通的,况且Java也是在C/C++的基础上形成的,有一定的相似处.阅读一遍源代码,主要的语法都应该不成问题了.虽然在ICTCLAS的系统中没有完整的文档说明,但是我. 阅读全文
posted @ 2011-08-29 21:34 黄聪 阅读(870) 评论(0) 推荐(0) 编辑

摘要:接口文档ICTCLAS2011接口文档ICTCLAS2009接口文档ICTPOS3.0 词性标注集相关论文Chinese Name Entity Recognition Using Role ModelHHMM-based Chinese Lexical Analyzer ICTCLASAutomatic Recognition of Chinese Unknown Words基于多层隐马模型的汉语词法分析研究基于N-最短路径方法的中文词语粗分模型基于角色标注的中国人名自动识别研究基于角色标注的中文机构名识别其他ICTCLAS学习笔记计算所汉语词性标记集(ICTPOS3.0)N-Gram及其. 阅读全文
posted @ 2011-08-29 21:05 黄聪 阅读(1255) 评论(0) 推荐(1) 编辑

摘要:本文演示使用NLTK让计算机学习如何通过名字识别性别。1、导入NLTK:import nltkfrom nltk.book import *2、定义学习方法def gender_features(word): return {'last_letter':word[-1]}3、导入学习的姓名-性别名单:from nltk.corpus import namesimport randomnames=([(name,'male') for name in names.words('male.txt')] + [(name,'female' 阅读全文
posted @ 2011-08-29 18:30 黄聪 阅读(6525) 评论(0) 推荐(0) 编辑

摘要:NLTK中的FreqDist方法可以查看文章中每个单词出现的频率。 阅读全文
posted @ 2011-08-29 15:59 黄聪 阅读(1754) 评论(0) 推荐(1) 编辑

摘要:Python1import urllib2urlItem = urllib.urlopen("http://www.baidu.com")3htmSource = urlItem.read()4urlItem.close()5print htmSourcepycurlhttp://pycurl.sourceforge.net/download/http://pycurl.sourceforge.net/doc/curlobject.htmlPython01import pycurl02c = pycurl.Curl()03c.setopt(pycurl.URL, " 阅读全文
posted @ 2011-08-29 15:38 黄聪 阅读(10037) 评论(1) 推荐(1) 编辑

摘要:去空格及特殊符号s.strip().lstrip().rstrip(',')复制字符串#strcpy(sStr1,sStr2)sStr1 = 'strcpy'sStr2 = sStr1sStr1 = 'strcpy2'print sStr2连接字符串#strcat(sStr1,sStr2)sStr1 = 'strcat'sStr2 = 'append'sStr1 += sStr2print sStr1查找字符#strchr(sStr1,sStr2)# < 0 为未找到sStr1 = 'strchr&# 阅读全文
posted @ 2011-08-29 15:35 黄聪 阅读(853186) 评论(7) 推荐(47) 编辑

摘要:一、similar用来识别文章中和搜索词相似的词语,可以用在搜索引擎中的相关度识别功能中。text1.similar("monstrous")查询出了text1中与monstrous相关的所有词语:二、common_contexts用来识别2个关键词相似的词语。text2.common_contexts(["monstrous","very"])三、generate用来自动生成文章。text3.generate()四、len可以用于判断重复词密度from __future__ import divisionlen(text3) / l 阅读全文
posted @ 2011-08-29 12:29 黄聪 阅读(17973) 评论(4) 推荐(0) 编辑

摘要:最近开始学习Python+NLTK自然语言处理,在此分享自己的学习经验,因为是初学,肯定有很多很多不懂的地方,发布此文章绝非为了显示自己的水平,而是因为网络上对NLTK的资料实在太少了,我就想分享一下自己的心得,也希望能够得到更多高手的指点,希望高手们发现不对的地方耐心指点,切勿针锋相对,这样会打击小弟的学习动力的,呵呵~好了,开始吧。一、到NLTK的官网下载Python2.66(虽然Python已经到3.0了,但是2.x的比较稳定,兼容2.x的软件也比较多一些)、PyYAML和NLTK。下载地址:http://www.nltk.org/download二、讲这些都安装好,然后运行Python 阅读全文
posted @ 2011-08-29 11:19 黄聪 阅读(59822) 评论(13) 推荐(9) 编辑

摘要:分享下自己对python的metaclass的知识。一 你可以从这里获取什么?1. 也许你在阅读别人的代码的时候碰到过metaclass,那你可以参考这里的介绍。2. 或许你需要设计一些底层的库,也许metaclass能帮你简化你的设计(也有可能复杂化:)3. 也许你在了解metaclass的相关知识之后,你对python的类的一些机制会更了解。4. more......二 metaclass的作用是什么?(感性认识)metaclass能有什么用处,先来个感性的认识:1. 你可以自由的、动态的修改/增加/删除 类的或者实例中的方法或者属性2. 批量的对某些方法使用decorator,而不需要每 阅读全文
posted @ 2011-08-28 17:56 黄聪 阅读(6768) 评论(1) 推荐(1) 编辑

摘要:Python语言编程学习资料(电子书+视频教程)下载汇总:开发工具:Python语言集成开发环境 Wingware WingIDE Professional v3.2.12Python语言集成开发环境 Wingware WingIDE Professional v3.2.9.1高效Python/Django开发工具:JetBrains PyCharm v1.1.1 (附注册机)Python和Django开发工具:JetBrains PyCharm v1.1学习资料:Python 3程序开发指南 (第二版) 中文PDF下载 Programming in Python 3, 2rd Edition 阅读全文
posted @ 2011-08-28 13:10 黄聪 阅读(2033) 评论(0) 推荐(1) 编辑

摘要:作者:taowen, billriceLesson 1 准备好学习Python的环境下载的地址是:www.python.org为了大家的方便,我在校内作了copy:http://10.1.204.2/tool/compiler&IDE/Python-2.3.2-1.exelinux版本的我就不说了,因为如果你能够使用linux并安装好说明你可以一切自己搞定的。运行环境可以是linux或者是windows:1、linuxredhat的linux安装上去之后一定会有python的(必须的组件),在命令行中输入python回车。这样就可以进入一个>>>的提示符2、windo 阅读全文
posted @ 2011-08-28 13:01 黄聪 阅读(1313) 评论(0) 推荐(0) 编辑

摘要:修改lib目录下global.func.php文件中的$avatar_dir = "data/avatar/" . $dir1 . '/' . $dir2 . '/' . $dir3 . "/smill_$uid.jpg";为$avatar_dir = "data/avatar/" . $dir1 . '/' . $dir2 . '/' . $dir3 . "/big_$uid.jpg"; 阅读全文
posted @ 2011-08-21 10:46 黄聪 阅读(649) 评论(0) 推荐(0) 编辑

摘要:弄了半天,笔记一下~~RewriteEngine onRewriteBase /qa ;qa为子目录名字RewriteCond %{REQUEST_FILENAME} !-fRewriteCond %{REQUEST_FILENAME} !-dRewriteRule ^.*$ ?$0 阅读全文
posted @ 2011-08-20 22:39 黄聪 阅读(1607) 评论(0) 推荐(0) 编辑

摘要:WordPress 3.0 引入导航菜单功能, 让页面的导航和链接的管理变得简单易用. WP 向用户提供了菜单管理页面和多种调用方法, 本文将会介绍并教你如何使用 WordPress 的导航菜单.管理菜单页面页面路径: Appearance > Menus由从界面来看, 能够创建多个菜单, 并且可以向菜单中添加自定义链接, 页面链接和分类链接.但有一点需要注意, 如果将页面链接和分类链接加入, 被带入菜单的仅是链接, 而不是页面和分类本身, 也就是说, 子页面和子分类不会成为菜单的一部分.另外, 我们也不能在菜单中加入别的菜单, 所以这种自定义的菜单注定只存在一级. 在右边排列菜单区块中 阅读全文
posted @ 2011-08-18 14:10 黄聪 阅读(1953) 评论(0) 推荐(0) 编辑

摘要:【登陆页优化】1.用广告描述内容确定landing page的标题。2. 一个清晰的call to action。3.用第二人称进行写作;4.给读者传递清晰的,有说服力的信息。5.保持合适的、紧凑的文章长度。6.人们在阅读中间的内容之前,明确你的目标。7.在段落开头清楚描述重点和卖点。8.重要的第一屏幕 阅读全文
posted @ 2011-08-11 09:13 黄聪 阅读(285) 评论(0) 推荐(0) 编辑

摘要:今天一朋友的WordPress用了wpbus的一个主题,结果中文截断的部分结尾处总有一个带问号的黑色方框乱码。我查看了一下模板,代码是这样写的:<?php echo mb_strimwidth(strip_tags(apply_filters('the_content', $post->post_content)), 0, 250,"..."); ?>解决的办法有两个:1、开启mb_string extension如果你是自己的服务器,可以更改apache配置,可以将mb_string extension设置为on。2、设置字符集将代码加上 阅读全文
posted @ 2011-08-10 17:53 黄聪 阅读(1026) 评论(0) 推荐(0) 编辑