黄聪 - 博客园

黄聪：python+MySQLdb操作Mysql数据库示例代码程序教程

摘要： import MySQLdb#创建链接conn=MySQLdb.Connect(host='localhost',user='root',passwd='',db="xingming")#生成游标cursor=conn.cursor()#插入多条记录cursor.executemany( """INSERT INTO xm (x, m) VALUES (%s, %s)""", [ ("h","c"), ("g" 阅读全文

posted @ 2011-09-04 08:27 黄聪阅读(684) 评论(0) 推荐(0) 编辑

黄聪：Python下安装Mysqldb出现DeprecationWarning: the sets module is deprecated from sets错误解决方案

摘要：今天下载了MySQL-python-1.2.2.win32-py2.6.rar 想试试python的数据库操作，但是安装时错误下面是报错截图：修改__init__.py：*注释第34行: from sets import ImmutableSet*在后面一行添加: ImmutableSet = frozenset*注释第41行e: from sets import BaseSet*在后面一行添加: BaseSet = set##### __init__.py#Line 35#from sets import ImmutableSet #class DBAPISet(ImmutableSet): 阅读全文

posted @ 2011-09-04 01:48 黄聪阅读(2323) 评论(0) 推荐(0) 编辑

黄聪：python收集文章

该文被密码保护。阅读全文

posted @ 2011-09-03 22:41 黄聪阅读(3) 评论(0) 推荐(0) 编辑

黄聪：Python实现Discuz论坛的自动POST登录发贴回帖（转）

摘要： #-*-coding:utf-8-*-import urllib2, urllib, cookielibimport reimport getpassimport sqlite3import randomimport time class Discuz: def __init__(self,user,pwd,args): self.username = user self.password = pwd self.args = args self.regex = { 'loginreg':'<input\s*ty... 阅读全文

posted @ 2011-09-03 21:57 黄聪阅读(6773) 评论(3) 推荐(0) 编辑

黄聪：python学习之pyquery学习安装教程

摘要： setuptools绝对是个好东西，它可以自动的安装模块，只需要你提供给它一个模块名字就可以了，并且自动帮你解决模块的依赖问题。一般情况下用setuptools给安装的模块会自动放到一个后缀是.egg的目录里，下面看看怎么用setuptools。首先，需要安装setuptools这个东西，安装它很简单，先去下载一个脚本：　http://peak.telecommunity.com/dist/ez_setup.py　下载完后直接执行它就会帮你把setuptools给装好了。之后安装模块的使用方法就是使用一个叫easy_install的命令，在Windows里，这个命令在python安装目录下的阅读全文

posted @ 2011-09-03 20:01 黄聪阅读(8508) 评论(0) 推荐(3) 编辑

黄聪：python访问抓取网页常用命令（保存图片到本地、模拟POST、GET、中文编码问题）

摘要：简单的抓取网页:import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象page=response.read() 直接将URL保存为本地文件：import urllib.request url="http://www.xxxx.com/1.jpg"urllib.request.urlretrieve(url,r"d:\temp\1.jpg")POST方式：import urllib.parse import ur 阅读全文

posted @ 2011-09-03 18:49 黄聪阅读(13965) 评论(0) 推荐(1) 编辑

黄聪：Wordpress写文章自动过滤HTML标签解决方法

摘要：将wp-includes文件夹下的kses.php中的以下2句话屏蔽掉即可：//add_action('init', 'kses_init');//add_action('set_current_user', 'kses_init'); 阅读全文

posted @ 2011-09-03 18:20 黄聪阅读(2119) 评论(0) 推荐(1) 编辑

黄聪：php中utf-8模板获取GB2312编码页面传递URL中文编码转换方法

摘要： $w='中文参数';mb_convert_encoding($w, 'gb2312', 'utf-8') 阅读全文

posted @ 2011-09-03 12:36 黄聪阅读(395) 评论(0) 推荐(0) 编辑

黄聪：Wordpress数据库中各个表的用途描述

摘要：以下是在WordPress3.0版本标准安装过程中所创建的数据库表的大纲和描述。目前，WordPress3.0仅支持 MySQL 4.1.2及更高版本的数据库。参见:WordPress 2.0.x数据库描述WordPress 2.2.x数据库描述WordPress 2.3.x数据库描述WordPress 2.5.x数据库描述WordPress 2.7.x数据库描述WordPress 2.8.x数据库描述WordPress 2.9.x数据库描述由于WordPress自己与数据库接口，作为终端用户，不必过分担心它的结构。而如果你是在编写插件，你也许会对学习如何直接与数据库接口感兴趣。WordPre 阅读全文

posted @ 2011-09-03 09:15 黄聪阅读(5288) 评论(5) 推荐(1) 编辑

黄聪：php传递URL中文编码为带%的编码获取后乱码问题（页面utf-8格式）

摘要：例如 127.0.0.1/?w=%BB%C6%B4%CF$w= $_GET['w'];$w = iconv('gb2312','utf-8',$w);即可取到 $w 为 “黄聪” 阅读全文

posted @ 2011-09-03 08:12 黄聪阅读(646) 评论(0) 推荐(0) 编辑

黄聪：Scrapy 轻松定制网络爬虫

摘要：网络爬虫（Web Crawler, Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是虚拟的东西，所以这个“机器人”其实也就是一段程序，并且它也不是乱爬，而是有一定目的的，并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Internet 上搜集网页内容以及它们之间的链接等信息；又比如一些别有用心的爬虫会在 Internet 上搜集诸如 foo@bar.com 或者 foo [at] bar [dot] com 之类的东西。除此之外，还有一些定制的爬虫，专门针对某一个网站，例如前一阵子 JavaEye 的 Robbin 就写了几阅读全文

posted @ 2011-09-01 23:13 黄聪阅读(7686) 评论(0) 推荐(5) 编辑

黄聪：解决PHP生成校验码时“图像因其本身有错无法显示”的错误

摘要：今天使用http://crazymud.iteye.com/blog/452293给出的代码进行PHP生成校验码功能的实现，发现firefox一直提示“图像.......因其本身有错无法显示”的问题，作者也提示了说“如果浏览器显示“图像XXX因其本身有错无法显示”，可尽量去掉文中空格”，但把代码中所有空格都去掉了还是不能显示检验图片。于是深度google，大部分的解决方案也是将“<?”这句代码前的空格回车一切都删掉以防止有html输出，但这根本解决不了我的问题，后来看到有人在Header("Content-type:image/PNG");这句代码前使用ob_clea 阅读全文

posted @ 2011-08-31 22:23 黄聪阅读(1307) 评论(6) 推荐(2) 编辑

黄聪：使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）

摘要：对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中，我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中，我们将论述如何使用Python模块来迅速解析在HTML文件中的数据，从而处理特定的内容，如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签。一、从HTML文档中提取链接 Python语言还有一个非常有用的模块HTMLParser，该模... 阅读全文

posted @ 2011-08-31 15:04 黄聪阅读(10935) 评论(0) 推荐(1) 编辑

黄聪：使用Python中的urlparse、urllib抓取和解析网页（一）

摘要：对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先，我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块，然后，我们论述如何使用Python模块来迅速解析在HTML文件中的数据，从而处理特定的内容，如链接、图像和Cookie等。最后，我们会给出一个规整HTML文件的格式标签的例子，通过这个例子您会发现使用python处理HTML文件的.. 阅读全文

posted @ 2011-08-31 13:24 黄聪阅读(37221) 评论(1) 推荐(5) 编辑

黄聪：使用 Python 登录网站

摘要：对于大部分论坛，我们想要抓取其中的帖子分析，首先需要登录，否则无法查看。这是因为 HTTP 协议是一个无状态(Stateless)的协议，服务器如何知道当前请求连接的用户是否已经登录了呢？有两种方式：在URI 中显式地使用 Session ID；利用 Cookie，大概过程是登录一个网站后会在本地保留一个 Cookie，当继续浏览这个网站的时候，浏览器会把 Cookie 连同地址请求一起发送过去。 Python 提供了相当丰富的模块，所以对于这种网络操作只要几句话就可以完成。我以登录 QZZN 论坛为例，事实上下面的程序几乎所有的 PHPWind 类型的论坛都是适用的。# -*- co... 阅读全文

posted @ 2011-08-30 22:19 黄聪阅读(9268) 评论(0) 推荐(1) 编辑

黄聪，跟着老王学Python

摘要：亲爱的朋友：欢迎你!很高兴能在这里见到你，你能来到这里说明你真的很喜欢python,很想把python给学好！我觉的你很幸运，开始我学python的时候比较少资料，学起来也比较头疼，现在随着python越来越流行，资料也越来越多，大家以后学起来应该会轻松很多了。我前段时间花了很多时间整理了一些python教程，我觉的对初学python的朋友来说是个很好的引路人，我相信通过它你可以快速的上手python的。不信可以试试哦！最近索取资料的朋友比较多，让老王python感到欣慰！为了让更多的朋友了解python,学习python，喜欢python!我做出了一个艰难的决定:如果你想要得到这份资料的话：阅读全文

posted @ 2011-08-30 11:51 黄聪阅读(1376) 评论(0) 推荐(0) 编辑

黄聪：Cookie工作基础原理、数据如何移动、Web站点怎么使用Cookies

摘要： Cookies基础 Cookies是web站点放置到你的硬盘上的程序。它们驻留在你的计算机上收集关于你在因特网上所做的一切事情的信息，并且web站点可以在任何时候读取到Cookies收集到的所有信息。在新闻中这样定义是公平的，问题是，这个定义中没有一个是正确的，Cookies不是程序，它不能象程序一样能做很多事，因此它们自己不能收集任何信息，也不能收集关你你的机器的任何信息。这里有一个关于Cookies的比较恰当的定义：一个Cookies是web服务器存放在用户硬盘的一段文本，Cookies允许一个wen站点在用户的机器存放一些文本的信息，并可以在以后重新获取它。这个基于文本的信息存储.. 阅读全文

posted @ 2011-08-30 11:36 黄聪阅读(745) 评论(0) 推荐(0) 编辑

黄聪：ICTCLAS分词系统研究（一）（转）

摘要： ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统，难能可贵的是该版的Free版开放了源代码，为我们很多初学者提供了宝贵的学习材料。但有一点不完美的是，该源代码没有配套的文档，阅读起来可能有一定的障碍，尤其是对C/C++不熟的人来说.本人就一直用Java/VB作为主要的开发语言,C/C++上大学时倒是学过,不过工作之后一直没有再使用过,语法什么的忘的几乎一干二净了.但语言这东西,基本的东西都相通的,况且Java也是在C/C++的基础上形成的,有一定的相似处.阅读一遍源代码,主要的语法都应该不成问题了.虽然在ICTCLAS的系统中没有完整的文档说明,但是我. 阅读全文

posted @ 2011-08-29 21:34 黄聪阅读(870) 评论(0) 推荐(0) 编辑

黄聪：ICTCLAS学习文档

摘要：接口文档ICTCLAS2011接口文档ICTCLAS2009接口文档ICTPOS3.0 词性标注集相关论文Chinese Name Entity Recognition Using Role ModelHHMM-based Chinese Lexical Analyzer ICTCLASAutomatic Recognition of Chinese Unknown Words基于多层隐马模型的汉语词法分析研究基于N-最短路径方法的中文词语粗分模型基于角色标注的中国人名自动识别研究基于角色标注的中文机构名识别其他ICTCLAS学习笔记计算所汉语词性标记集(ICTPOS3.0)N-Gram及其. 阅读全文

posted @ 2011-08-29 21:05 黄聪阅读(1255) 评论(0) 推荐(1) 编辑

黄聪：Python+NLTK自然语言处理学习（三）：计算机自动学习机制

摘要：本文演示使用NLTK让计算机学习如何通过名字识别性别。1、导入NLTK：import nltkfrom nltk.book import *2、定义学习方法def gender_features(word): return {'last_letter':word[-1]}3、导入学习的姓名-性别名单：from nltk.corpus import namesimport randomnames=([(name,'male') for name in names.words('male.txt')] + [(name,'female' 阅读全文

posted @ 2011-08-29 18:30 黄聪阅读(6525) 评论(0) 推荐(0) 编辑

黄聪

公告