10 2017 档案

摘要:Python写爬虫的感觉那叫一个爽!100行代码不到,爬取整站,貌似这样下去拉钩还不加强服务器么?下面看看半智能的效果,下面看图: 输入命令后,小爬虫开始工作了! 爬去结束后小爬虫自动生成了一个XLS文件,一般的excel就能打开了最后看看成果: 好了,效果看完了,看看小爬虫怎么制造出来的吧。。。其 阅读全文
posted @ 2017-10-31 09:53 py小蟒蛇 阅读(228) 评论(0) 推荐(0) 编辑
摘要:AJAX,异步加载技术!!! 之前在网上看过很多朋友有一种疑问,为什么在看京东网页的源代码里面看不到价格或则折扣一类的数据,而在网页上正常显示却能看到?。。。之前我也没有想到是AJAX,因为我写写爬虫只是业余爱好吧~~,后来有一次用chrome抓包的时候发现网页加载完成但是其还在刷新数据,突然恍然大 阅读全文
posted @ 2017-10-31 09:27 py小蟒蛇 阅读(819) 评论(0) 推荐(0) 编辑
摘要:使用Scrapy趴一趴美女图 Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种 阅读全文
posted @ 2017-10-30 10:24 py小蟒蛇 阅读(249) 评论(0) 推荐(0) 编辑
摘要:混合搜索在各大网站如京东、淘宝都有应用,他们的原理都是什么呢?本博文将为你介绍它们的实现过程。 混合搜索的原理,用一句话来说就是:关键字id进行拼接。 混合搜索示例: 数据库设计: 视频方向: 1 2 3 4 5 6 7 8 9 10 11 12 class Direction(models.Mod 阅读全文
posted @ 2017-10-30 10:21 py小蟒蛇 阅读(713) 评论(0) 推荐(0) 编辑
摘要:对于web开来说,用户登陆、注册、文件上传等是最基础的功能,针对不同的web框架,相关的文章非常多,但搜索之后发现大多都不具有完整性,对于web应用来说,包括数据库的创建,前端页面的开发,以及中间逻辑层的处理三部分。 本操作的环境: deepin linux 2013(基于ubuntu) pytho 阅读全文
posted @ 2017-10-30 10:14 py小蟒蛇 阅读(378) 评论(0) 推荐(0) 编辑
摘要:中文URL:这个其实是很常识的东西,但是之前做web一直没注意过,在使用HttpResponseRedirect的时候,如果Redirect的URL中带中文的话,会报UnicodeEncodeError错误。解决的办法是使用urlquote对URL进行编码 from django.utils.http import urlquote #return的时候在URL前加上urlquote retu... 阅读全文
posted @ 2017-10-27 09:28 py小蟒蛇 阅读(467) 评论(0) 推荐(0) 编辑
摘要:SQL语句: select distinct a.device_hash, sum(b.cmn_merge_count) from (select distinct device_hash from tbl_fileprotect_svc_instance where customer_id='3f500ac5-020d-3ce3-a2a2-51a59ddd606e') as a left... 阅读全文
posted @ 2017-10-27 09:23 py小蟒蛇 阅读(4325) 评论(0) 推荐(0) 编辑
摘要:python爬虫xpath的语法 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 因此,对 XPath 的理解是很多高级 XML 应用的基础。 这个是w3c上关于xpath的介绍,可以看出xpath... 阅读全文
posted @ 2017-10-27 09:04 py小蟒蛇 阅读(230) 评论(0) 推荐(0) 编辑
摘要:.python统计文本中每个单词出现的次数: #coding=utf-8 __author__ = 'zcg' import collections import os with open('abc.txt') as file1:#打开文本文件 str1=file1.read().split(' ')#将文章按照空格划分开 print "原文本:\n %s"% str1 pri... 阅读全文
posted @ 2017-10-26 09:59 py小蟒蛇 阅读(31161) 评论(0) 推荐(2) 编辑
摘要:一般阿里社招都是招3-5年的P6+高级工程师,当初自己一年经验也没有想过有这个面试机会。 虽然没想着换工作,但是经常关注一些招聘网站的信息,某一天,在某boss上有个人找我,叫我发一下简历,我一看是阿里的某技术专家,虽然之前也有阿里的在某boss上给我要简历,但是我深知自己经验不足,然后给boss说 阅读全文
posted @ 2017-10-26 09:18 py小蟒蛇 阅读(280) 评论(0) 推荐(1) 编辑
摘要:看了一圈, 没看到稍微好用的ConnectionPool, 除了一个aiomysql, 但是这个是异步的, 我暂时没有用到这么高版本的Python, 所以就动手造一个轮子. 原理比较简单, 先造一个线程安全的集合, 无非就是Lock+Set, 然后修改PyMySQL的close方法, 把实例对象和我的这个集合关联起来, close的时候丢进集合里面 这里是代码: 复制代码 import t... 阅读全文
posted @ 2017-10-25 14:15 py小蟒蛇 阅读(485) 评论(0) 推荐(0) 编辑
摘要:编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: 复制代码 1 def step(): 2 try: 3 headers = { 4 。。。。。 5 } 6 r = requests.get(url,headers,time... 阅读全文
posted @ 2017-10-25 14:12 py小蟒蛇 阅读(165) 评论(0) 推荐(0) 编辑
摘要:查找需要安装的包 pip search <包名> 安装python包 pip install pip install <包名>==1.0.4 pip install -r requirements.txt pip install <包名> -i http://pypi.mirrors.ustc.ed 阅读全文
posted @ 2017-10-24 14:55 py小蟒蛇 阅读(606) 评论(0) 推荐(0) 编辑
摘要:写个小爬虫,趴一趴吉他谱# -*- coding: utf-8 -*- #coding=UTF8 import os import sys import logging import urllib import urllib2 import chardet import re import cookielib import urlparse from bs4 import Beautiful... 阅读全文
posted @ 2017-10-24 14:52 py小蟒蛇 阅读(411) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/python# -*- coding: GBK -*-# -*- coding: UTF-8 -*- from ftplib import FTPimport osimport datetime ftp_server = '127.0.0.1' # 对应ftp服务器地址user 阅读全文
posted @ 2017-10-24 14:41 py小蟒蛇 阅读(137) 评论(0) 推荐(0) 编辑
摘要:一、编码历史: 1、ASCII(主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 = 256-1,所以,ASCII码最多只能表示 255 个符号。 2、为了处理汉字,程序员设计了用于简体中文的GB2312,但GB2312 支持的汉字太少,之后扩展规范为GBK, 阅读全文
posted @ 2017-10-23 11:40 py小蟒蛇 阅读(260) 评论(0) 推荐(0) 编辑
摘要:jQuery是由原生js写的所以说所有jQuery制作出来的效果都可以使用js做出来,jQuery出现的目的是为了优化代码,提高码代码的效率它将很多功能封装。 一、jQuery的认识 1、何为jquery 2、优势 短小、精悍,写起来简单,省事儿,开发效率高 3、js与jquery关系 jQuery 阅读全文
posted @ 2017-10-19 09:36 py小蟒蛇 阅读(259) 评论(0) 推荐(0) 编辑
摘要:趴趴趴 阅读全文
posted @ 2017-10-19 09:23 py小蟒蛇 阅读(232) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示