随笔档案「2017年10月」 - py小蟒蛇

简单粗暴爬取拉钩信息，

摘要：Python写爬虫的感觉那叫一个爽！100行代码不到，爬取整站，貌似这样下去拉钩还不加强服务器么？下面看看半智能的效果，下面看图：输入命令后，小爬虫开始工作了！爬去结束后小爬虫自动生成了一个XLS文件，一般的excel就能打开了最后看看成果：好了，效果看完了，看看小爬虫怎么制造出来的吧。。。其阅读全文

posted @ 2017-10-31 09:53 py小蟒蛇阅读(239) 评论(0) 推荐(0)

趴一趴京东的Ajax动态价格页面

摘要：AJAX，异步加载技术！！！之前在网上看过很多朋友有一种疑问，为什么在看京东网页的源代码里面看不到价格或则折扣一类的数据，而在网页上正常显示却能看到？。。。之前我也没有想到是AJAX，因为我写写爬虫只是业余爱好吧~~，后来有一次用chrome抓包的时候发现网页加载完成但是其还在刷新数据，突然恍然大阅读全文

posted @ 2017-10-31 09:27 py小蟒蛇阅读(831) 评论(0) 推荐(0)

Scrapy爬取女神照片

摘要：使用Scrapy趴一趴美女图 Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种阅读全文

posted @ 2017-10-30 10:24 py小蟒蛇阅读(278) 评论(0) 推荐(0)

关于django 京东淘宝混合搜索实现原理

摘要：混合搜索在各大网站如京东、淘宝都有应用，他们的原理都是什么呢?本博文将为你介绍它们的实现过程。混合搜索的原理，用一句话来说就是：关键字id进行拼接。混合搜索示例：数据库设计：视频方向： 1 2 3 4 5 6 7 8 9 10 11 12 class Direction(models.Mod 阅读全文

posted @ 2017-10-30 10:21 py小蟒蛇阅读(746) 评论(0) 推荐(0)

django 快速实现文件上传

摘要：对于web开来说，用户登陆、注册、文件上传等是最基础的功能，针对不同的web框架，相关的文章非常多，但搜索之后发现大多都不具有完整性，对于web应用来说，包括数据库的创建，前端页面的开发，以及中间逻辑层的处理三部分。本操作的环境： deepin linux 2013（基于ubuntu） pytho 阅读全文

posted @ 2017-10-30 10:14 py小蟒蛇阅读(390) 评论(0) 推荐(0)

django常见问题小结，细节容易忽视

摘要：中文URL：这个其实是很常识的东西，但是之前做web一直没注意过，在使用HttpResponseRedirect的时候，如果Redirect的URL中带中文的话，会报UnicodeEncodeError错误。解决的办法是使用urlquote对URL进行编码 from django.utils.http import urlquote #return的时候在URL前加上urlquote retu... 阅读全文

posted @ 2017-10-27 09:28 py小蟒蛇阅读(481) 评论(0) 推荐(0)

Django 如何实现如下联表 JOIN 查询？

摘要：SQL语句： select distinct a.device_hash, sum(b.cmn_merge_count) from (select distinct device_hash from tbl_fileprotect_svc_instance where customer_id='3f500ac5-020d-3ce3-a2a2-51a59ddd606e') as a left... 阅读全文

posted @ 2017-10-27 09:23 py小蟒蛇阅读(4344) 评论(0) 推荐(0)

xpath相关巩固

摘要：python爬虫xpath的语法 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此，对 XPath 的理解是很多高级 XML 应用的基础。这个是w3c上关于xpath的介绍，可以看出xpath... 阅读全文

posted @ 2017-10-27 09:04 py小蟒蛇阅读(239) 评论(0) 推荐(0)

python统计文本中每个单词出现的次数

摘要：.python统计文本中每个单词出现的次数： #coding=utf-8 __author__ = 'zcg' import collections import os with open('abc.txt') as file1:#打开文本文件 str1=file1.read().split(' ')#将文章按照空格划分开 print "原文本:\n %s"% str1 pri... 阅读全文

posted @ 2017-10-26 09:59 py小蟒蛇阅读(31254) 评论(0) 推荐(2)

面试经验

摘要：一般阿里社招都是招3-5年的P6+高级工程师，当初自己一年经验也没有想过有这个面试机会。虽然没想着换工作，但是经常关注一些招聘网站的信息，某一天，在某boss上有个人找我，叫我发一下简历，我一看是阿里的某技术专家，虽然之前也有阿里的在某boss上给我要简历，但是我深知自己经验不足，然后给boss说阅读全文

posted @ 2017-10-26 09:18 py小蟒蛇阅读(296) 评论(0) 推荐(1)

一个简单的ConnectionPool，手动搞

摘要：看了一圈, 没看到稍微好用的ConnectionPool, 除了一个aiomysql, 但是这个是异步的, 我暂时没有用到这么高版本的Python, 所以就动手造一个轮子. 原理比较简单, 先造一个线程安全的集合, 无非就是Lock+Set, 然后修改PyMySQL的close方法, 把实例对象和我的这个集合关联起来, close的时候丢进集合里面这里是代码: 复制代码 import t... 阅读全文

posted @ 2017-10-25 14:15 py小蟒蛇阅读(497) 评论(0) 推荐(0)

爬虫小练

摘要：编程模块：requests,lxml，pymongo，time，BeautifulSoup 首先获取所有产品的分类网址：复制代码 1 def step(): 2 try: 3 headers = { 4 。。。。。 5 } 6 r = requests.get(url,headers,time... 阅读全文

posted @ 2017-10-25 14:12 py小蟒蛇阅读(174) 评论(0) 推荐(0)

关于PIP 总结和记忆巩固

摘要：查找需要安装的包 pip search <包名> 安装python包 pip install pip install <包名>==1.0.4 pip install -r requirements.txt pip install <包名> -i http://pypi.mirrors.ustc.ed 阅读全文

posted @ 2017-10-24 14:55 py小蟒蛇阅读(617) 评论(0) 推荐(0)

爬吉他谱

摘要：写个小爬虫，趴一趴吉他谱# -*- coding: utf-8 -*- #coding=UTF8 import os import sys import logging import urllib import urllib2 import chardet import re import cookielib import urlparse from bs4 import Beautiful... 阅读全文

posted @ 2017-10-24 14:52 py小蟒蛇阅读(420) 评论(0) 推荐(0)

下载记录黑名单

摘要：#!/usr/bin/python# -*- coding: GBK -*-# -*- coding: UTF-8 -*- from ftplib import FTPimport osimport datetime ftp_server = '127.0.0.1' # 对应ftp服务器地址user 阅读全文

posted @ 2017-10-24 14:41 py小蟒蛇阅读(145) 评论(0) 推荐(0)

关于编码问题的整理

摘要：一、编码历史： 1、ASCII（主要用于显示现代英语和其他西欧语言，其最多只能用 8 位来表示（一个字节），即：2**8 = 256-1，所以，ASCII码最多只能表示 255 个符号。 2、为了处理汉字，程序员设计了用于简体中文的GB2312，但GB2312 支持的汉字太少，之后扩展规范为GBK，阅读全文

posted @ 2017-10-23 11:40 py小蟒蛇阅读(275) 评论(0) 推荐(0)

jQuery记忆巩固

摘要：jQuery是由原生js写的所以说所有jQuery制作出来的效果都可以使用js做出来，jQuery出现的目的是为了优化代码，提高码代码的效率它将很多功能封装。一、jQuery的认识 1、何为jquery 2、优势短小、精悍，写起来简单，省事儿，开发效率高 3、js与jquery关系 jQuery 阅读全文

posted @ 2017-10-19 09:36 py小蟒蛇阅读(269) 评论(0) 推荐(0)

趴一趴

摘要：趴趴趴阅读全文

posted @ 2017-10-19 09:23 py小蟒蛇阅读(244) 评论(0) 推荐(0)

py小蟒蛇

10 2017 档案

公告