03 2018 档案
摘要:https://www.jianshu.com/nb/11202633
阅读全文
摘要:# -*- coding: utf-8 -*- # @Time : 2018/03/30 15:20 # @Author : cxa # @File : liuuchnagtu.py # @Software: PyCharm import requests from fake_useragent import UserAgent as UA from lxml import htm...
阅读全文
摘要:https://wizardforcel.gitbooks.io/network-basic/content/0.html
阅读全文
摘要:1. 如果你想查询在你的环境下有哪些pytest的active plugin可以使用: [plain] view plain copy py.test --traceconfig [plain] view plain copy [plain] view plain copy 会得到一个扩展的头文件名
阅读全文
摘要:1、Pytest介绍 pytest是python的一种单元测试框架,与python自带的unittest测试框架类似,但是比unittest框架使用起来更简洁,效率更高。根据pytest的官方网站介绍,它具有如下特点: 非常容易上手,入门简单,文档丰富,文档中有很多实例可以参考 能够支持简单的单元测
阅读全文
摘要:# -*- coding: utf-8 -*- import json import time import requests # from logger.log import other class YDMHttp: apiurl = 'http://api.yundama.com/api.php' username = '' password = '' a...
阅读全文
摘要:Python分布式爬虫打造搜索引擎 基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/ArticleSpider 未来是什么时代?是数据时代!数据分析服务、互联网金融,数据建模、自然语言处理、医疗
阅读全文
摘要:http://xlsxwriter.readthedocs.io/format.html
阅读全文
摘要:表情是获取alt属性的值 传入内容的div区域即可,node就是内容的最外层的节点
阅读全文
摘要:使用sqlchemy查询出一个集合的时候第一个对象可以使用,后面的就报如下错误。 sqlalchemy.orm.exc.DetachedInstanceError: Instance <LoginInfo at 0x6d79e70> is not bound to a Session; attrib
阅读全文
摘要:from socket import *#利用socket模块生成套接字s = socket(AF_INET,SOCK_DGRAM)#定义一个元组,包含ip地址,和端口号,ip地址必须为字符串,端口号为#数字 飞秋的默认端口为2425add = ("192.168.100.148",2425) #设
阅读全文
摘要:在看 Bottle 代码中看见 functools.wraps 这种用法。 def make_default_app_wrapper(name): """ Return a callable that relays calls to the current default app. """ a =
阅读全文
摘要:1.namedtuple 定义一个可以使用属性获取数据的tuple。 2.deque deque是为了高效实现插入和删除操作的双向列表,基本方法类似list,下面是简单的几个方法尝试。
阅读全文
摘要:1.用手机号注册推特账号 https://twitter.com/ 2.进入网站 https://apps.twitter.com/ 创建第一个app,填入基本信息 name写完会检测是否已经存在像我下面这个就存在了 所以第二张图改完之后的名字。 重点Website *的填写 ,需要填写的url是需
阅读全文
摘要:if 后面跟的是条件表达式,条件表达式的结果为True或者False。 (1)如果if后面的条件是数字,只要这个数字不是0,python都会把它当做True处理,见下面的例子: if 3: print 'OK' 输出OK,但是如果数字是0,就会被认为是False。 (2)如果if后面跟的是字符串,则只要这个字符串不为空串,python就把它看作True,参见下例 if 'hehe':...
阅读全文
摘要:输出字典key 给你一字典a,如a={1:1,2:2,3:3},输出字典a的key,以','连接,如‘1,2,3'。要求key按照字典序升序排列(注意key可能是字符串)。 例如:a={1:1,2:2,3:3}, 则输出:1,2,3 方案1: 方案2: 输出100以内的所有素数,素数之间以一个空格区
阅读全文
摘要:带转换字符串Thu Mar 22 05:33:41 +0000 2018,格式化字符串"%a %b %d %H:%M:%S +0000 %Y"
阅读全文
摘要:# -*- coding: utf-8 -*- from tweepy import OAuthHandler import datetime import pandas as pd import tweepy import time import random import traceback from dbs.db import * class Twitter_Spider(): ...
阅读全文
摘要:# -*- coding: utf-8 -*- # @Time : 2018/03/20 17:02 # @Author : cxa # @File : sss.py # @Software: PyCharm import cloudsight auth = cloudsight.SimpleAuth('apikey') api = cloudsight.API(auth) wit...
阅读全文
摘要:安装地址'https://chrome.google.com/webstore/detail/advanced-rest-client/hgmloofddffdnphfgcellkdfbfbjeloo?utm_source=chrome-app-launcher-info-dialog 测试用 1.
阅读全文
摘要:https://www.jianshu.com/p/e5539d96641c 按照这个教程一步步执行到最后报错了。 运行task_dispatcher.py的时候 ValueError: not enough values to unpack (expected 3, got 0) 报错如下 然后查
阅读全文
摘要:这个词翻译过来就是 这很python,其产生的目的就是写出更简洁的,没有冗余的python代码。 1.元素交换 2.迭代元素的同时获取索引 3.字符串的拼接 +操作都会产生新字符串,造成内存浪费,而join,整个过程中只会产生一个字符串对象 4.列表操作 deque模块是python标准库colle
阅读全文
摘要:>Celery 是一个简单、灵活且可靠的,处理大量消息的分布式系统,并且提供维护这样一个系统的必需工具。它是一个专注于实时处理的任务队列,同时也支持任务调度。Celery 是语言无关的,虽然它是用 Python 实现的,但他提供了其他常见语言的接口支持。 ###Celery 结构网上找到一张用得最多
阅读全文
摘要:Redis是有名的NoSql数据库,一般Linux都会默认支持。但在Windows环境中, Windows的Redis安装包需要到以下GitHub链接找到。链接:https://github.com/MicrosoftArchive/redis/releases 下载最新的redis,Redis-x
阅读全文
摘要:如何从数据库中读取数据到DataFrame中? 使用pandas.io.sql模块中的sql.read_sql_query(sql_str,conn)和sql.read_sql_table(table_name,conn)就好了。 第一个是使用sql语句,第二个是直接将一个table转到datafr
阅读全文
摘要:mysql中字段名定义的时候避开关键字。之前我把一个字段定义成了update结果错了,所以避开关键字,但是mysql究竟多少关键字呢? 拓展一下,MYsql的关键字,以后就不要用这些关键字啦
阅读全文
摘要:The following are 27 code examples for showing how to use selenium.webdriver.chrome.options.Options(). They are extracted from open source Python proj
阅读全文
摘要:【python】统一转换日期格式dateutil.parser.parse 背景: 我有很多很多的日志数据,每个日志里面都有日期字符串,我需要将其转换为datetime格式。 问题是,这些日志里的字符串格式五花八门,有2017-05-25T05:27:30.313292255Z,有2016-07-0
阅读全文
摘要:import os, time, fnmatch from docx import Document class search: def __init__(self, path, search_string, file_filter): self.search_path = path self.search_string = search_string se...
阅读全文
摘要:大规模爬虫流程总结 爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。 系统的大规模爬虫流程如图所示。 先检查是否有API API是网站官方提供的数据接口,如果通过调用API采集数据,则相当
阅读全文
摘要:一、在这里selenium的作用 (1)模拟的登录。 (2)获取登录成功之后的cookies 代码 通过使用cookies = driver.get_cookies() #我们获取了cookie那么我们怎用呢。 二、requests如何使用获取到的cookies 1.创建一个Session对象 2.
阅读全文
摘要:本文转载自:蓝鲸的网站分析笔记 原文链接:使用python进行数据清洗 目录: 数据表中的重复值 duplicated() drop_duplicated() 数据表中的空值/缺失值 isnull()¬null() dropna() fillna() 数据间的空格 查看数据中的空格 去除数据中
阅读全文
摘要:重要的一步默认没有授权中国地区的需要开启授权, Account not authorized to call . Perhaps you need to enable some international permissions: twilio.com/user/account/settings/i
阅读全文
摘要:# -*- coding: utf-8 -*-# @Time : 2018/03/09 12:25# @Author : cxa# @File : gle.py# @Software: PyCharmimport requestsimport csv#########################
阅读全文
摘要:http://blog.csdn.net/u013088062/article/details/50100121
阅读全文
摘要:http://www.yuntongxun.com/doc/ready/demo/1_4_1_2.html
阅读全文
摘要:思路: 1。第一次需要访问的链接是 https://weibo.com/aj/v6/comment/big?ajwvr=6&more_comment=big&root_comment_id=4215074627189144&is_child_comment=ture&id=4095051414397
阅读全文
摘要:# -*- coding: utf-8 -*- # @Time : 2018/03/08 10:32 # @Author : cxa # @File : gethtmlandimg.py # @Software: PyCharm import requests from fake_useragent import UserAgent as UA from lxml import ...
阅读全文
摘要:问题背景 #给定一个字典{"uid", 2243,"follow", 23,"fans", 20,"weibo", 45}需要把上面的字典字典转换成3条数据插入数据库。# BIZ_ID: 2243, ITEM_NAME:"follow", DEC_VALUE:23# BIZ_ID: 2243, IT
阅读全文
摘要:from:https://www.jianshu.com/p/8d085e2f2657 这是继SQLAlchemy ORM教程之一:Create后的第二篇教程。在上一篇中我们主要是解决了如何配置ORM系统,建立从类到表的映射的过程,以及如何插入和修改记录。在这个教程中我们主要解决使用的问题。 Que
阅读全文
摘要:from:https://segmentfault.com/q/1010000000140472 filter: apply the given filtering criterion to a copy of this Query, using SQL expressions.e.g.:sessi
阅读全文
摘要:import pandas as pd #数据库操作 import numpy as np from collections import Counter import matplotlib.pyplot as plt #绘图 import jieba from scipy.misc import imread from wordcloud import WordCloud #词云可视化 im...
阅读全文
摘要:# 根据传入的背景图片路径和词频字典、字体文件,生成指定名称的词云图片 def generate_word_cloud(img_bg_path, top_words_with_freq, font_path, to_save_img_path, background_color='white'): # 读取背景图形 img_bg = imread(img_bg_path) ...
阅读全文
摘要:1.collections模块 collections模块自Python 2.4版本开始被引入,包含了dict、set、list、tuple以外的一些特殊的容器类型,分别是: OrderedDict类:排序字典,是字典的子类。引入自2.7。 namedtuple()函数:命名元组,是一个工厂函数。引
阅读全文
摘要:上次获取第一次分词之后的内容了 但是数据数据量太大了 ,这时候有个模块就派上用场了collections模块的Counter类 Counter类:为hashable对象计数,是字典的子类。 然后使用most_common方法返回一个TopN列表。如果n没有被指定,则返回所有元素。当多个元素计数值相同
阅读全文
摘要:转载自:http://www.hankcs.com/nlp/part-of-speech-tagging.html 词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、
阅读全文
摘要:import requests from lxml import html import time import pandas as pd from sqlalchemy import create_engine import traceback from fake_useragent import UserAgent as UA #使用其random方法获取随机ua class ZhaoPi...
阅读全文
摘要:如何获取数据点击这里 数据样式大概这样。然后下面我分析的是工作要求 也就是那边的绿框那一列。 运行完上面的程序得到的文件结构如下
阅读全文
摘要:# -*- coding: utf-8 -*- # @Time : 2018/03/05 10:57 # @Author : cxa # @File : testDataTime.py # @Software: PyCharm import datetime import time # 今天 12:36 # 34分钟前 # 20秒前 # 2月26日 09:38 #统一格式化成时间类...
阅读全文
摘要:# -*- coding: utf-8 -*- import os import time import logging import sys log_dir1=os.path.join(os.path.dirname(os.path.dirname(__file__)),"logs") today = time.strftime('%Y%m%d', time.localtime(time.ti...
阅读全文
摘要:1 创建链接基础类。 2.设计需要的表的字段 3.映射到实体 4.创建表
阅读全文
摘要:最近用mysqlalchmy的时候遇到了 sqlalchemy.exc.InternalError: (pymysql.err.InternalError) (1366, "Incorrect string value: '\\xF0\\xA0\\x88\\x8C\\xEF\\xBC...' for
阅读全文
摘要:using System; //添加selenium的引用 using OpenQA.Selenium.PhantomJS; using OpenQA.Selenium.Chrome; using OpenQA.Selenium.Support.UI; using OpenQA.Selenium; //添加引用-在程序集中添加System.Drawing using System.IO; us...
阅读全文