懵懂的菜鸟

Stay hungry,Stay foolish.

导航

2017年8月25日 #

爬取数据的程序

摘要: 1 # -*- enconding:etf-8 -*- 2 import pymysql 3 import os 4 import time 5 import re 6 serveraddr="localhost" 7 user="root" 8 password="123456" 9 databaseName="test" 10 filename="./d... 阅读全文

posted @ 2017-08-25 13:48 懵懂的菜鸟 阅读(427) 评论(0) 推荐(0) 编辑

文件对比程序

摘要: 1 #-*- encoding:utf-8 -*- 2 3 class loadDatas(object): 4 def __init__(self): 5 self.path='./data' 6 def load_compare(self): 7 l1={} 8 f1=open(self.path+'/95b.... 阅读全文

posted @ 2017-08-25 13:48 懵懂的菜鸟 阅读(181) 评论(0) 推荐(0) 编辑

trsd_extract_EDSD_new

摘要: 1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ''' 6 适应新版本 7 ''' 8 9 10 year='17A'#用户自定义 11 ss='./data/'#根目录 12 filename = ss+'EDSD%s.txt'%year#输入文件名 13 14 15 16 17 def ... 阅读全文

posted @ 2017-08-25 13:47 懵懂的菜鸟 阅读(308) 评论(0) 推荐(0) 编辑

tred_extract_EDED_new

摘要: 1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ''' 6 适应新版本 7 ''' 8 9 10 year='17a'#用户自定义 11 ss='./data/'#根目录 12 filename = ss+'EDED%s.txt'%year#输入文件名 13 14 15 16 17 def ... 阅读全文

posted @ 2017-08-25 13:46 懵懂的菜鸟 阅读(529) 评论(0) 推荐(0) 编辑

trmd_b1_ok

摘要: 1 # -*- coding:utf-8 -*- 2 ''' 3 从11c开始提取 4 ''' 5 import re 6 import numpy as np 7 import os 8 year = '17A' 9 ss="./data/edmd/" 10 # filename=ss+"/EDMDI1.17A" 11 def get_tag(): 1... 阅读全文

posted @ 2017-08-25 13:46 懵懂的菜鸟 阅读(283) 评论(0) 推荐(0) 编辑

python网页爬虫 spiders_97A-04B

摘要: 1 import urllib 2 import urllib.request 3 import bs4 4 from bs4 import BeautifulSoup as bs 5 import re 6 import os 7 8 # year = '97A' 9 # ss="./data/%s/"%year 10 ''' 11 适应网页爬取95... 阅读全文

posted @ 2017-08-25 13:45 懵懂的菜鸟 阅读(495) 评论(0) 推荐(0) 编辑

trcd_extract_EDCD_new

摘要: 1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ''' 6 适应新版本 7 ''' 8 9 10 year='17A'#用户自定义 11 ss='./data/'#根目录 12 filename = ss+'EDCD%s.txt'%year#输入文件名 13 14 15 16 17 def ... 阅读全文

posted @ 2017-08-25 13:45 懵懂的菜鸟 阅读(197) 评论(0) 推荐(0) 编辑

changetoutf-8

摘要: 1 import chardet 2 import os 3 # ANSI文件转UTF-8 4 import codecs 5 import os 6 7 def strJudgeCode(str): 8 return chardet.detect(str) 9 10 def readFile(path): 11 12 f = open(path, 'r'... 阅读全文

posted @ 2017-08-25 13:44 懵懂的菜鸟 阅读(176) 评论(0) 推荐(0) 编辑

b3_trcd_EDCD_new

摘要: 1 # -*- coding:utf-8 -*- 2 import re 3 4 5 year="17A" 6 ss='./data/' 7 filename = ss+'EDCD%s.txt'%year 8 9 10 ''' 11 适应新版本 12 ''' 13 14 15 p1 = r"^\s{4}(?:X|\W)\s{2}(C... 阅读全文

posted @ 2017-08-25 13:43 懵懂的菜鸟 阅读(130) 评论(0) 推荐(0) 编辑

b4和tncl_extract_UNCL_new

摘要: 1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ''' 6 适应新版本 7 8 注意: 9 1)17A文件改完后缀后,需要转为UTF-8无BOM格式,才能正确处理。 10 2)fr = open(filename,encoding='utf-8') 11 12 ''' 13 14 15 year='... 阅读全文

posted @ 2017-08-25 13:43 懵懂的菜鸟 阅读(242) 评论(0) 推荐(0) 编辑

b2_trsd_EDSD_new

摘要: 1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ss="./data/" 6 year = '17A' 7 filename = ss+'EDSD%s.txt'%year 8 9 10 ''' 11 适应新版本 12 13 ''' 14 15 16 17 p1 = r"^\s{4}(?:X|... 阅读全文

posted @ 2017-08-25 13:42 懵懂的菜鸟 阅读(267) 评论(0) 推荐(0) 编辑