懵懂的菜鸟

trmd_b1_ok

摘要： 1 # -*- coding:utf-8 -*- 2 ''' 3 从11c开始提取 4 ''' 5 import re 6 import numpy as np 7 import os 8 year = '17A' 9 ss="./data/edmd/" 10 # filename=ss+"/EDMDI1.17A" 11 def get_tag(): 1... 阅读全文

posted @ 2017-08-25 13:46 懵懂的菜鸟阅读(283) 评论(0) 推荐(0) 编辑

python网页爬虫 spiders_97A-04B

摘要： 1 import urllib 2 import urllib.request 3 import bs4 4 from bs4 import BeautifulSoup as bs 5 import re 6 import os 7 8 # year = '97A' 9 # ss="./data/%s/"%year 10 ''' 11 适应网页爬取95... 阅读全文

posted @ 2017-08-25 13:45 懵懂的菜鸟阅读(495) 评论(0) 推荐(0) 编辑

trcd_extract_EDCD_new

摘要： 1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ''' 6 适应新版本 7 ''' 8 9 10 year='17A'#用户自定义 11 ss='./data/'#根目录 12 filename = ss+'EDCD%s.txt'%year#输入文件名 13 14 15 16 17 def ... 阅读全文

posted @ 2017-08-25 13:45 懵懂的菜鸟阅读(197) 评论(0) 推荐(0) 编辑

changetoutf-8

摘要： 1 import chardet 2 import os 3 # ANSI文件转UTF-8 4 import codecs 5 import os 6 7 def strJudgeCode(str): 8 return chardet.detect(str) 9 10 def readFile(path): 11 12 f = open(path, 'r'... 阅读全文

posted @ 2017-08-25 13:44 懵懂的菜鸟阅读(176) 评论(0) 推荐(0) 编辑

b3_trcd_EDCD_new

摘要： 1 # -*- coding:utf-8 -*- 2 import re 3 4 5 year="17A" 6 ss='./data/' 7 filename = ss+'EDCD%s.txt'%year 8 9 10 ''' 11 适应新版本 12 ''' 13 14 15 p1 = r"^\s{4}(?:X|\W)\s{2}(C... 阅读全文

posted @ 2017-08-25 13:43 懵懂的菜鸟阅读(130) 评论(0) 推荐(0) 编辑

b4和tncl_extract_UNCL_new

摘要： 1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ''' 6 适应新版本 7 8 注意： 9 1）17A文件改完后缀后，需要转为UTF-8无BOM格式，才能正确处理。 10 2）fr = open(filename,encoding='utf-8') 11 12 ''' 13 14 15 year='... 阅读全文

posted @ 2017-08-25 13:43 懵懂的菜鸟阅读(242) 评论(0) 推荐(0) 编辑

b2_trsd_EDSD_new

摘要： 1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ss="./data/" 6 year = '17A' 7 filename = ss+'EDSD%s.txt'%year 8 9 10 ''' 11 适应新版本 12 13 ''' 14 15 16 17 p1 = r"^\s{4}(?:X|... 阅读全文

posted @ 2017-08-25 13:42 懵懂的菜鸟阅读(267) 评论(0) 推荐(0) 编辑

python按行读取并替换

摘要： fp = open(''test2.txt','w') #打开你要写得文件test2.txt lines = open('test1.txt').readlines() #打开文件，读入每一行 for s in lines: fp.write( s.replace('love','hate').re 阅读全文

posted @ 2017-08-23 13:54 懵懂的菜鸟阅读(7293) 评论(0) 推荐(0) 编辑

python 爬取网页内容

摘要： 1 #encoding:UTF-8 2 import urllib 3 import urllib.request 4 import bs4 5 from bs4 import BeautifulSoup as bs 6 def test1(): 7 url = "http://www.stylusstudio.com/edifact/D95B/CODECO.htm" 8... 阅读全文

posted @ 2017-08-23 11:35 懵懂的菜鸟阅读(573) 评论(0) 推荐(0) 编辑

file.write(str),file.writelines(sequence)

摘要： file.write(str)的参数是一个字符串，就是你要写入文件的内容.file.writelines(sequence)的参数是序列，比如列表，它会迭代帮你写入文件。阅读全文

posted @ 2017-08-23 11:18 懵懂的菜鸟阅读(472) 评论(0) 推荐(0) 编辑

导航

公告