随笔- 985 文章- 2 评论- 108 阅读- 471万

Python只读取文本中文字符

#coding=utf-8
import re

with open('aaa.txt','r',encoding="utf-8") as f:
    #data = f.read().decode('gbk').encode('utf-8')
    data = f.read()
    print(data)
    #str = re.sub(r'(\\u\d+)',"",data)
    #data = re.sub("[A-Za-z0-9\!\%\[\]\,\。]", "", data)
    #data = re.sub('[\W_+]', "", data)
    data = re.sub('[\u4E00-\u9FA5]',"", data)
    print(data)

#过滤掉除了中文以外的字符

import re

"""
python 3.5版本
正则匹配中文，固定形式：\u4E00-\u9FA5
"""

text = "aqweded***中国***xsa***日本***韩国"
regStr = ".*?([\u4E00-\u9FA5]+).*?"
aa = re.findall(regStr, text)
if aa:
    print(aa)

#提取字符串里的中文，返回数组

#coding=utf-8
import re

with open('aaa.txt','r',encoding="utf-8") as f:
    #data = f.read().decode('gbk').encode('utf-8')
    data = f.read()
    print(data)
    data = re.sub("[A-Za-z0-9\!\%\[\]\,\。\ ]", "", data)
    #data = re.sub('[\u4E00-\u9FA5]',"", data)
    print(data)

# -*- coding: utf-8 -*-
import re
#过滤掉除了中文以外的字符
str = "hello,world!!%[545]你好234世界。。。"
str = re.sub("[A-Za-z0-9\!\%\[\]\,\。]", "", str)
print(str)
 
#提取字符串里的中文，返回数组
pattern="[\u4e00-\u9fa5]+" 
regex = re.compile(pattern)
results =  regex.findall("adf中文adf发京东方")
print(results)

posted @ 2019-11-07 14:46 Agoly 阅读(14158) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 周边上新：园子的第一款马克杯温暖上架

公告

昵称： Agoly
园龄： 12年1个月
粉丝： 945
关注： 545

+加关注

2025年3月

日

一

二

三

四

五

六

Agoly

欢迎加入：湖北软件测试群
专注性能瓶颈优化分析、安全渗透测试、自动化持续集成测试

Python只读取文本中文字符

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (846)

随笔档案 (985)

文章档案 (2)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

Agoly

欢迎加入：湖北软件测试群 专注性能瓶颈优化分析、安全渗透测试、自动化持续集成测试

Python只读取文本中文字符

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (846)

随笔档案 (985)

文章档案 (2)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

欢迎加入：湖北软件测试群
专注性能瓶颈优化分析、安全渗透测试、自动化持续集成测试