python 正则匹配 csv文件中特殊符号如■高风险 这样的black block

各种符号必然在unicode中有保存,根据unicode代码匹配即可。

1.csv中特殊字符可以在excel的【插入符号】中查找,然后记下该符号的Unicode代码。如■ 这个实心方形的Unicode代码为25A0:

2.需要查询其他的代码可以以此代码为基础搜索,(当然本例用词代码即可):如unicode 25A0 python,可得到在各编码方式的代码,本例网址:

http://www.fileformat.info/info/unicode/char/25a0/index.htm  找python 即:

UTF-8 (hex) 0xE2 0x96 0xA0 (e296a0)
UTF-8 (binary) 11100010:10010110:10100000
UTF-16 (hex) 0x25A0 (25a0)
UTF-16 (decimal) 9,632
UTF-32 (hex) 0x000025A0 (25a0)
UTF-32 (decimal) 9,632
C/C++/Java source code "\u25A0"
Python source code u"\u25A0"

3.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# -*- coding: utf-8 -*-
import re
a=u"\u25A0"
b=u"高风险"
d="%s%s"%(a,b)
d1=d.encode('GBK') #decode 以便匹配文本获取内容,原为utf8
p=re.compile(".*\s*%s\s*.*"%d1)
with open ("b.csv","r") as r:
    for i in r:
        #print i
        line=i.strip().split("#")[7]
        print line
        if p.search(line):
            count+=1
print "count =%s"%count

 

还需要认真的学习编码方式:http://python.jobbole.com/86670/

posted on   BioinformaticsMaster  阅读(686)  评论(0编辑  收藏  举报

编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示