python 正则匹配 csv文件中特殊符号如■高风险 这样的black block
各种符号必然在unicode中有保存,根据unicode代码匹配即可。
1.csv中特殊字符可以在excel的【插入符号】中查找,然后记下该符号的Unicode代码。如■ 这个实心方形的Unicode代码为25A0:
2.需要查询其他的代码可以以此代码为基础搜索,(当然本例用词代码即可):如unicode 25A0 python,可得到在各编码方式的代码,本例网址:
http://www.fileformat.info/info/unicode/char/25a0/index.htm 找python 即:
UTF-8 (hex) | 0xE2 0x96 0xA0 (e296a0) |
UTF-8 (binary) | 11100010:10010110:10100000 |
UTF-16 (hex) | 0x25A0 (25a0) |
UTF-16 (decimal) | 9,632 |
UTF-32 (hex) | 0x000025A0 (25a0) |
UTF-32 (decimal) | 9,632 |
C/C++/Java source code | "\u25A0" |
Python source code | u"\u25A0" |
3.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | # -*- coding: utf-8 -*- import re a = u "\u25A0" b = u "高风险" d = "%s%s" % (a,b) d1 = d.encode( 'GBK' ) #decode 以便匹配文本获取内容,原为utf8 p = re. compile ( ".*\s*%s\s*.*" % d1) with open ( "b.csv" , "r" ) as r: for i in r: #print i line = i.strip().split( "#" )[ 7 ] print line if p.search(line): count + = 1 print "count =%s" % count |
还需要认真的学习编码方式:http://python.jobbole.com/86670/
本文来自博客园,作者:BioinformaticsMaster,转载请注明原文链接:https://www.cnblogs.com/koujiaodahan/p/8410409.html
分类:
python
posted on 2018-02-03 18:33 BioinformaticsMaster 阅读(686) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律