基于UnicodeData包，实现中文字符串规范化

 import unicodedata
def normalize_str(s: str) -> str:
    """
    规范化字符串。
    在测试中，可能会遇到字符等价的问题，如字符“⾯”和“面”在语义上等价的，
    但它们的编码不同，故需要进行Unicode规范化，以解决此类问题。
    参见：https://xobo.org/unicode-normalization-nfd-nfc-nfkd-nfkc/
 
    :param s: 待规范化的字符串。
    :return: 规范好的字符串
    """
    s_normalized: str = unicodedata.normalize('NFKD', s)
    s_normalized.encode('utf-8')
    return s_normalized

posted @ 2024-04-28 00:53 fang-d 阅读(25) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 论文写作：PyPlot或MATLAB图像全局客制化与矢量图导出

· Pytorch卷积神经网络对MNIST数据集的手写数字识别

· python 对unicode字符进行normalized

· 2.9Unicode 文本标准化

· 详解字符编码与 Unicode

一方天地

给技术一方自由的天地

基于UnicodeData包，实现中文字符串规范化

公告

搜索

最新随笔

我的标签

文章档案

最新评论

	import unicodedata
	def normalize_str(s: str) -> str:
	"""
	规范化字符串。
	在测试中，可能会遇到字符等价的问题，如字符“⾯”和“面”在语义上等价的，
	但它们的编码不同，故需要进行Unicode规范化，以解决此类问题。
	参见：https://xobo.org/unicode-normalization-nfd-nfc-nfkd-nfkc/

	:param s: 待规范化的字符串。
	:return: 规范好的字符串
	"""
	s_normalized: str = unicodedata.normalize('NFKD', s)
	s_normalized.encode('utf-8')
	return s_normalized