[pinyin4j] java版汉字转换拼音(大小写)

pinyin4J 是一个可以将汉字转换成拼音的lib,非常实用,其maven地址为:http://mvnrepository.com/artifact/com.belerweb/pinyin4j/2.5.0


pinyin4J 提供PinyinHelper这个静态类对外提供拼音转换的服务,主要有一下方法:

static public String[] toHanyuPinyinStringArray(char ch)

将char(必须为汉字单字)转化为拼音,实用的是通用的格式,如果ch为非汉字,返回null。

输入:重 输出:[zhong4, chong2] 说明重字有两个读音,拼音后面的1,2,3,4 代表的是读音


static public String[] toHanyuPinyinStringArray(char ch,HanyuPinyinOutputFormat outputFormat)

同上,但是这个方法可以设置输出的格式。HanyuPinyinOutputFormat   可以设置拼音大小写、是否后面加读音数字、特殊读音的显示方式,定义如下:

  1. /** 
  2.  * The option indicates that the output of 'ü' is "u:" 
  3.  */  
  4. public static final HanyuPinyinVCharType WITH_U_AND_COLON = new HanyuPinyinVCharType("WITH_U_AND_COLON");  
  5. /** 
  6.  * The option indicates that the output of 'ü' is "v" 
  7.  */  
  8. public static final HanyuPinyinVCharType WITH_V = new HanyuPinyinVCharType("WITH_V")  
  9. /** 
  10.  * The option indicates that the output of 'ü' is "ü" in Unicode form 
  11.  */  
  12. public static final HanyuPinyinVCharType WITH_U_UNICODE = new HanyuPinyinVCharType("WITH_U_UNICODE");  


static public String[] toTongyongPinyinStringArray(char ch)

转换为通用拼音。通用拼音的介绍见:http://zh.wikipedia.org/zh-cn/%E9%80%9A%E7%94%A8%E6%8B%BC%E9%9F%B3


static public String[] toWadeGilesPinyinStringArray(char ch)

转换为威妥玛拼音:http://zh.wikipedia.org/wiki/%E5%A8%81%E5%A6%A5%E7%91%AA%E6%8B%BC%E9%9F%B3


static public String[] toMPS2PinyinStringArray(char ch)

转换为注音符号拼音:http://zh.wikipedia.org/zh-cn/%E6%B3%A8%E9%9F%B3%E7%AC%A6%E8%99%9F


static public String[] toYalePinyinStringArray(char ch)

转换为耶魯拼音:http://zh.wikipedia.org/zh-cn/%E8%80%B6%E9%AD%AF%E6%8B%BC%E9%9F%B3


static public String[] toGwoyeuRomatzyhStringArray(char ch)

转换为国语罗马字:http://zh.wikipedia.org/wiki/%E5%9C%8B%E8%AA%9E%E7%BE%85%E9%A6%AC%E5%AD%97


对于”重“的拼音转换,以上方法分别得到的结果是:

  1. 汉语拼音:[zhong4, chong2]  
  2. 通用拼音:[jhong4, chong2]  
  3. 威妥玛拼音:[chung4, ch`ung2]  
  4. 注音符号拼音:[jung4, chung2]  
  5. 耶魯拼音:[jung4, chung2]  
  6. 国语罗马字:[jonq, chorng]  


好了,有了上面的基础,我们可以封装一个工具类,用来将汉字转换成拼音,这里只使用了汉字拼音。

首先要将pinyin4j加入项目中,如果是maven项目,可以添加引用:

  1. <span style="white-space:pre">    </span><!-- 增加pinyin4j -->  
  2.         <dependency>  
  3.             <groupId>com.belerweb</groupId>  
  4.             <artifactId>pinyin4j</artifactId>  
  5.             <version>2.5.0</version>  
  6.         </dependency>  

非maven的可以直接将下载好的jar包放入classpath。

然后编写工具类 PinyinTool.java:

  1. package org.nerve.d3lesson.common.tools;  
  2.   
  3. import net.sourceforge.pinyin4j.PinyinHelper;  
  4. import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;  
  5. import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;  
  6. import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;  
  7. import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;  
  8.   
  9. import java.util.Arrays;  
  10.   
  11. /** 
  12.  * 
  13.  * Created by zengxm on 2014/12/4. 
  14.  */  
  15. public class PinyinTool {  
  16.     HanyuPinyinOutputFormat format = null;  
  17.     public static enum Type {  
  18.         UPPERCASE,              //全部大写  
  19.         LOWERCASE,              //全部小写  
  20.         FIRSTUPPER              //首字母大写  
  21.     }  
  22.   
  23.     public PinyinTool(){  
  24.         format = new HanyuPinyinOutputFormat();  
  25.         format.setCaseType(HanyuPinyinCaseType.UPPERCASE);  
  26.         format.setToneType(HanyuPinyinToneType.WITHOUT_TONE);  
  27.     }  
  28.   
  29.     public String toPinYin(String str) throws BadHanyuPinyinOutputFormatCombination{  
  30.         return toPinYin(str, "", Type.UPPERCASE);  
  31.     }  
  32.   
  33.     public String toPinYin(String str,String spera) throws BadHanyuPinyinOutputFormatCombination{  
  34.         return toPinYin(str, spera, Type.UPPERCASE);  
  35.     }  
  36.   
  37.     /** 
  38.      * 将str转换成拼音,如果不是汉字或者没有对应的拼音,则不作转换 
  39.      * 如: 明天 转换成 MINGTIAN 
  40.      * @param str 
  41.      * @param spera 
  42.      * @return 
  43.      * @throws BadHanyuPinyinOutputFormatCombination 
  44.      */  
  45.     public String toPinYin(String str, String spera, Type type) throws BadHanyuPinyinOutputFormatCombination {  
  46.         if(str == null || str.trim().length()==0)  
  47.             return "";  
  48.         if(type == Type.UPPERCASE)  
  49.             format.setCaseType(HanyuPinyinCaseType.UPPERCASE);  
  50.         else  
  51.             format.setCaseType(HanyuPinyinCaseType.LOWERCASE);  
  52.   
  53.         String py = "";  
  54.         String temp = "";  
  55.         String[] t;  
  56.         for(int i=0;i<str.length();i++){  
  57.             char c = str.charAt(i);  
  58.             if((int)c <= 128)  
  59.                 py += c;  
  60.             else{  
  61.                 t = PinyinHelper.toHanyuPinyinStringArray(c, format);  
  62.                 if(t == null)  
  63.                     py += c;  
  64.                 else{  
  65.                     temp = t[0];  
  66.                     if(type == Type.FIRSTUPPER)  
  67.                         temp = t[0].toUpperCase().charAt(0)+temp.substring(1);  
  68.                     py += temp+(i==str.length()-1?"":spera);  
  69.                 }  
  70.             }  
  71.         }  
  72.         return py.trim();  
  73.     }  
  74. }  


写个测试用例看看结果:

 

 

 

 

微信公众号:

 

posted @   ldp.im  阅读(925)  评论(0编辑  收藏  举报
编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
点击右上角即可分享
微信分享提示