博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
C#汉字转拼音,自动识别多音字,带声调,提供正向、逆向、双向分词算法的小程序...
阅读量:5962 次
发布时间:2019-06-19

本文共 716 字,大约阅读时间需要 2 分钟。

hot3.png

用C#写了个汉字转拼音的小工具,和网上大部分工具不同,这个能通过分词算法,自动识别多音字,并且提供声调,可开可关。

比如,用"银行 行不行 行家说了算"举例,如果转拼音却不能识别多音字,就惨了。

而这个小工具的效果如图:

实现了3种分词算法:

* 正向最大匹配
* 反向最大匹配
* 双向最大匹配
(其中,双向匹配的歧义处理办法,是本人小小创新的"双贪吃蛇法"。
算法详情参见:)

软件下载:

 http://pan.baidu.com/s/1mTg3T 

-----------------源代码(含生成好的程序)--------------------

百度网盘:

http://pan.baidu.com/s/1ED1Ls 
腾讯微云:
http://url.cn/PnnMOU

源代码使用注意:

* bin/release目录下,已经包含了生成的软件。

* 因为词库的中文单字非常不全,所以引用了微软的ChnCharInfo.dll,来获得一些单字拼音。这个库是要下载Visual Studio International Pack安装才会有,不想安装的话,可以直接从bin/release里面找到,重新引用一下就行了。

* 词库来源:把 搜狗拼音词库备份bin文件,通过"深蓝词库转换工具",转成"微软拼音输入法"格式的xml,然后用ultraedit查找/替换,去掉了废节点得到的。

* 该功能,如果想正经用于自己的项目,建议整理下词库。词库中有大量错别字词条 和 无用词条,是本人长期用搜狗打字的遗留产物,懒得清理。。。

转载于:https://my.oschina.net/butaixianran/blog/163990

你可能感兴趣的文章
使用flex访问java方法:tomcat+xfire
查看>>
Linux计划任务
查看>>
大众点评信息流基于文本生成的创意优化实践
查看>>
Micropython+STM32制作加速度传感器无线小车
查看>>
深拷贝的传统写法
查看>>
计算机硬件及操作系统基础学习笔记
查看>>
Spring event 使用完全指南
查看>>
Android Studio3 "Error:Unable to tunnel through proxy. Proxy returns "HTTP/1.1 400 Bad Request""
查看>>
kubernetes redis pod CrashLoopBackOff修复心得
查看>>
Vlan的端口属性
查看>>
Beyond Compare 激活解决办法
查看>>
linux 低级文件编程(内核级别)
查看>>
【每天记一点】jquery设置radio选中遇到的问题
查看>>
main调用静态函数时候注意问题
查看>>
useradd
查看>>
PHP常量详解:define和const的区别
查看>>
centos下virtualbox里面xp 安装VBoxGuestAdditions
查看>>
vmware 新建的虚拟机安装vmtools 提升性能
查看>>
dstat简介
查看>>
libgdx游戏引擎开发笔记(四)文字显示BitmapFont
查看>>