首页 > 学习心情 > 算是一点小成果~~

算是一点小成果~~

2008年4月28日
最近在和老肖一起研究自然语言处理。现在主要弄语种判断。简单的说就是一个混合语言的文本,里面可能有中文,英文,日文,德文等等各种语言,现在要把它们分别判断出来。

现在为之,实验了两种方法,一种是查字典的方法,收集各种文字的文章各一些。然后先判断一个词可能的语种(根据在Unicode中的block)然后在这些语种的语料中于去找。找到就给1分,最后看谁分高就是那种语言。

第二中是根据n-gram模型来做。就是对语料进行一下处理,算下概率之类的 。。。然后判断。

。。。呃。。。不写方法了,写了又有人说满世界的技术帖了。。。

这两种方法都是别人做过的,现在是要分析他们的性能,然后提出新的方法,或者综合利用。并且提出可能的应用。

弄这点东西,说来也不是能难的东西,不过还是由于做这种综合性的东西做的不多,写起来那个叫费劲啊。。。这几天因为要考试,又要复习,又要写这个东西。。感觉就是累。。特别是弄一半,断电了,晚上觉都睡不好,满脑子都是怎么解决。。周三又要考一门了,现在复习的还是半桶水。。明天一定要好好看书了。。。唉,一心两用很难啊。五一又压了一堆实验报告。。这个五一本来就短,这么一弄没法过了。。。

要弄点东西还真是不容易。。最近有同学说想参和进来,不过还要考虑一些,看自己的编程能力能不能胜任。其实我觉得这个东西,练就好,不练什么都不会。倒真希望多几个合作伙伴,要不就2个人,不能说应付不了吧,但确实觉得要做的事情很多。。。

说了这么多,展示下小成果,下面是一个测试文本的识别结果。没作界面,随便弹了个框出来,能看就行。。。

分类: 学习心情 标签:
本文的评论功能被关闭了.