关于语言识别的又一张图
由于各种事情,特别是通原实验的纠缠,进展很缓慢。而且我个人对研究的目标也不是很明确,这个比较郁闷。。。
昨天把一些方法,还有调整不同的参数,统一做了一下测试,下面贴个测试结果,就是各种方法,在不同句长下的识别率。
点击图片看大图。
做测试的时候,我深刻体会到高性能计算机的必要性,也体会到编程风格过于豪放带来的后果,cpu狂飚,内存。。。我就不说了。总之所有语言测试一次下来就得有半个多小时吧。。。计划啥时候去抢台酷睿2的电脑来试试,看看能快点不。。。
由于各种事情,特别是通原实验的纠缠,进展很缓慢。而且我个人对研究的目标也不是很明确,这个比较郁闷。。。
昨天把一些方法,还有调整不同的参数,统一做了一下测试,下面贴个测试结果,就是各种方法,在不同句长下的识别率。
点击图片看大图。
做测试的时候,我深刻体会到高性能计算机的必要性,也体会到编程风格过于豪放带来的后果,cpu狂飚,内存。。。我就不说了。总之所有语言测试一次下来就得有半个多小时吧。。。计划啥时候去抢台酷睿2的电脑来试试,看看能快点不。。。
每次通原实验都要搞n长时间。matlab本来就不好用,老师给的什么参考程序又一点章法没有,看起来各种难懂。说真的那个程序真像新手编的,缩进,对齐乱七八糟的,变量名一点规则没有。。。崩溃啊。。。
今天的程序又复杂在,昨天调试的半天,总算吧主要部分调通了,今天又在告那些画波形之类的。由于要算统计特性,所以要重复10000次,我的天啊。。我这双核的电脑,按了运行等1分钟出结果,这效率。。。再次崩溃。。。
然后就是恶心的实验报告,写起来还没完没了了。。。十几页了还没完。。从来没这么讨厌过实验。。真实实验中的极品啊。。。
明天还要继续,这个五一就贡献给通原实验了。。。
话说昨天还编译了一边linux内核,为自己的电脑做了优化和精简,速度确实快了一些,至少我这么觉得。。。这也是个崩溃的过程,编译一次俩小时,我晕,怎么会这么久。。。网上一般说也就半个多小时差不多了,不过好像那个不包括模块编译的。。。
现在为之,实验了两种方法,一种是查字典的方法,收集各种文字的文章各一些。然后先判断一个词可能的语种(根据在Unicode中的block)然后在这些语种的语料中于去找。找到就给1分,最后看谁分高就是那种语言。
第二中是根据n-gram模型来做。就是对语料进行一下处理,算下概率之类的 。。。然后判断。
。。。呃。。。不写方法了,写了又有人说满世界的技术帖了。。。
这两种方法都是别人做过的,现在是要分析他们的性能,然后提出新的方法,或者综合利用。并且提出可能的应用。
弄这点东西,说来也不是能难的东西,不过还是由于做这种综合性的东西做的不多,写起来那个叫费劲啊。。。这几天因为要考试,又要复习,又要写这个东西。。感觉就是累。。特别是弄一半,断电了,晚上觉都睡不好,满脑子都是怎么解决。。周三又要考一门了,现在复习的还是半桶水。。明天一定要好好看书了。。。唉,一心两用很难啊。五一又压了一堆实验报告。。这个五一本来就短,这么一弄没法过了。。。
要弄点东西还真是不容易。。最近有同学说想参和进来,不过还要考虑一些,看自己的编程能力能不能胜任。其实我觉得这个东西,练就好,不练什么都不会。倒真希望多几个合作伙伴,要不就2个人,不能说应付不了吧,但确实觉得要做的事情很多。。。
说了这么多,展示下小成果,下面是一个测试文本的识别结果。没作界面,随便弹了个框出来,能看就行。。。
刚开始还顺利,可是中间自己装软件装错一个包,这下惨了,飞了九牛二虎之力才给搞定了。。。还有显卡驱动突然间又不知道怎么挂了,重装驱动,修改配置文件,都不起作用。。郁闷死了。最后拿出杀手锏,到nv的网站上下一个官方闭源驱动自己编译。总算搞定了。本来到三装个realtime内核,加快于运行速度,结果发现这个版本的rt内核速度不见的怎么,显卡驱动还出问题,X起不来。。。崩溃。。。删掉用原来的内核。
然后就是各种配置,中文支持,字体什么的,弄了整整一天。
上图:
有了Fire Universal uploader这个也不成什么问题,只不过要多个步骤罢了,也比直接在网页上写方便。
截个图看看:

最新评论