接下来会做一个跟自然语言处理(Natural Language Processing, nlp)相关的工程,因为我之前几乎没有接触过这方面的知识,而且自己的语文也实在烂得可以...(所以这次怎么也得用统计的方法来做了= =)就趁十一在家有空补点课。
作为一个超级门外汉,选几本合适的入门教材开始啃乃当务之急。一般而言,对于此类前沿技术的学习最好从理论和实践两个方面入手,一方面要了解理论知识,学习别人对于问题的解决思路和方法;另一方面,要找一些实际能够动手操作的实验资料,通过实验了解理论中存在的问题以及改进的方向。在自然语言处理方向尤为如此。英文和中文之间存在巨大差异,就我个人感觉而言,英文虽然算不上特别严谨的语言,但其语法结构相对中文要清晰很多,加上中文一词多义、一字多义的现象普遍存在,完全照搬英文语言理解的理论来处理中文是不合适的。所以,在学习他人的知识的同时必须要自己动手试试,从而才能认识到中英文之间的区别,才能知道哪些前人的知识可以沿用,哪些需要修改。
理论方面
因为打算使用统计方法,听大牛推荐,去图书馆找了一本《统计自然语言处理基础》(Foundations of Statistical Natural Language Processing, C. D. Manning & H. Schütze),这本书的结构很清晰,从基础的哲学观点、数学基础、语言学基础出发,介绍了关于词法、语法方面的重要方法,最后还介绍了如机器翻译、信息检索等应用技术的理论基础。不得不提的是,此书的中文版翻译得极烂...体现了我国教授逼迫其学生翻译国外著作的应有水平...不过,书虽然翻得烂,这本书在图表、公式上还是做得不错,看上去是类似Latex排版出来的,比起某些翻译书籍里用的MathType写的丑陋无比的公式或者是直接从扫描搞上截取的比例错乱、七歪八斜的图示,这本书的翻译也算是花了些功夫,还不至于让人倒胃口。
实践方面
图书馆里没有类似的书,只好自己去找电子版的,这几天大致搜索了一下,找到了Natural Language Processing with Python这本书,写得很不错,由浅入深,而且在学习过程中还提供了许多实际的例子和语料库可供操作,每章后面还有一系列习题可以练习,并且你不用担心不懂Python,这本书是面向不熟悉Python的童鞋们写的(我就是= =)。最赞的是,这本书配套有一个内容丰富的资源网站:www.nltk.org。上面有各种相关文档,包括一个用Python写的开源的自然语言处理工具库(NLTK)和一系列教学资源。但是很遗憾...这个网站在大墙之外...(WTF!我想到了一张图= =...)
(言归正传...)上面有很多自然语言方面的资料,非常值得参考。事实上,和网站上的大部分资源一样,Natural Language Processing with Python这本书是基于Creative Commons协议的,也就是说我们可以免费看这本书,但是由于大墙不让它进来,每次都要翻墙去看实在麻烦,所以么,有需要的朋友也不要麻烦了,直接去这里下载PDF版吧。
其实,选择统计方法只是因为我想随大流(不想做博士阿= =b)。我本人并不认为自然语言是一种统计模型,一个简单的例子,为什么世界上大部分国家的语言中,“爸爸”和“妈妈”两个词的发音都是类似的?这显然暗示了,在人脑中应该存在一种语言的遗传模型。所以,纯粹用统计的方法来理解自然语言一定是存在问题的。但从目前人类掌握的技术而言,似乎统计方法是少数能够比较好得逼近我们人脑中存在的那个语言模型的方法之一。小平筒子说过,白猫黑猫抓到老鼠的就是好猫,从这种务实的角度看,选择统计应该是近期比较好的一个方法了吧。

23:32, 2009-10-03Justice /
啊~我数学太烂了,各种没有基础啊~你要多给我们上上基础课~
23:41, 2009-10-03Chris /
@Justice
悲剧男...你现在在上什么数学课?
01:30, 2009-10-04Ximing /
第一本 的确非常好,不过我只看了一章,sigh
03:50, 2009-10-04Binbin /
你的blog我已经全然看不懂了⋯⋯
06:01, 2009-10-04Computer_X /
现在frequentist基本已经没落了,而bayesian才算是当今的统计主流。因此你最后一段的推理有欠妥当。若是有先天的语言遗传模型,这正是bayesian所乐意见到的。
基本上beyesian貌似干什么都可以,有点后悔本科没有辅修统计...
14:59, 2009-10-04Chris /
@Computer_X
恩,有道理。现在Beyesian有什么好的学习方法吗?记得以前Beyesian的最大困难是没有好的学习方法,要把先验积分掉...下次去查查PRML...之前看了一点点半途而废了= =b
22:37, 2009-10-04Justice /
@Binbin
好吧...这不是我一个人的blog...我同学写的...
我写的都是打酱油的 =.=
13:25, 2009-10-05Binbin /
好吧,那我以后就不看主菜,只看酱油了...
09:13, 2009-10-11shen /
偶觉得统计这件事情其实还是相当的玄乎的。自然语言是比较可怕的一个任务,尤其是中文的.....不过我对这个方面也有很大的兴趣,所以先接下你的两本书,哈哈~~~
21:38, 2011-09-03nupta /
楼主,后来看完了没呢