<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Lync.in &#187; Natural Language Processing</title>
	<atom:link href="http://lync.in/category/computer-science/natural-language-processing/feed/" rel="self" type="application/rss+xml" />
	<link>http://lync.in</link>
	<description>Link the world.</description>
	<lastBuildDate>Thu, 10 May 2012 03:42:21 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.2</generator>
		<item>
		<title>统计自然语言理解的两本书</title>
		<link>http://lync.in/nlp-books-recommendation/</link>
		<comments>http://lync.in/nlp-books-recommendation/#comments</comments>
		<pubDate>Sat, 03 Oct 2009 14:47:57 +0000</pubDate>
		<dc:creator>Chris</dc:creator>
				<category><![CDATA[Natural Language Processing]]></category>
		<category><![CDATA[books]]></category>
		<category><![CDATA[NLP]]></category>
		<category><![CDATA[python]]></category>

		<guid isPermaLink="false">http://lync.in/?p=322</guid>
		<description><![CDATA[本文作者：Chris接下来会做一个跟自然语言处理（Natural Language Processing, nlp）相关的工程，因为我之前几乎没有接触过这方面的知识，而且自己的语文也实在烂得可以...（所以这次怎么也得用统计的方法来做了= =）就趁十一在家有空补点课。 作为一个超级门外汉，选几本合适的入门教材开始啃乃当务之急。一般而言，对于此类前沿技术的学习最好从理论和实践两个方面入手，一方面要了解理论知识，学习别人对于问题的解决思路和方法；另一方面，要找一些实际能够动手操作的实验资料，通过实验了解理论中存在的问题以及改进的方向。在自然语言处理方向尤为如此。英文和中文之间存在巨大差异，就我个人感觉而言，英文虽然算不上特别严谨的语言，但其语法结构相对中文要清晰很多，加上中文一词多义、一字多义的现象普遍存在，完全照搬英文语言理解的理论来处理中文是不合适的。所以，在学习他人的知识的同时必须要自己动手试试，从而才能认识到中英文之间的区别，才能知道哪些前人的知识可以沿用，哪些需要修改。 理论方面 因为打算使用统计方法，听大牛推荐，去图书馆找了一本《统计自然语言处理基础》（Foundations of Statistical Natural Language Processing, C. D. Manning &#38; H. Schütze），这本书的结构很清晰，从基础的哲学观点、数学基础、语言学基础出发，介绍了关于词法、语法方面的重要方法，最后还介绍了如机器翻译、信息检索等应用技术的理论基础。不得不提的是，此书的中文版翻译得极烂...体现了我国教授逼迫其学生翻译国外著作的应有水平...不过，书虽然翻得烂，这本书在图表、公式上还是做得不错，看上去是类似Latex排版出来的，比起某些翻译书籍里用的MathType写的丑陋无比的公式或者是直接从扫描搞上截取的比例错乱、七歪八斜的图示，这本书的翻译也算是花了些功夫，还不至于让人倒胃口。 实践方面 图书馆里没有类似的书，只好自己去找电子版的，这几天大致搜索了一下，找到了Natural Language Processing with Python这本书，写得很不错，由浅入深，而且在学习过程中还提供了许多实际的例子和语料库可供操作，每章后面还有一系列习题可以练习，并且你不用担心不懂Python，这本书是面向不熟悉Python的童鞋们写的（我就是= =）。最赞的是，这本书配套有一个内容丰富的资源网站：www.nltk.org。上面有各种相关文档，包括一个用Python写的开源的自然语言处理工具库（NLTK）和一系列教学资源。但是很遗憾...这个网站在大墙之外...（WTF！我想到了一张图= =...） （言归正传...）上面有很多自然语言方面的资料，非常值得参考。事实上，和网站上的大部分资源一样，Natural Language Processing with Python这本书是基于Creative Commons协议的，也就是说我们可以免费看这本书，但是由于大墙不让它进来，每次都要翻墙去看实在麻烦，所以么，有需要的朋友也不要麻烦了，直接去这里下载PDF版吧。 其实，选择统计方法只是因为我想随大流（不想做博士阿= =b）。我本人并不认为自然语言是一种统计模型，一个简单的例子，为什么世界上大部分国家的语言中，“爸爸”和“妈妈”两个词的发音都是类似的？这显然暗示了，在人脑中应该存在一种语言的遗传模型。所以，纯粹用统计的方法来理解自然语言一定是存在问题的。但从目前人类掌握的技术而言，似乎统计方法是少数能够比较好得逼近我们人脑中存在的那个语言模型的方法之一。小平筒子说过，白猫黑猫抓到老鼠的就是好猫，从这种务实的角度看，选择统计应该是近期比较好的一个方法了吧。 Lync.in 是一个多人协作博客，欢迎您 查看原文 以获得更好的阅读体验。]]></description>
			<content:encoded><![CDATA[<div class="feed-before" style="margin:15px 0; clear:both;">本文作者：<a href="http://lync.in/author/2/" title="Posts by Chris">Chris</a></div><p>接下来会做一个跟自然语言处理（Natural Language Processing, nlp）相关的工程，因为我之前几乎没有接触过这方面的知识，而且自己的语文也实在烂得可以...（所以这次怎么也得用统计的方法来做了= =）就趁十一在家有空补点课。</p>
<p>作为一个超级门外汉，选几本合适的入门教材开始啃乃当务之急。一般而言，对于此类前沿技术的学习最好从理论和实践两个方面入手，一方面要了解理论知识，学习别人对于问题的解决思路和方法；另一方面，要找一些实际能够动手操作的实验资料，通过实验了解理论中存在的问题以及改进的方向。在自然语言处理方向尤为如此。英文和中文之间存在巨大差异，就我个人感觉而言，英文虽然算不上特别严谨的语言，但其语法结构相对中文要清晰很多，加上中文一词多义、一字多义的现象普遍存在，完全照搬英文语言理解的理论来处理中文是不合适的。所以，在学习他人的知识的同时必须要自己动手试试，从而才能认识到中英文之间的区别，才能知道哪些前人的知识可以沿用，哪些需要修改。</p>
<p><span id="more-322"></span></p>
<h5>理论方面</h5>
<p>因为打算使用统计方法，听大牛推荐，去图书馆找了一本《统计自然语言处理基础》（<em><a href="http://www.amazon.com/Foundations-Statistical-Natural-Language-Processing/dp/0262133601" target="_blank">Foundations of Statistical Natural Language Processing</a></em>, C. D. Manning &amp; H. Schütze），这本书的结构很清晰，从基础的哲学观点、数学基础、语言学基础出发，介绍了关于词法、语法方面的重要方法，最后还介绍了如机器翻译、信息检索等应用技术的理论基础。不得不提的是，此书的中文版翻译得极烂...体现了我国教授逼迫其学生翻译国外著作的应有水平...不过，书虽然翻得烂，这本书在图表、公式上还是做得不错，看上去是类似Latex排版出来的，比起某些翻译书籍里用的MathType写的丑陋无比的公式或者是直接从扫描搞上截取的比例错乱、七歪八斜的图示，这本书的翻译也算是花了些功夫，还不至于让人倒胃口。</p>
<h5><strong>实践方面</strong></h5>
<p><strong></strong>图书馆里没有类似的书，只好自己去找电子版的，这几天大致搜索了一下，找到了<em><a href="http://www.amazon.com/Natural-Language-Processing-Python-Steven/dp/0596516495" target="_blank">Natural Language Processing with Python</a></em>这本书，写得很不错，由浅入深，而且在学习过程中还提供了许多实际的例子和语料库可供操作，每章后面还有一系列习题可以练习，并且你不用担心不懂Python，这本书是面向不熟悉Python的童鞋们写的（我就是= =）。最赞的是，这本书配套有一个内容丰富的资源网站：<a href="http://www.nltk.org">www.nltk.org</a>。上面有各种相关文档，包括一个用Python写的开源的自然语言处理工具库（NLTK）和一系列教学资源。但是很遗憾...这个网站在大墙之外...（WTF！我想到了一张图= =...）</p>
<div id="attachment_323" class="wp-caption aligncenter" style="width: 460px"><a href="http://lync.in/wp-content/uploads/2009/10/17979_12542059510HV8.jpg" class="highslide-image" onclick="return hs.expand(this);"><img class="size-medium wp-image-323 " title="大爷建的墙...大妈也耐不住寂寞阿..." src="http://lync.in/wp-content/uploads/2009/10/17979_12542059510HV8-450x337.jpg" alt="大爷建的墙...大妈也耐不住寂寞阿..." width="450" height="337" /></a><p class="wp-caption-text">大爷建的墙...大妈也耐不住寂寞阿...</p></div>
<p>（言归正传...）上面有很多自然语言方面的资料，非常值得参考。事实上，和网站上的大部分资源一样，Natural Language Processing with Python这本书是基于<a href="http://en.wikipedia.org/wiki/Creative_Commons" target="_blank">Creative Commons</a>协议的，也就是说我们可以免费看这本书，但是由于大墙不让它进来，每次都要翻墙去看实在麻烦，所以么，有需要的朋友也不要麻烦了，直接去<a href="http://sites.google.com/site/syncris/e/0596516495.pdf?attredirects=0" target="_blank">这里</a>下载PDF版吧。</p>
<p>其实，选择统计方法只是因为我想随大流（不想做博士阿= =b）。我本人并不认为自然语言是一种统计模型，一个简单的例子，为什么世界上大部分国家的语言中，“爸爸”和“妈妈”两个词的发音都是类似的？这显然暗示了，在人脑中应该存在一种语言的遗传模型。所以，纯粹用统计的方法来理解自然语言一定是存在问题的。但从目前人类掌握的技术而言，似乎统计方法是少数能够比较好得逼近我们人脑中存在的那个语言模型的方法之一。小平筒子说过，白猫黑猫抓到老鼠的就是好猫，从这种务实的角度看，选择统计应该是近期比较好的一个方法了吧。</p>
<div class="feed-after" style="margin:15px 0; clear:both;"><a href="http://lync.in">Lync.in</a> 是一个多人协作博客，欢迎您 <a href="http://lync.in/nlp-books-recommendation/">查看原文</a> 以获得更好的阅读体验。</div>]]></content:encoded>
			<wfw:commentRss>http://lync.in/nlp-books-recommendation/feed/</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
	</channel>
</rss>

