<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" media="screen" href="/~d/styles/rss2full.xsl"?><?xml-stylesheet type="text/css" media="screen" href="http://feeds.feedburner.com/~d/styles/itemcontent.css"?><rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/" xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0" version="2.0">

<channel>
	<title>我爱自然语言处理</title>
	
	<link>http://www.52nlp.cn</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Wed, 01 Feb 2012 01:50:03 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="self" type="application/rss+xml" href="http://feeds.feedburner.com/52nlp" /><feedburner:info uri="52nlp" /><atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="hub" href="http://pubsubhubbub.appspot.com/" /><feedburner:emailServiceId>52nlp</feedburner:emailServiceId><feedburner:feedburnerHostname>http://feedburner.google.com</feedburner:feedburnerHostname><item>
		<title>NLP资源共享盛宴</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/Arm-xt3bK_E/nlp%e8%b5%84%e6%ba%90%e5%85%b1%e4%ba%ab%e7%9b%9b%e5%ae%b4</link>
		<comments>http://www.52nlp.cn/nlp%e8%b5%84%e6%ba%90%e5%85%b1%e4%ba%ab%e7%9b%9b%e5%ae%b4#comments</comments>
		<pubDate>Thu, 12 Jan 2012 11:39:50 +0000</pubDate>
		<dc:creator>finallyliuyu</dc:creator>
				<category><![CDATA[语料库]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4226</guid>
		<description><![CDATA[“科技创新，方法先行”。为响应科技部“十二五”关于加强科技资源共享的号召，中科院自动化所“自动化学科创新思想与科学方法研究（课题编号：2009IM020300）”课题 与国内专业的科研数据共享平台-数据堂 网站展开全面合作，将自动化学科数字化知服务网络平台的部分后台数据，以及项目中的一些其他数据资源，免费提供给自然语言处理等相关领域同仁从事科研使用。数据专区地址是：http://www.datatang.com/member/5878。如您论文或项目使用该专区数据，请注明数据来自“自动化学科创新思想与科学方法研究”课题，编号2009IM020300，以及数据堂数据地址http://www.datatang.com/member/5878。 该专区主要包括以下几部分资源： 1.面向计算机学科内学术共同体相关研究的中文DBLP资源 2.面向人物同名消歧研究的的中文DBLP资源 3.万篇随机抽取论文中文DBLP资源 4.以自然语言处理领域中文期刊论文为主导的中文DBLP资源 5.面向文本分类研究的中英文新闻分类语料 6.文本分类程序（含开源代码） 7.面向汉语姓名构词研究的10万中文人名语料库 8.以IG卡方等特征词选择方法生成的多维度ARFF格式英文VSM模型 9.以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型 欢迎自动化学科数字化知识服务网络平台：http://autoinnovation.ia.ac.cn 欢迎大家继续关注自动化学科创新方法课题，我们的联系方式 http://weibo.com/autoinnovation， 欢迎大家关注数据堂： http://weibo.com/datatang 祝大家新春快乐，龙年如意！ 相关文章: 欢迎大家试用信息学科数字化知识服务网络平台 52NLP微博-当真李逵遇到假李逵 EuroMatrix与开放精神
相关文章:<ol>
<li><a href='http://www.52nlp.cn/autoinnovation' rel='bookmark' title='欢迎大家试用信息学科数字化知识服务网络平台'>欢迎大家试用信息学科数字化知识服务网络平台</a></li>
<li><a href='http://www.52nlp.cn/52nlp%e5%be%ae%e5%8d%9a-%e5%bd%93%e7%9c%9f%e6%9d%8e%e9%80%b5%e9%81%87%e5%88%b0%e5%81%87%e6%9d%8e%e9%80%b5' rel='bookmark' title='52NLP微博-当真李逵遇到假李逵'>52NLP微博-当真李逵遇到假李逵</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p align="left">“科技创新，方法先行”。为响应科技部“<a href="http://www.gov.cn/jrzg/2011-07/13/content_1905911.htm">十二五</a>”关于加强科技资源共享的号召，中科院自动化所“自动化学科创新思想与科学方法研究（课题编号：2009IM020300）”课题 与国内专业的科研数据共享平台-<a href="http://www.datatang.com/">数据堂</a> 网站展开全面合作，将<a href="http://autoinnovation.ia.ac.cn/">自动化学科数字化知服务网络平台</a>的部分后台数据，以及项目中的一些其他数据资源，免费提供给自然语言处理等相关领域同仁从事科研使用。数据专区地址是：<a href="http://www.datatang.com/member/5878">http://www.datatang.com/member/5878</a>。如您论文或项目使用该专区数据，请注明数据来自“自动化学科创新思想与科学方法研究”课题，编号2009IM020300，以及数据堂数据地址<a href="http://www.datatang.com/member/5878">http://www.datatang.com/member/5878</a>。</p>
<p align="left">该专区主要包括以下几部分资源：</p>
<p align="left">1.面向计算机学科内学术共同体相关研究的中文DBLP资源</p>
<p align="left">2.面向人物同名消歧研究的的中文DBLP资源</p>
<p align="left">3.万篇随机抽取论文中文DBLP资源</p>
<p align="left">4.以自然语言处理领域中文期刊论文为主导的中文DBLP资源</p>
<p align="left">5.面向文本分类研究的中英文新闻分类语料</p>
<p align="left">6.文本分类程序（含开源代码）</p>
<p align="left">7.面向汉语姓名构词研究的10万中文人名语料库</p>
<p align="left">8.以IG卡方等特征词选择方法生成的多维度ARFF格式英文VSM模型</p>
<p align="left">9.以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型</p>
<p align="left">
<p>欢迎自动化学科数字化知识服务网络平台：<a href="http://autoinnovation.ia.ac.cn/">http://autoinnovation.ia.ac.cn</a></p>
<p align="left">欢迎大家继续关注自动化学科创新方法课题，我们的联系方式</p>
<p align="left"><a href="http://weibo.com/autoinnovation">http://weibo.com/autoinnovation</a>，</p>
<p align="left">欢迎大家关注数据堂： <a href="http://weibo.com/datatang">http://weibo.com/datatang</a></p>
<p>祝大家新春快乐，龙年如意！</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/autoinnovation' rel='bookmark' title='欢迎大家试用信息学科数字化知识服务网络平台'>欢迎大家试用信息学科数字化知识服务网络平台</a></li>
<li><a href='http://www.52nlp.cn/52nlp%e5%be%ae%e5%8d%9a-%e5%bd%93%e7%9c%9f%e6%9d%8e%e9%80%b5%e9%81%87%e5%88%b0%e5%81%87%e6%9d%8e%e9%80%b5' rel='bookmark' title='52NLP微博-当真李逵遇到假李逵'>52NLP微博-当真李逵遇到假李逵</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/Arm-xt3bK_E" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/nlp%e8%b5%84%e6%ba%90%e5%85%b1%e4%ba%ab%e7%9b%9b%e5%ae%b4/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/nlp%e8%b5%84%e6%ba%90%e5%85%b1%e4%ba%ab%e7%9b%9b%e5%ae%b4</feedburner:origLink></item>
		<item>
		<title>后生可畏，专业新人对《迷思》争论表面和稀泥，其实门儿清</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/Hpd0K7m03tc/%e5%90%8e%e7%94%9f%e5%8f%af%e7%95%8f%ef%bc%8c%e4%b8%93%e4%b8%9a%e6%96%b0%e4%ba%ba%e5%af%b9%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e4%ba%89%e8%ae%ba%e8%a1%a8%e9%9d%a2%e5%92%8c%e7%a8%80%e6%b3%a5%ef%bc%8c</link>
		<comments>http://www.52nlp.cn/%e5%90%8e%e7%94%9f%e5%8f%af%e7%95%8f%ef%bc%8c%e4%b8%93%e4%b8%9a%e6%96%b0%e4%ba%ba%e5%af%b9%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e4%ba%89%e8%ae%ba%e8%a1%a8%e9%9d%a2%e5%92%8c%e7%a8%80%e6%b3%a5%ef%bc%8c#comments</comments>
		<pubDate>Thu, 05 Jan 2012 01:53:47 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4221</guid>
		<description><![CDATA[“专业新人” （early stage researcher）也别被我的夸赞冲昏头脑。门道门道，有门有道。门儿清，不等于道儿清。做到门儿情，只要聪颖和悟性即可，而道儿清要的却是耐性、经验、时间，屡战屡败、屡败屡战的磨练，而且还要有运气。是为冰冻之寒也。 On Thu, Dec 29, 2011 G wrote: &#62;&#62; As you titled yourself early stage researcher, I&#8217;d recommend you a recent dialog on something related - http://blog.sciencenet.cn/home.php?mod=space&#038;uid=362400&#038;do=blog&#038;id=523458. &#62;&#62; He has a point as an experienced practitioner. &#62;&#62; &#8230; <a href="http://www.52nlp.cn/%e5%90%8e%e7%94%9f%e5%8f%af%e7%95%8f%ef%bc%8c%e4%b8%93%e4%b8%9a%e6%96%b0%e4%ba%ba%e5%af%b9%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e4%ba%89%e8%ae%ba%e8%a1%a8%e9%9d%a2%e5%92%8c%e7%a8%80%e6%b3%a5%ef%bc%8c">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/acl-hlt-2011%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='ACL HLT 2011文章已可下载'>ACL HLT 2011文章已可下载</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/cfp-the-7th-young-researchers-roundtable-on-spoken-dialogue-systems' rel='bookmark' title='CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems'>CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e4%b9%9d%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第九次活动'>中文翻译技术沙龙第九次活动</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-seven-other-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之七：其他书籍'>自然语言处理与计算语言学书籍汇总之七：其他书籍</a></li>
<li><a href='http://www.52nlp.cn/acl-anthology-computational-linguistics-digital-archive' rel='bookmark' title='ACL Anthology——计算语言学的数字档案'>ACL Anthology——计算语言学的数字档案</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/acl-wiki-encyclopedia-of-computational-linguistics' rel='bookmark' title='ACL Wiki——计算语言学的百科全书'>ACL Wiki——计算语言学的百科全书</a></li>
<li><a href='http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e5%af%b9%e4%ba%8eibm%e8%b6%85%e7%ba%a7%e8%ae%a1%e7%ae%97%e6%9c%ba%e6%b2%83%e6%a3%aewatson%e6%84%8f%e5%91%b3%e7%9d%80%e4%bb%80' rel='bookmark' title='自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？'>自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>“专业新人” （early stage researcher）也别被我的夸赞冲昏头脑。门道门道，有门有道。门儿清，不等于道儿清。做到门儿情，只要聪颖和悟性即可，而道儿清要的却是耐性、经验、时间，屡战屡败、屡败屡战的磨练，而且还要有运气。是为冰冻之寒也。<br />
On Thu, Dec 29, 2011 G wrote:</p>
<p>&gt;&gt; As you titled yourself early stage researcher, I&#8217;d recommend you a recent dialog on something related -</p>
<p>http://blog.sciencenet.cn/home.php?mod=space&#038;uid=362400&#038;do=blog&#038;id=523458.</p>
<p>&gt;&gt; He has a point as an experienced practitioner. </p>
<p>&gt;&gt; I quote him here as overall he is negative to what you are going to work on ［注：指的是切词研究］. And agree with him that it&#8217;s time to shift focus to parsing.<br />
2011/12/29 G<br />
Continuation of the dialog, but with an “early stage researcher”. FYI as I actually recommended your blogs to him in place of my phd thesis <img src='http://www.52nlp.cn/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>On Dec 29, 2011, M wrote:<br />
Hi Dr. G,</p>
<p>I just read the Liwei&#8217;s posts and your comments. I partly agree with Liwei&#8217;s arguments. I think It&#8217;s just a different perspective to one of the core problem in NLP, disambiguation. </p>
<p>Usually, beginners take the pipeline architecture as granted, i.e. segmentation&#8211;&gt;POS tagging&#8211;&gt;chunking&#8211;&gt;parsing, etc. However, given the ultimate goal is to predict the overal syntactical structures of sentences, the early stages of disambiguation can be considered as pruning for the exponential number of possible parsing trees. In this sense, Liwei&#8217;s correct. As ambiguity is the enemy, it&#8217;s the system designer&#8217;s choice to decide what architecture to use and/or when to resolve it.</p>
<p>I guess recently many other people in NLP also realized (and might even widely agreed on) the disadvantages of pipeline architectures, which explains why there are many “joint learning of X and Y” papers in past 5 years. In Chinese word segmentation, there are also attempts at doing word segmentation and parsing in one go, which seems to be promising to me.</p>
<p>On the other hand, I think your comments are quite to the point. Current applications mostly utilize very shallow NLP information. So accurate tokenization/POS tagger/chunker have their own values. </p>
<p>As for the interaction between linguistics theory and computational linguistics. I think it&#8217;s quite similar to the relationship between other pairs of science and engineering. Basically, science decides the upper bound of engineering. But given the level of scientific achievements, engineering by itself has a huge space of possibilities. Moreover, in this specific case of our interest, CL itself may serve as a tool to advance linguistics theory, as the corpus based study of linguistics seems to be an inevitable trend.</p>
<p>From: Wei Li<br />
Date: Fri, Dec 30, 2011 </p>
<p>He is indeed a very promising young researcher who is willing to think and air his own opinions.</p>
<p>I did not realize that the effect of my series is that I am against the pipeline architecture.  In fact I am all for it as this is the proven solid architecture for engineering modular development.  Of course, by just reading my recent three posts, it is not surprising that he got that impression.  There is something deeper than that: a balance between pipeline structure and keeping ambiguity untouched principle.  But making the relationship clear is not very easy, but there is a way of doing that based on experiences of “adaptive development” (another important principle).</p>
<p>【相关博文】<br />
专业老友痛批立委《迷思》系列搅乱NLP秩序，立委固执己见</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/acl-hlt-2011%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='ACL HLT 2011文章已可下载'>ACL HLT 2011文章已可下载</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/cfp-the-7th-young-researchers-roundtable-on-spoken-dialogue-systems' rel='bookmark' title='CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems'>CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e4%b9%9d%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第九次活动'>中文翻译技术沙龙第九次活动</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-seven-other-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之七：其他书籍'>自然语言处理与计算语言学书籍汇总之七：其他书籍</a></li>
<li><a href='http://www.52nlp.cn/acl-anthology-computational-linguistics-digital-archive' rel='bookmark' title='ACL Anthology——计算语言学的数字档案'>ACL Anthology——计算语言学的数字档案</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/acl-wiki-encyclopedia-of-computational-linguistics' rel='bookmark' title='ACL Wiki——计算语言学的百科全书'>ACL Wiki——计算语言学的百科全书</a></li>
<li><a href='http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e5%af%b9%e4%ba%8eibm%e8%b6%85%e7%ba%a7%e8%ae%a1%e7%ae%97%e6%9c%ba%e6%b2%83%e6%a3%aewatson%e6%84%8f%e5%91%b3%e7%9d%80%e4%bb%80' rel='bookmark' title='自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？'>自然语言处理对于IBM超级计算机沃森（Watson）意味着什么？</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/Hpd0K7m03tc" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e5%90%8e%e7%94%9f%e5%8f%af%e7%95%8f%ef%bc%8c%e4%b8%93%e4%b8%9a%e6%96%b0%e4%ba%ba%e5%af%b9%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e4%ba%89%e8%ae%ba%e8%a1%a8%e9%9d%a2%e5%92%8c%e7%a8%80%e6%b3%a5%ef%bc%8c/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e5%90%8e%e7%94%9f%e5%8f%af%e7%95%8f%ef%bc%8c%e4%b8%93%e4%b8%9a%e6%96%b0%e4%ba%ba%e5%af%b9%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e4%ba%89%e8%ae%ba%e8%a1%a8%e9%9d%a2%e5%92%8c%e7%a8%80%e6%b3%a5%ef%bc%8c</feedburner:origLink></item>
		<item>
		<title>NLP 历史上最大的媒体误导：成语难倒了电脑</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/Up-AiS48t4M/nlp-%e5%8e%86%e5%8f%b2%e4%b8%8a%e6%9c%80%e5%a4%a7%e7%9a%84%e5%aa%92%e4%bd%93%e8%af%af%e5%af%bc%ef%bc%9a%e6%88%90%e8%af%ad%e9%9a%be%e5%80%92%e4%ba%86%e7%94%b5%e8%84%91</link>
		<comments>http://www.52nlp.cn/nlp-%e5%8e%86%e5%8f%b2%e4%b8%8a%e6%9c%80%e5%a4%a7%e7%9a%84%e5%aa%92%e4%bd%93%e8%af%af%e5%af%bc%ef%bc%9a%e6%88%90%e8%af%ad%e9%9a%be%e5%80%92%e4%ba%86%e7%94%b5%e8%84%91#comments</comments>
		<pubDate>Thu, 05 Jan 2012 01:46:07 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4215</guid>
		<description><![CDATA[NLP 最早的实践是机器翻译，在电脑的神秘光环下，被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话，为媒体误导之最： 说的是有记者测试机器翻译系统，想到用这么一个出自圣经的成语： The spirit is willing, but the flesh is weak (心有余而力不足) 翻译成俄语后再翻译回英语就是： The whiskey is alright, but the meat is rotten（威士忌没有问题，但肉却腐烂了） 这大概是媒体上流传最广的笑话了。很多年来，这个经典笑话不断被添油加醋地重复着，成为NLP的标准笑柄。 然而，自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测，这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”，似乎暴露了机器的愚蠢，殊不知这样的“错误”是系统最容易 debug 的：补全词典即可。因为成语 by definition 是可列举的（listable），补全成语的办法可以用人工，也可以从语料库中自动习得，无论何种方式，都是 tractable 的任务。语言学告诉我们，成语的特点在于其不具有语义的可分解性（no/little semantic compositianlity），必须作为整体来记忆（存贮），这就决定了它的非开放性（可列举）。其二是对于机器“理解”（实际是一种“人工智能”）的误解，以为人理解有困难的部分也必然是机器理解的难点，殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事，需要历史知识才可以真正理解其含义，而机器是没有背景知识的，由此便断言，成语是NLP的瓶颈。 事实是，对于 NLP，可以说，识别了就是理解了，而识别可枚举的表达法不过是记忆而已，说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解 能力/机制。  引用 &#8230; <a href="http://www.52nlp.cn/nlp-%e5%8e%86%e5%8f%b2%e4%b8%8a%e6%9c%80%e5%a4%a7%e7%9a%84%e5%aa%92%e4%bd%93%e8%af%af%e5%af%bc%ef%bc%9a%e6%88%90%e8%af%ad%e9%9a%be%e5%80%92%e4%ba%86%e7%94%b5%e8%84%91">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e8%af%ad%e4%b9%89%e7%bd%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-google%e6%94%b6%e8%b4%ad%e8%af%ad%e4%b9%89%e7%bd%91%e5%85%ac%e5%8f%b8metaweb' rel='bookmark' title='语义网新闻一则：Google收购语义网公司Metaweb'>语义网新闻一则：Google收购语义网公司Metaweb</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e4%b8%80%e7%a0%96' rel='bookmark' title='第一砖，混在NLP！'>第一砖，混在NLP！</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-metaweb' rel='bookmark' title='自然语言处理公司巡礼六：Metaweb'>自然语言处理公司巡礼六：Metaweb</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='Coling 2010 文章已可下载'>Coling 2010 文章已可下载</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<div>
<div><span style="font-size: medium">NLP 最早的实践是机器翻译，在电脑的神秘光环下，被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话，为媒体误导之最：</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">说的是有记者测试机器翻译系统，想到用这么一个出自圣经的成语：</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">The spirit is willing, but the flesh is weak (心有余而力不足)</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">翻译成俄语后再翻译回英语就是：</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">The whiskey is alright, but the meat is rotten（威士忌没有问题，但肉却腐烂了）</span></div>
<div><span style="font-size: medium"><br />
</span></div>
</div>
<div><span style="font-size: medium">这大概是媒体上流传最广的笑话了。很多年来，这个经典笑话不断被添油加醋地重复着，成为NLP的标准笑柄。</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">然而，自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测，这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”，似乎暴露了机器的愚蠢，殊不知这样的“错误”是系统最容易 debug 的：补全词典即可。因为成语 by definition 是可列举的（listable），补全成语的办法可以用人工，也可以从语料库中自动习得，无论何种方式，都是 tractable 的任务。语言学告诉我们，成语的特点在于其不具有语义的可分解性（no/little semantic compositianlity），必须作为整体来记忆（存贮），这就决定了它的非开放性（可列举）。其二是对于机器“理解”（实际是一种“人工智能”）的误解，以为人理解有困难的部分也必然是机器理解的难点，殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事，需要历史知识才可以真正理解其含义，而机器是没有背景知识的，由此便断言，成语是NLP的瓶颈。</span></div>
<div><span style="font-size: medium"><br />
事实是，对于 NLP，可以说，识别了就是理解了，而识别可枚举的表达法不过是记忆而已，说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解 能力/机制。 </span></div>
<div>
<div><span style="font-size: medium"><br />
</span></div>
<blockquote>
<div><span style="font-size: medium">引用</span></div>
<div><span style="color: #800000;font-size: medium">成语的本质是记忆，<span style="text-decoration: underline">凡记忆电脑是大拿，人脑是豆腐</span>。</span></div>
<div><span style="font-size: medium"><span style="color: #800000"><br />
当然要大词库，无论何种方式 建立，只要想做就可以做，因此不是问题。</p>
<p>所谓自然语言“理解”（NLU），就是把 open expressions 分解成词典单位（包括成语）的关系组合（术语叫 semantic compositionality）。凡事到了词典层，理解就终结了。无论semantic representation 如何摆弄，那都是系统内部的事情（system internal），与理解的本质无关。</span><br />
</span></div>
</blockquote>
<div><span style="color: #333333;font-family: Verdana;font-size: medium"><br />
</span></div>
<div><span style="font-size: medium"><span style="color: #333333;font-family: Verdana">摘自: 【<a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=524183" target="_blank">立委随笔：成语从来不是问题</a></span>】</span></div>
</div>
<div><span style="font-size: medium"><br />
</span></div>
<div><span style="font-size: medium">【后记】为写这篇短文，上网查阅这个广为流传的笑话的原始出处，结果发现了冯志伟老师有专文讲述这个故事的来历和变迁，根据冯老师的考证，这个笑话是杜撰出来的（见 《冯志伟：<a href="http://www.lingviko.net/feng/ill-posed.pdf" target="_blank">一个关于<em>机器翻译</em>的史料错误</a>》）。本文的主旨是澄清这一误解。杜撰与否并不重要，重要的是这个笑话的娱乐性以及媒体与大众对于娱乐的追求使得一种似是而非的误解经久不衰，得以深入人心。</span></div>
<div><span style="font-size: medium"><br />
</span></div>
<div></div>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e8%af%ad%e4%b9%89%e7%bd%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-google%e6%94%b6%e8%b4%ad%e8%af%ad%e4%b9%89%e7%bd%91%e5%85%ac%e5%8f%b8metaweb' rel='bookmark' title='语义网新闻一则：Google收购语义网公司Metaweb'>语义网新闻一则：Google收购语义网公司Metaweb</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e4%b8%80%e7%a0%96' rel='bookmark' title='第一砖，混在NLP！'>第一砖，混在NLP！</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-metaweb' rel='bookmark' title='自然语言处理公司巡礼六：Metaweb'>自然语言处理公司巡礼六：Metaweb</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='Coling 2010 文章已可下载'>Coling 2010 文章已可下载</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/Up-AiS48t4M" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/nlp-%e5%8e%86%e5%8f%b2%e4%b8%8a%e6%9c%80%e5%a4%a7%e7%9a%84%e5%aa%92%e4%bd%93%e8%af%af%e5%af%bc%ef%bc%9a%e6%88%90%e8%af%ad%e9%9a%be%e5%80%92%e4%ba%86%e7%94%b5%e8%84%91/feed</wfw:commentRss>
		<slash:comments>9</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/nlp-%e5%8e%86%e5%8f%b2%e4%b8%8a%e6%9c%80%e5%a4%a7%e7%9a%84%e5%aa%92%e4%bd%93%e8%af%af%e5%af%bc%ef%bc%9a%e6%88%90%e8%af%ad%e9%9a%be%e5%80%92%e4%ba%86%e7%94%b5%e8%84%91</feedburner:origLink></item>
		<item>
		<title>初学者报道(3)  CRF 中文分词解码过程理解</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/am1fzLpM-fI/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%933-crf-%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e8%a7%a3%e7%a0%81%e8%bf%87%e7%a8%8b%e7%90%86%e8%a7%a3</link>
		<comments>http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%933-crf-%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e8%a7%a3%e7%a0%81%e8%bf%87%e7%a8%8b%e7%90%86%e8%a7%a3#comments</comments>
		<pubDate>Fri, 30 Dec 2011 05:19:02 +0000</pubDate>
		<dc:creator>ricky</dc:creator>
				<category><![CDATA[中文分词]]></category>
		<category><![CDATA[条件随机场]]></category>
		<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4171</guid>
		<description><![CDATA[好久没有来写文章了，这段时间我研究了一下CRF，也找人请教过，下面写下自己的一些理解，在网络上也找过CRF的资料，大多为英文，对于解码的描述，就说用viterbe 实现，如何实现，却很少提及，以下为我的理解，如有错误欢迎指正，这样可以帮助我理解，先行谢过！ 一，标记问题解决分词：就是将 词语开始和结束的字标记出来，就能对一个句子完成分词，假设使用两个标记B (开始)，E(结束)对句子进行处理，如：“民主是普世价值”，民B主E是B普B世E价B值E, 这样标记明确，分词结果就明确了。 二，如何找到最好的标记结果：知道如何用标记的方式解决分词，那么怎么为一个句子找到一个最好的标记序列呢，CRF为这样的问题提供了一个解决方案，对于输入序列X1,X2&#8230;Xn(对于分词，就是那个句子)，求这个输入序列条件下 某个 标记序列(Y1,Y2&#8230;Yn)的概率 极值。 三，解码过程： 这里用一个例子来说明，对于CRF的原理，我不做详述，我是半吊子，怕解释不好，只说一下我理解的解码过程。 CRF的公式：P(y&#124;x,λ)=Σj λjFj(y,x)/Z(x)     //这里的j都是下标 先说问题： 使用4标记，B-开始，O-单独成词，M-词语中间的字，E-结束， 特征：一元特征，V-1 当前字的前一个字，V0当前字，V1当前字的后一个字 二元特征，各标记间的转移特征 句子如下： 民   主   是   普   世   价   值 B     B    B    B   B    B    B O    O &#8230; <a href="http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%933-crf-%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e8%a7%a3%e7%a0%81%e8%bf%87%e7%a8%8b%e7%90%86%e8%a7%a3">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%93%ef%bc%882%ef%bc%89%ef%bc%9a%e5%ae%9e%e7%8e%b0-1-gram%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='初学者报道（2）：实现 1-gram分词算法'>初学者报道（2）：实现 1-gram分词算法</a></li>
<li><a href='http://www.52nlp.cn/stardict-main-function-brief-description' rel='bookmark' title='stardict2.4.8的main函数简要说明与注释'>stardict2.4.8的main函数简要说明与注释</a></li>
<li><a href='http://www.52nlp.cn/%e5%9f%ba%e4%ba%8e%e5%93%88%e5%b8%8c%e8%a1%a8%e5%92%8c%e4%ba%8c%e5%8f%89%e6%a0%91%e7%9a%84%e8%af%8d%e5%85%b8%e7%a0%94%e7%a9%b6%e4%b8%80' rel='bookmark' title='基于哈希表和二叉树的词典研究(一)'>基于哈希表和二叉树的词典研究(一)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><span style="font-size: small;color: #0000ff">好久没有来写文章了，这段时间我研究了一下CRF，也找人请教过，下面写下自己的一些理解，在网络上也找过CRF的资料，大多为英文，对于解码的描述，就说用viterbe 实现，如何实现，却很少提及，以下为我的理解，如有错误欢迎指正，这样可以帮助我理解，先行谢过！</span></p>
<p>一，标记问题解决分词：就是将 词语开始和结束的字标记出来，就能对一个句子完成分词，假设使用两个标记B (开始)，E(结束)对句子进行处理，如：“民主是普世价值”，民B主E是B普B世E价B值E, 这样标记明确，分词结果就明确了。</p>
<p>二，如何找到最好的标记结果：知道如何用标记的方式解决分词，那么怎么为一个句子找到一个最好的标记序列呢，CRF为这样的问题提供了一个解决方案，对于输入序列X1,X2&#8230;Xn(对于分词，就是那个句子)，求这个输入序列条件下 某个 标记序列(Y1,Y2&#8230;Yn)的概率 极值。</p>
<p>三，解码过程：</p>
<p>这里用一个例子来说明，对于CRF的原理，我不做详述，我是半吊子，怕解释不好，只说一下我理解的解码过程。</p>
<p>CRF的公式：P(y|x,λ)=Σj λjFj(y,x)/Z(x)     //这里的j都是下标</p>
<p>先说问题：</p>
<p>使用4标记，B-开始，O-单独成词，M-词语中间的字，E-结束，</p>
<p>特征：一元特征，V-1 当前字的前一个字，V0当前字，V1当前字的后一个字</p>
<p>二元特征，各标记间的转移特征</p>
<p>句子如下：</p>
<p>民   主   是   普   世   价   值</p>
<p>B     B    B    B   B    B    B</p>
<p>O    O   O    O   O    O     O</p>
<p>M   M   M   M   M   M   M</p>
<p>E     E    E    E    E    E     E</p>
<p>Viterbe解码就是在以上由标记组成的 数组中 搜索一条 最优的路径。</p>
<p>对于每一列的每一个标记，我们都要计算到达该标记的分数，这个分数由三部分组成，它本身的一元特征权重W，它前面一个字标记的 路径分数PreScore，前面一个字标记到当前标记转移特征权重TransW，</p>
<p>1. 计算第一列的分数(score),对于，‘民’来说，我们要算 B,O,M,E的Score，因为是第一列，所以PreSocre和TransW都是0，就不用计算，只需要计算自己的一元特征的权重：</p>
<p>对于标记，B，我们计算它的Score，记为S1B=W1B=w(null,民,B)+w(民,B)+w(民,B,主)  //这些特征的意思是： (null，民，B)，当前字为 ‘民’标记为B，前面一个字为空，(民,B):当前字为‘民’，标记为B，(民,B,主)：当前字为&#8217;民&#8217;，标记为B，当前字的后一个字为‘主’。特征的权重都是在训练时得到的。</p>
<p>对于标记，O，M，E，一样要计算W1O，W1M，W1E,从而得到分数S1O，S1M，S1E</p>
<p>2.对于第二列，首先要计算是每个标记的 一元权重W2B，W2O,W2M,W2E.</p>
<p>对于B，到达该标记的最大分数为：S2B=Max((v(BB)+S1B),(v(OB)+S1O),(v(MB)+S1M),(v(EB)+S1E))+W2B，其中v(BB)等为B到B的转移特征的权重。这个也是由训练得到的。同样对于第二列的O,M,E也要计算S2O，S2M，S2E</p>
<p>3.一直计算到最后一列，‘值’字的所有标记，得到S7B，S7O，S7M，S7E.比较这四个值中的最大值，即为最优路径的分数，然后以该值的标记点为始点 回溯得到最优路径（这里在计算过程中，要记录到达该标记的前一个标记，用于回溯）</p>
<p>终于写好！:)</p>
<p>&nbsp;</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%93%ef%bc%882%ef%bc%89%ef%bc%9a%e5%ae%9e%e7%8e%b0-1-gram%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='初学者报道（2）：实现 1-gram分词算法'>初学者报道（2）：实现 1-gram分词算法</a></li>
<li><a href='http://www.52nlp.cn/stardict-main-function-brief-description' rel='bookmark' title='stardict2.4.8的main函数简要说明与注释'>stardict2.4.8的main函数简要说明与注释</a></li>
<li><a href='http://www.52nlp.cn/%e5%9f%ba%e4%ba%8e%e5%93%88%e5%b8%8c%e8%a1%a8%e5%92%8c%e4%ba%8c%e5%8f%89%e6%a0%91%e7%9a%84%e8%af%8d%e5%85%b8%e7%a0%94%e7%a9%b6%e4%b8%80' rel='bookmark' title='基于哈希表和二叉树的词典研究(一)'>基于哈希表和二叉树的词典研究(一)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/am1fzLpM-fI" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%933-crf-%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e8%a7%a3%e7%a0%81%e8%bf%87%e7%a8%8b%e7%90%86%e8%a7%a3/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e5%88%9d%e5%ad%a6%e8%80%85%e6%8a%a5%e9%81%933-crf-%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e8%a7%a3%e7%a0%81%e8%bf%87%e7%a8%8b%e7%90%86%e8%a7%a3</feedburner:origLink></item>
		<item>
		<title>专业老友痛批立委《迷思》系列搅乱NLP秩序，立委固执己见</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/Lpd4alHgxSs/%e4%b8%93%e4%b8%9a%e8%80%81%e5%8f%8b%e7%97%9b%e6%89%b9%e7%ab%8b%e5%a7%94%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e7%b3%bb%e5%88%97%e6%90%85%e4%b9%b1nlp%e7%a7%a9%e5%ba%8f%ef%bc%8c%e7%ab%8b%e5%a7%94</link>
		<comments>http://www.52nlp.cn/%e4%b8%93%e4%b8%9a%e8%80%81%e5%8f%8b%e7%97%9b%e6%89%b9%e7%ab%8b%e5%a7%94%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e7%b3%bb%e5%88%97%e6%90%85%e4%b9%b1nlp%e7%a7%a9%e5%ba%8f%ef%bc%8c%e7%ab%8b%e5%a7%94#comments</comments>
		<pubDate>Thu, 29 Dec 2011 15:59:51 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4204</guid>
		<description><![CDATA[G 是资深同行专业老友很多年了，常与立委有专业内外的交流。都是过来人，激烈交锋、碰撞出火是常有的事儿。 昨天给他邮去《迷思》系列三则，他即打电话说：“好家伙，你这是惟恐天下不乱啊。看了《迷思》，我就气不打一处来。你这是对中文NLP全盘否定啊，危言耸听，狂放颠覆性言论。偏激，严重偏激，而且误导。虽然我知道你在说什么，你想说什么，对于刚入门的新人，你的《迷思》有误导。” 听到他气不打一处来，我特别兴奋：“你尽管批判，砸砖。我为我说的话负责，每一个论点都是多年琢磨和经验以后的自然流露，绝对可以站住。对于年轻人，他们被各种’迷思‘误导很多了，我最多是矫枉过正，是对迷思的反弹，绝对不是误导。” 现剪辑摘录批判与回应，为历史留下足迹 。内行看门道，外行看热闹，欢迎围观。 2011/12/28 G The third one is more to the point - 严格说起来，这不能算是迷思，而应该算是放之四海而皆准的“多余的话” Frankly, the first two are 标题党 to me. Most “supporting evidence” is wrong. Well, I think I know what you were trying to &#8230; <a href="http://www.52nlp.cn/%e4%b8%93%e4%b8%9a%e8%80%81%e5%8f%8b%e7%97%9b%e6%89%b9%e7%ab%8b%e5%a7%94%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e7%b3%bb%e5%88%97%e6%90%85%e4%b9%b1nlp%e7%a7%a9%e5%ba%8f%ef%bc%8c%e7%ab%8b%e5%a7%94">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-1' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注1'>HMM在自然语言处理中的应用一：词性标注1</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-6' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注6'>HMM在自然语言处理中的应用一：词性标注6</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>G 是资深同行专业老友很多年了，常与立委有专业内外的交流。都是过来人，激烈交锋、碰撞出火是常有的事儿。</p>
<div></div>
<div>昨天给他邮去《迷思》系列三则，他即打电话说：“好家伙，你这是惟恐天下不乱啊。看了《迷思》，我就气不打一处来。你这是对中文NLP全盘否定啊，危言耸听，狂放颠覆性言论。偏激，严重偏激，而且误导。虽然我知道你在说什么，你想说什么，对于刚入门的新人，你的《迷思》有误导。”</div>
<div></div>
<div>听到他气不打一处来，我特别兴奋：“你尽管批判，砸砖。我为我说的话负责，每一个论点都是多年琢磨和经验以后的自然流露，绝对可以站住。对于年轻人，他们被各种’迷思‘误导很多了，我最多是矫枉过正，是对迷思的反弹，绝对不是误导。”</div>
<div></div>
<div>现剪辑摘录批判与回应，为历史留下足迹 。内行看门道，外行看热闹，欢迎围观。</div>
<div></div>
<div>2011/12/28 G</p>
<blockquote>
<div>
<div>The third one is more to the point - 严格说起来，这不能算是迷思，而应该算是放之四海而皆准的“多余的话”</div>
<div></div>
<div>Frankly, the first two are 标题党 to me. Most “supporting evidence” is wrong.</div>
<div></div>
<div>Well, I think I know what you were trying to say. But to most people I believe you are misleading.</div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">No, I was not misleading, this is 矫枉过正 on purpose.  </span></div>
<div>
<div></div>
<div></div>
<blockquote>
<div>
<div>At least I think you should explain a bit more, and carefully pick up your examples.</div>
<div></div>
<div>Take one example. Tokenizing Peoples Republic of China is routinely done by regular expression (rule based) based on capitalization, apostrophe and proposition (symbolic evidences), but NOT using dictionary.</div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">that is not the point.  yes, maybe I should have chosen a non-Name example (“interest rate” 利率 is a better example for both Chinese and English), but the point is that closed compounding can (and should) be looked up by lexicons rather than using rules.</span></div>
<div>
<div></div>
</div>
<div>
<blockquote>
<div>
<div></div>
<div>What you are referring to I guess is named entity recognition. Even that chinese and English could be significantly different.</div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">No I was not talking about NE, that is a special topic by itself.  I consider that to be a low-level, solved problem, and do not plan to re-invent the wheel.  I will just pick an off-shelf API to use for NE, tolerating its imperfection.</span></div>
<div>
<div></div>
<blockquote>
<div>
<div>I wouldn&#8217;t be surprised if you don&#8217;t do tokenization, as you can well combine that in overall parsing. But to applications like Baidu search, tokenization is the end of text processing and is a must-have.</div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">Chunking of words into phrases (syntax) are by nature no different from chunking of morphemes (characters) into words (morphology).  Parsing with no “word segmentation” is thus possible.  </span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">In existing apps like search engines, no big players are using parsing and deep NLP, yet (they will: only a time issue), so lexical features from large lexicons may not be necessary.  As a result, they may prefer to adopt a light-weight tokenization without lexicons.  That is a different case from what I am addressing here.   NLP discussed in my post series assumes the need for developing a parser as its core. </span></div>
<div>
<div></div>
<blockquote>
<div>
<div>Your attack to tagging is also misleading. You basically say if a word has two categories, just tag it both without further processing. That is tagging already.</div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">That is not (POS) tagging in the traditional sense: the traditional sense of tagging is deterministic and relies on context.  Lexical feature assignment from lexical lookup is not tagging in the traditional sense.  If you want to change the definition, then that is off the topic.</span></div>
<div>
<div></div>
<div></div>
<blockquote>
<div>
<div>What others do is merely one step forward, saying tag-a has 90% correct while tag-b 10% chance. I did rule based parser before and I find that is really helpful (at least in terms of speed). I try the high chance first. If it making sense, I just take it. If not, I come back trying the other. Let me know if you don&#8217;t do something like that.</div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">Parsing can go a long way without context-based POS tagging.  But note that at the end I proposed 一步半 approach, i.e. I can do limited, simple context-based tagging for convenience&#8217; sake.  The later development is adaptive and in principle does not rely on tagging.</span></div>
<div>
<div></div>
<blockquote>
<div>
<div>Note here I am not talking about 兼语词 which is essentially another unique tag with its own properties. I know this is not 100% accurate but I see it in chinese something like 动名词 in English.</div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">In fact, I do not see that as 兼语词, but for the sake of explanation of the phenomena, I used that term (logically equivalent, but to elaborate on that clearly requires too much space).  In my actual system, 学习 is a verb, only a verb (or logical verb).  </span></div>
<div>
<div></div>
<div></div>
<blockquote>
<div>
<div>Then this touches grammar theory. While we may not really need a new theory, we do need to have a working theory with consistency. You may have a good one in mind. But to most people it is not the case. For example, I see you are deeply influenced by 中心词 and dependency. But not everyone even aware of that, not to mention if they agree with. Till now there is no serious competition, as really no large scale success story yet. We need to wait and see which 学派 eventually casts a bigger shadow.</div>
<div></div>
<div></div>
</div>
</blockquote>
<div></div>
</div>
<div><span style="color: #800000">Good to be criticized.  But I had a point to make there.</span></div>
<div></div>
<div>【相关博文】</div>
<div><a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=522928" target="_blank"><img src="http://blog.sciencenet.cn/static/image/blog/recommendico.gif" alt="" width="12px" height="12px" />中文处理的迷思之一：切词特有论</a> 2011-12-28</div>
<div><a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=522996" target="_blank">中文处理的迷思之二：词类标注是句法分析的前提</a> 2011-12-28</div>
<div><a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=523130" target="_blank">中文NLP迷思之三：中文处理的长足进步有待于汉语语法的理论突破</a> 2011-12-29</div>
<div></div>
<p>本文引用地址：<a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=523458" target="_blank">http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=523458</a></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-1' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注1'>HMM在自然语言处理中的应用一：词性标注1</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-6' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注6'>HMM在自然语言处理中的应用一：词性标注6</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/Lpd4alHgxSs" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%93%e4%b8%9a%e8%80%81%e5%8f%8b%e7%97%9b%e6%89%b9%e7%ab%8b%e5%a7%94%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e7%b3%bb%e5%88%97%e6%90%85%e4%b9%b1nlp%e7%a7%a9%e5%ba%8f%ef%bc%8c%e7%ab%8b%e5%a7%94/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e4%b8%93%e4%b8%9a%e8%80%81%e5%8f%8b%e7%97%9b%e6%89%b9%e7%ab%8b%e5%a7%94%e3%80%8a%e8%bf%b7%e6%80%9d%e3%80%8b%e7%b3%bb%e5%88%97%e6%90%85%e4%b9%b1nlp%e7%a7%a9%e5%ba%8f%ef%bc%8c%e7%ab%8b%e5%a7%94</feedburner:origLink></item>
		<item>
		<title>欢迎大家试用信息学科数字化知识服务网络平台</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/7XWxSen9tPc/autoinnovation</link>
		<comments>http://www.52nlp.cn/autoinnovation#comments</comments>
		<pubDate>Thu, 29 Dec 2011 03:17:28 +0000</pubDate>
		<dc:creator>finallyliuyu</dc:creator>
				<category><![CDATA[中文信息处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4192</guid>
		<description><![CDATA[&#160; 各位同学、老师、网友，大家好，由中科院自动化所综合信息中心承担、国家科技部支持的自动化学科数字化知识服务网络平台已经上线。网站地址是：http://autoinnovation.ia.ac.cn/,欢迎大家使用，并且给我们提出意见和建议。      下面是平台使用过程中的几点注意事项：（1）初次使用时，如果您的浏览器没有安装silverlight插件，请您按提示下载安装该插件；（2）如果您在使用中遇到一些小问题，可以查看网站的帮助文件；（3）该平台框架实际为数据库检索系统，因此您输入检索词后，需要等待下拉菜单出现相应检索词，选中相应检索词，之后在点击搜索按钮，如下图所示     图 1 检索说明示意图    平台旨在挖掘、分析和展现我国自动化领域（包括部分计算机、通信的交叉领域）自1960年以来的学术发展情况。我们力求展现出国内自动化领域学术活动的立体全景，对领域内的文献、学者、机构、以及研究方向、方法、理论和工具等，做了全方位的关联分析。为了更好地展现知识，我们在精心设计页面布局的基础上，使用了Silverlight、Ajax等技术进行网站开发；为了让展现出来的知识更加精确，我们在数据处理中使用了包括命名实体识别与排歧、文本聚类在内的多种数据挖掘技术。 该平台凝结了综合信息中心的老师、开发人员、以及多位学生的大量心血。无论是在前期设计、后台数据处理、还是前台网站开发，我们都本着精益求精的原则，团队内部经过多次尝试和试验，力求选择最佳方案。但是作为一个人员有限的开发团队，我们的思虑与广博的群体智慧相比还是有所逊色的。为此，我们热诚地欢迎各位老师、同学、工作人员向我们提出您宝贵的建议。我们欢迎大家从各个层面给我们提出意见和建议，您的意见和建议将是敦促我们进步和改进的最给力的源泉！ 我们的联系方式是： email: y.liu@ia.ac.cn  新浪微博：http://weibo.com/autoinnovation                  http://weibo.com/finallyly 如果您觉得方便，可以留下您的姓名和单位，我们将在我们的网站进行致谢！ 数据共享计划： 同时，我们将与数据堂展开合作，开源部自然语言处理相关资源，期待大家的关注。欢迎大家就NLP资源的需求问题，以及文本挖掘的技术问题互相交流和探讨。 &#160;   &#160; 相关文章: NLP资源共享盛宴 52NLP微博-当真李逵遇到假李逵
相关文章:<ol>
<li><a href='http://www.52nlp.cn/nlp%e8%b5%84%e6%ba%90%e5%85%b1%e4%ba%ab%e7%9b%9b%e5%ae%b4' rel='bookmark' title='NLP资源共享盛宴'>NLP资源共享盛宴</a></li>
<li><a href='http://www.52nlp.cn/52nlp%e5%be%ae%e5%8d%9a-%e5%bd%93%e7%9c%9f%e6%9d%8e%e9%80%b5%e9%81%87%e5%88%b0%e5%81%87%e6%9d%8e%e9%80%b5' rel='bookmark' title='52NLP微博-当真李逵遇到假李逵'>52NLP微博-当真李逵遇到假李逵</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>&nbsp;</p>
<p align="left">各位同学、老师、网友，大家好，由中科院自动化所综合信息中心承担、国家科技部支持的自动化学科数字化知识服务网络平台已经上线。网站地址是：<a href="http://autoinnovation.ia.ac.cn/"><span style="color: #800080">http://autoinnovation.ia.ac.cn/</span></a>,欢迎大家使用，并且给我们提出意见和建议。</p>
<p align="left">     下面是平台使用过程中的几点注意事项：（<span style="color: #000000"><span style="font-family: 宋体">1</span>）初次使用时，如果您的浏览器没有安装</span><span style="color: #000000"><span style="font-family: 宋体">silverlight</span>插件，请您按提示下载安装该插件；（</span><span style="color: #000000"><span style="font-family: 宋体">2</span>）如果您在使用中遇到一些小问题，可以查看网站的帮助文件<span style="color: #ff0000">；</span></span><span style="color: #ff0000">（<span style="font-family: 宋体">3</span>）</span><span style="color: #ff0000">该平台框架实际为数据库检索系统，因此您输入检索词后，需要等待下拉菜单出现相应检索词，选中相应检索词，之后在点击搜索按钮，如下图所示</span></p>
<p>  <a href="http://www.52nlp.cn/autoinnovation/wangzhanshiyongshuoming-2" rel="attachment wp-att-4193"><img class="alignnone size-medium wp-image-4193" src="http://www.52nlp.cn/wp-content/uploads/2011/12/wangzhanshiyongshuoming1-300x156.jpg" alt="" width="300" height="156" /></a></p>
<p> <span style="font-size: x-small"><span style="color: #000000">图<span style="font-family: Cambria"> 1 </span></span><span style="color: #000000">检索说明示意图</span></span></p>
<p>   平台旨在挖掘、分析和展现我国自动化领域（包括部分计算机、通信的交叉领域）自<span style="color: #000000"><span style="font-family: 宋体">1960</span>年以来的学术发展情况。我们力求展现出国内自动化领域学术活动的立体全景，对领域内的文献、学者、机构、以及研究方向、方法、理论和工具等，做了全方位的关联分析。为了更好地展现知识，我们在精心设计页面布局的基础上，使用了</span><span style="color: #000000"><span style="font-family: 宋体">Silverlight</span>、</span><span style="color: #000000"><span style="font-family: 宋体">Ajax</span>等技术进行网站开发；为了让展现出来的知识更加精确，我们在数据处理中使用了包括命名实体识别与排歧、文本聚类在内的多种数据挖掘技术。</span></p>
<p>该平台凝结了综合信息中心的老师、开发人员、以及多位学生的大量心血。无论是在前期设计、后台数据处理、还是前台网站开发，我们都本着精益求精的原则，团队内部经过多次尝试和试验，力求选择最佳方案。但是作为一个人员有限的开发团队，我们的思虑与广博的群体智慧相比还是有所逊色的。为此，我们热诚地欢迎各位老师、同学、工作人员向我们提出您宝贵的建议。我们欢迎大家从各个层面给我们提出意见和建议，您的意见和建议将是敦促我们进步和改进的最给力的源泉！</p>
<p>我们的联系方式是：</p>
<p align="left">email: <a href="mailto:y.liu@ia.ac.cn"><span style="color: #0000ff">y.liu@ia.ac.cn</span></a></p>
<p> <span style="color: #000000">新浪微博：</span><a href="http://weibo.com/autoinnovation"><span style="color: #800080">http://weibo.com/autoinnovation</span></a></p>
<p>                 <a href="http://weibo.com/finallyly"><span style="color: #800080;font-family: 宋体">http://weibo.com/finallyly</span></a></p>
<p align="left"><span style="color: #000000">如果您觉得方便，可以留下您的姓名和单位，我们将在我们的网站进行致谢！</span></p>
<p align="left"><span style="color: #000000">数据共享计划：</span></p>
<p align="left">同时，我们将与<a href="http://www.datatang.com/"><span style="color: #0070c0;font-family: 宋体">数据堂</span></a>展开合作，开源部自然语言处理相关资源，期待大家的关注。欢迎大家就<span style="color: #0070c0"><span style="font-family: 宋体">NLP</span><span style="color: #000000">资源的需求问题，以及文本挖掘的技术问题互相交流和探讨。</span></span></p>
<p>&nbsp;</p>
<p align="left"><span style="color: #000000;font-family: 宋体"> </span></p>
<p>&nbsp;</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/nlp%e8%b5%84%e6%ba%90%e5%85%b1%e4%ba%ab%e7%9b%9b%e5%ae%b4' rel='bookmark' title='NLP资源共享盛宴'>NLP资源共享盛宴</a></li>
<li><a href='http://www.52nlp.cn/52nlp%e5%be%ae%e5%8d%9a-%e5%bd%93%e7%9c%9f%e6%9d%8e%e9%80%b5%e9%81%87%e5%88%b0%e5%81%87%e6%9d%8e%e9%80%b5' rel='bookmark' title='52NLP微博-当真李逵遇到假李逵'>52NLP微博-当真李逵遇到假李逵</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/7XWxSen9tPc" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/autoinnovation/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/autoinnovation</feedburner:origLink></item>
		<item>
		<title>迷思之三：中文处理的长足进步有待于汉语语法的理论突破</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/a-HF8rV7748/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%89%ef%bc%9a%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e9%95%bf%e8%b6%b3%e8%bf%9b%e6%ad%a5%e6%9c%89%e5%be%85%e4%ba%8e</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%89%ef%bc%9a%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e9%95%bf%e8%b6%b3%e8%bf%9b%e6%ad%a5%e6%9c%89%e5%be%85%e4%ba%8e#comments</comments>
		<pubDate>Wed, 28 Dec 2011 16:40:48 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4182</guid>
		<description><![CDATA[严格说起来，这不能算是迷思，而应该算是放之四海而皆准的“多余的话”：任何学科的理论突破都可能引起应用层面的长足进步，不说也罢。其所以归类到这个迷思系列，是因为这样的高论在中文处理界常常甚嚣尘上，有严重误导青年学子的危害。其结果是喊了多年理论突破，理论并没有突破，反而造就了一批民科妄想家（只是指出这个现象而已，对事不对人，有对号入座者，后果自负）。单这个后果还不算要紧，要紧的是这一说法为应用家的无能提供了心理挡箭牌，使得他们多年来畏畏缩缩，裹足不前：不是我们无能，是汉语太“个别”了（国民党的败将的口头禅就是如此：不是国军无能，是中共太狡猾了）。 汉语语法与西文语法真地如此不同，以致现有的语言学理论对它束手无策或难以实行了么？这是一个可以永远争论下去，没有绝对答案的问题。然而从应用层面，我们可以回答的问题是：在西文的语言处理中所使用的各种形式化手段和机制（formalism, mechanism and devices）对于汉语是否适用？ 立委集20年NLP经验，可以负责任地回答这个问题：西文处理的机制和手段对于中文处理大多是适用的、可行的，也许有不够用的时候，需要机制的拓展（not necessarily 理论的突破），但总体而言是用得不够，是不会用、不善用的问题。语法虽然因语言不同而不同，但NLP武器库里的轻重火器大多是独立于具体语言之上的（language independent）。俗话是语糙理不糙的：拉不出矢，不能怪茅坑。 拿英语处理与中文处理的比较为例。诚然，由于汉语比较灵活，语言表达对形式化手段倚赖较弱，总体而言处理起来确实比英语要难。英语表达的形式化手段除了功能词（介词等），还包括词尾（如：-ed,-ing,-s,-able,-er），汉语没有完全对应的词尾形式，只有一些功能小词（譬如：了，着，过，们），而且这些词还常常省略。尽管英语在欧洲语言里面词尾是非常少的了，但是别小看这几个词尾对于简化词法语法分析的作用。中文处理较少这种便利。回到功能词上看，譬如介词连词，虽然英语有的，汉语基本都有，但是汉语省略功能词的时候远远多于英语，这是有统计根据的，也符合我们日常的感觉：往坏里说，中国人比较偷懒，说话不严谨；往好里说是，中国人很懂低炭，能省则省，汉语很灵活。举一个例子，可见汉语的省略是普遍的： （1）对于这件事，依我的看法，我们应该听其自然。 （2）这件事我的看法应该听其自然。 上述句子（2）译成英语，省去功能词是难以想象的。 这种缺少形式化手段的所谓汉语的“意合”式表达方式确实使得中文的电脑处理比英语处理困难。 这只是问题的一个方面，是从量上考察，即汉语的表达比英语往往更省略，更不严谨，更需要上下文。问题的另一面是从难点的性质上来看，中文处理遇到的问题究竟有多少是英文处理中没有遇到过的？我的答案是：很少很少。很多歧义问题省略问题，英语同样存在，只是不如汉语那么普遍而已。既然问题的性质基本相同，处理问题的机制和手段就同样适用。逻辑的结论就是：英语处理领域积累的经验和手段在中文处理中大有可为。如果有核武器攻下了英语这个堡垒，就没有道理攻不下汉语。只要不做上帝（因为只有上帝才是完美的），就没有裹足不前静待理论突破的道理。 其实，真正做过西文处理也做过中文处理的同行应该不难认同上述看法。我说的是“真正”，对西文处理浅尝辄止的不算（浅尝辄止的包括NLP硕士课程中的语法形式化游戏：S: NP VP; NP: Det? Adj+ NN+ NN; VP: V NP?）。如果你比较深入地implement过一个英语分析器，针对的是大批量的真实语料，你会发现：英语的深入分析所遇到的难点需要调动很多手段，需要很细致的工作，而这些手段和工作也正是中文处理所需要的。我常常这样跟朋友说英语处理和中文处理的异同：如果你做硕士作业，导师给你一周做出一个语言处理系统能够处理50％以上的语言现象，在英语是可行的，在汉语是不可行的。因为你可以下载一个免费POS Tagger，在POS基础上编制一套粗糙的语法交差。然而，如果你要面对真实语料做一个比较适用的语言分析系统，如果英语需要开发N个月，调动 M 个手段，那么用同样的时间和手段，中文开发也大体可以到位。 中文处理有没有特有的难点，甚至难以踰越的障碍，需要不需要理论突破？回答是肯定的，但是很多难点是可以绕着走的，个别难以企及的问题是可以搁置的，因为上帝允许不完美的系统。无论如何，中文处理不能长足进步，是我们应用学家的耻辱和失败，而决不能嫁祸到理论家的头上。 处理尚未成功，同志仍需努力，立委与工匠同仁共勉。]]></description>
			<content:encoded><![CDATA[<div>严格说起来，这不能算是迷思，而应该算是放之四海而皆准的“多余的话”：任何学科的理论突破都可能引起应用层面的长足进步，不说也罢。其所以归类到这个迷思系列，是因为这样的高论在中文处理界常常甚嚣尘上，有严重误导青年学子的危害。其结果是喊了多年理论突破，理论并没有突破，反而造就了一批民科妄想家（只是指出这个现象而已，对事不对人，有对号入座者，后果自负）。单这个后果还不算要紧，要紧的是这一说法为应用家的无能提供了心理挡箭牌，使得他们多年来畏畏缩缩，裹足不前：不是我们无能，是汉语太“个别”了（国民党的败将的口头禅就是如此：不是国军无能，是中共太狡猾了）。</div>
<div></div>
<div>汉语语法与西文语法真地如此不同，以致现有的语言学理论对它束手无策或难以实行了么？这是一个可以永远争论下去，没有绝对答案的问题。然而从应用层面，我们可以回答的问题是：在西文的语言处理中所使用的各种形式化手段和机制（formalism, mechanism and devices）对于汉语是否适用？</div>
<div></div>
<div>立委集20年NLP经验，可以负责任地回答这个问题：西文处理的机制和手段对于中文处理大多是适用的、可行的，也许有不够用的时候，需要机制的拓展（not necessarily 理论的突破），但总体而言是用得不够，是不会用、不善用的问题。语法虽然因语言不同而不同，但NLP武器库里的轻重火器大多是独立于具体语言之上的（language independent）。俗话是语糙理不糙的：拉不出矢，不能怪茅坑。</div>
<div></div>
<div>拿英语处理与中文处理的比较为例。诚然，由于汉语比较灵活，语言表达对形式化手段倚赖较弱，总体而言处理起来确实比英语要难。英语表达的形式化手段除了功能词（介词等），还包括词尾（如：-ed,-ing,-s,-able,-er），汉语没有完全对应的词尾形式，只有一些功能小词（譬如：了，着，过，们），而且这些词还常常省略。尽管英语在欧洲语言里面词尾是非常少的了，但是别小看这几个词尾对于简化词法语法分析的作用。中文处理较少这种便利。回到功能词上看，譬如介词连词，虽然英语有的，汉语基本都有，但是汉语省略功能词的时候远远多于英语，这是有统计根据的，也符合我们日常的感觉：往坏里说，中国人比较偷懒，说话不严谨；往好里说是，中国人很懂低炭，能省则省，汉语很灵活。举一个例子，可见汉语的省略是普遍的：</div>
<div></div>
<div>（1）<span style="text-decoration: underline">对于</span>这件事，<span style="text-decoration: underline">依</span>我的看法，<span style="text-decoration: underline">我们</span>应该听其自然。</div>
<div>（2）这件事我的看法应该听其自然。</div>
<div></div>
<div>上述句子（2）译成英语，省去功能词是难以想象的。</div>
<div></div>
<div>这种缺少形式化手段的所谓汉语的“意合”式表达方式确实使得中文的电脑处理比英语处理困难。</div>
<div></div>
<div>这只是问题的一个方面，是从量上考察，即汉语的表达比英语往往更省略，更不严谨，更需要上下文。问题的另一面是从难点的性质上来看，中文处理遇到的问题究竟有多少是英文处理中没有遇到过的？我的答案是：很少很少。很多歧义问题省略问题，英语同样存在，只是不如汉语那么普遍而已。既然问题的性质基本相同，处理问题的机制和手段就同样适用。逻辑的结论就是：英语处理领域积累的经验和手段在中文处理中大有可为。如果有核武器攻下了英语这个堡垒，就没有道理攻不下汉语。只要不做上帝（因为只有上帝才是完美的），就没有裹足不前静待理论突破的道理。</div>
<div></div>
<div>其实，真正做过西文处理也做过中文处理的同行应该不难认同上述看法。我说的是“真正”，对西文处理浅尝辄止的不算（浅尝辄止的包括NLP硕士课程中的语法形式化游戏：S: NP VP; NP: Det? Adj+ NN+ NN; VP: V NP?）。如果你比较深入地implement过一个英语分析器，针对的是大批量的真实语料，你会发现：英语的深入分析所遇到的难点需要调动很多手段，需要很细致的工作，而这些手段和工作也正是中文处理所需要的。我常常这样跟朋友说英语处理和中文处理的异同：如果你做硕士作业，导师给你一周做出一个语言处理系统能够处理50％以上的语言现象，在英语是可行的，在汉语是不可行的。因为你可以下载一个免费POS Tagger，在POS基础上编制一套粗糙的语法交差。然而，如果你要面对真实语料做一个比较适用的语言分析系统，如果英语需要开发N个月，调动 M 个手段，那么用同样的时间和手段，中文开发也大体可以到位。</div>
<div></div>
<div>中文处理有没有特有的难点，甚至难以踰越的障碍，需要不需要理论突破？回答是肯定的，但是很多难点是可以绕着走的，个别难以企及的问题是可以搁置的，因为上帝允许不完美的系统。无论如何，中文处理不能长足进步，是我们应用学家的耻辱和失败，而决不能嫁祸到理论家的头上。</div>
<div></div>
<div>处理尚未成功，同志仍需努力，立委与工匠同仁共勉。</div>
<img src="http://feeds.feedburner.com/~r/52nlp/~4/a-HF8rV7748" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%89%ef%bc%9a%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e9%95%bf%e8%b6%b3%e8%bf%9b%e6%ad%a5%e6%9c%89%e5%be%85%e4%ba%8e/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%89%ef%bc%9a%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e9%95%bf%e8%b6%b3%e8%bf%9b%e6%ad%a5%e6%9c%89%e5%be%85%e4%ba%8e</feedburner:origLink></item>
		<item>
		<title>中文处理的迷思之二：词类标注是句法分析的前提</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/MQz3YwaJGYQ/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%ba%8c%ef%bc%9a%e8%af%8d%e7%b1%bb%e6%a0%87%e6%b3%a8%e6%98%af%e5%8f%a5%e6%b3%95%e5%88%86%e6%9e%90%e7%9a%84%e5%89%8d%e6%8f%90</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%ba%8c%ef%bc%9a%e8%af%8d%e7%b1%bb%e6%a0%87%e6%b3%a8%e6%98%af%e5%8f%a5%e6%b3%95%e5%88%86%e6%9e%90%e7%9a%84%e5%89%8d%e6%8f%90#comments</comments>
		<pubDate>Wed, 28 Dec 2011 14:28:23 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4180</guid>
		<description><![CDATA[词类标注（Part-of-speech Tagging: POS）是汉语句法分析的前提么？ 没有这回事。 如果说为了模块化开发的方便，中文处理系统先行词类标注，再行句法分析，这种类似于多数英语分析器的架构从工程上看确实有一定的道理，但是词类标注并非句法分析的前提。 点破这一迷思的最直接的例证就是完全可以设计一个跳过POS模块的中文句法分析系统，事实上笔者目前研发的中文系统就跳过了这个环节。 有问：没有词类，怎么可能施行句法分析？ 回答是：谁说没有词类？词典里给出的任何类别标注都是一种“词类”。的确，没有这些“词典的类别”信息，句法分析就没有抽象度，就难以编写规则来parse千变万化的语句。 POS 模块的本义在于词类消歧，即根据上下文的条件标注唯一的一个语法词类，譬如把同一个“学习”在不同的上下文中分别标注为名词或动词。前面说过，这样做有工程上的便利，因为如果词类标注是准确的话，后续的句法分析规则就可以简化，是动词就走动词的规则，是名词就走名词的规则。但这只是问题的一个方面。 问题的另一面是，汉语中的词类歧义特别严重（语法学界甚至曾经有云：词无定类，入句而后定），不但很多词都可以是名词或动词，而且动词和形容词的界限也很模糊。三大类实词在汉语中如此界限不分明，这曾经被认为是中文信息处理寸步难行的最大障碍。歧义如此严重的语言如果实行两步走的架构，有可能陷入错误放大（error propagation）的怪圈，即，词类区分的错误进一步造成句法分析的灾难。这是因为有些词类区分的条件在局限于 local context 的 POS阶段尚未到位，POS 模块过早地标注了错误的词类。 根据 keep ambiguity untouched 的经验法则，遵循 adaptive development 的基本原则，跳过 POS 的环节，让句法分析直接建立在词典信息的基础之上，是解决上述矛盾的一个有效方法。具体来说就是，只利用词典里面的静态类别信息来做分析，无须倚赖专有的POS模块先行消歧。如果一个词既可以做名词，又可以做动词，那就把两个类别同时标注到这个词上。编写句法规则的时候，对于兼类词（譬如动名兼类词 “学习”）与单纯词（譬如纯名词“桌子”）根据条件的宽松分别对待即可。 需要说明的是，笔者并不反对先POS后Parser的中文处理策略，只是指出POS并非Parser的先决条件，还有一种句法直接建立在词典之上的一步走的策略。顺着这个思路，一步半的策略也许更好。所谓一步半，就是做一个简单的 POS 模块（算是半步）把词类区分中比较大路容易的现象标注好，并不求对所有词类施行标注。 相关文章: 坚持四项基本原则，开发鲁棒性NLP系统 应该立法禁止分词研究 :=) MIT自然语言处理第一讲：简介和概述（第一部分） 自然语言处理与计算语言学书籍汇总之六：国外书籍 MIT自然语言处理第二讲：单词计数（第四部分） CFP: The &#8230; <a href="http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%ba%8c%ef%bc%9a%e8%af%8d%e7%b1%bb%e6%a0%87%e6%b3%a8%e6%98%af%e5%8f%a5%e6%b3%95%e5%88%86%e6%9e%90%e7%9a%84%e5%89%8d%e6%8f%90">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f' rel='bookmark' title='坚持四项基本原则，开发鲁棒性NLP系统'>坚持四项基本原则，开发鲁棒性NLP系统</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-first-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第一部分）'>MIT自然语言处理第一讲：简介和概述（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-six-foreign-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之六：国外书籍'>自然语言处理与计算语言学书籍汇总之六：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/cfp-the-7th-young-researchers-roundtable-on-spoken-dialogue-systems' rel='bookmark' title='CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems'>CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Papers'>ACL-HLT 2011: List of Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/%e5%9f%ba%e4%ba%8e%e5%93%88%e5%b8%8c%e8%a1%a8%e5%92%8c%e4%ba%8c%e5%8f%89%e6%a0%91%e7%9a%84%e8%af%8d%e5%85%b8%e7%a0%94%e7%a9%b6%e4%b8%80' rel='bookmark' title='基于哈希表和二叉树的词典研究(一)'>基于哈希表和二叉树的词典研究(一)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>词类标注（Part-of-speech Tagging: POS）是汉语句法分析的前提么？</p>
<div>
<div></div>
<div>没有这回事。</div>
<div></div>
<div>如果说为了模块化开发的方便，中文处理系统先行词类标注，再行句法分析，这种类似于多数英语分析器的架构从工程上看确实有一定的道理，但是词类标注并非句法分析的前提。</div>
<div></div>
<div>点破这一迷思的最直接的例证就是完全可以设计一个跳过POS模块的中文句法分析系统，事实上笔者目前研发的中文系统就跳过了这个环节。</div>
<div></div>
<div>有问：没有词类，怎么可能施行句法分析？</div>
<div></div>
<div>回答是：谁说没有词类？词典里给出的任何类别标注都是一种“词类”。的确，没有这些“词典的类别”信息，句法分析就没有抽象度，就难以编写规则来parse千变万化的语句。</div>
<div></div>
<div>POS 模块的本义在于词类消歧，即根据上下文的条件标注唯一的一个语法词类，譬如把同一个“学习”在不同的上下文中分别标注为名词或动词。前面说过，这样做有工程上的便利，因为如果词类标注是准确的话，后续的句法分析规则就可以简化，是动词就走动词的规则，是名词就走名词的规则。但这只是问题的一个方面。</div>
<div></div>
<div>问题的另一面是，汉语中的词类歧义特别严重（语法学界甚至曾经有云：词无定类，入句而后定），不但很多词都可以是名词或动词，而且动词和形容词的界限也很模糊。三大类实词在汉语中如此界限不分明，这曾经被认为是中文信息处理寸步难行的最大障碍。歧义如此严重的语言如果实行两步走的架构，有可能陷入错误放大（error propagation）的怪圈，即，词类区分的错误进一步造成句法分析的灾难。这是因为有些词类区分的条件在局限于 local context 的 POS阶段尚未到位，POS 模块过早地标注了错误的词类。</div>
<div></div>
<div>根据 keep ambiguity untouched 的经验法则，遵循 adaptive development 的基本原则，跳过 POS 的环节，让句法分析直接建立在词典信息的基础之上，是解决上述矛盾的一个有效方法。具体来说就是，只利用词典里面的静态类别信息来做分析，无须倚赖专有的POS模块先行消歧。如果一个词既可以做名词，又可以做动词，那就把两个类别同时标注到这个词上。编写句法规则的时候，对于兼类词（譬如动名兼类词 “学习”）与单纯词（譬如纯名词“桌子”）根据条件的宽松分别对待即可。</div>
<div></div>
<div>需要说明的是，笔者并不反对先POS后Parser的中文处理策略，只是指出POS并非Parser的先决条件，还有一种句法直接建立在词典之上的一步走的策略。顺着这个思路，一步半的策略也许更好。所谓一步半，就是做一个简单的 POS 模块（算是半步）把词类区分中比较大路容易的现象标注好，并不求对所有词类施行标注。</div>
<div></div>
</div>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f' rel='bookmark' title='坚持四项基本原则，开发鲁棒性NLP系统'>坚持四项基本原则，开发鲁棒性NLP系统</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-first-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第一部分）'>MIT自然语言处理第一讲：简介和概述（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-six-foreign-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之六：国外书籍'>自然语言处理与计算语言学书籍汇总之六：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/cfp-the-7th-young-researchers-roundtable-on-spoken-dialogue-systems' rel='bookmark' title='CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems'>CFP: The 7th Young Researchers&#8217; Roundtable on Spoken Dialogue Systems</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Papers'>ACL-HLT 2011: List of Accepted Papers</a></li>
<li><a href='http://www.52nlp.cn/%e5%9f%ba%e4%ba%8e%e5%93%88%e5%b8%8c%e8%a1%a8%e5%92%8c%e4%ba%8c%e5%8f%89%e6%a0%91%e7%9a%84%e8%af%8d%e5%85%b8%e7%a0%94%e7%a9%b6%e4%b8%80' rel='bookmark' title='基于哈希表和二叉树的词典研究(一)'>基于哈希表和二叉树的词典研究(一)</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/MQz3YwaJGYQ" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%ba%8c%ef%bc%9a%e8%af%8d%e7%b1%bb%e6%a0%87%e6%b3%a8%e6%98%af%e5%8f%a5%e6%b3%95%e5%88%86%e6%9e%90%e7%9a%84%e5%89%8d%e6%8f%90/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%ba%8c%ef%bc%9a%e8%af%8d%e7%b1%bb%e6%a0%87%e6%b3%a8%e6%98%af%e5%8f%a5%e6%b3%95%e5%88%86%e6%9e%90%e7%9a%84%e5%89%8d%e6%8f%90</feedburner:origLink></item>
		<item>
		<title>中文处理的迷思之一：切词特有论</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/ULjEPAQQb4E/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%80%ef%bc%9a%e5%88%87%e8%af%8d%e7%89%b9%e6%9c%89%e8%ae%ba</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%80%ef%bc%9a%e5%88%87%e8%af%8d%e7%89%b9%e6%9c%89%e8%ae%ba#comments</comments>
		<pubDate>Wed, 28 Dec 2011 14:26:40 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4178</guid>
		<description><![CDATA[电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中，准备提出来分别讨论。 迷思之一：切词是中文（或东方语言）处理特有的前提，因为中文书写不分词。 切词作为中文处理的一个先行环节，是为了模块化开发的方便，这一点不错。但它根本就不特有。 任何自然语言处理都有一个先行环节，叫 tokenization，就是把输入的字符串分解成为词汇单位：无论何种书面语，没有这个环节，辞典的词汇信息就无以附着，在词汇类别的基础上的有概括性的进一步句法语义分析就不能进行。中文切词不过是这个通用的 tokenization 的一个案例而已，没有什么“特有”的问题。 有说：中文书写不分词，汉字一个挨一个，词之间没有显性标识，而西文是用 space（空白键）来分词的，因此分词是中文处理的特有难题。 这话并不确切，语言学上错误更多。具体来说： 1 汉语词典的词，虽然以多字词为多数，但也有单字词，特别是那些常用的功能词（连词、介词、叹词等）。对于单字词，书面汉语显然是有显性标志的，其标志就是字与字的自然分界（如果以汉字作为语言学分析的最小单位，语言学上叫语素，其 tokenization 极其简单：每两个字节为一个汉字），无需 space. 2 现代汉语的多字词（如：中华人民共和国）是复合词，本质上与西文的复合词（e.g. People&#8217;s Republic of China）没有区别，space 并不能解决复合词的分界问题。无论中西，复合词都主要靠查词典来解决，而不是靠自然分界（如 space）来解决（德语的名词复合词算是西文中的一个例外，封闭类复合词只要 space 就可以了，开放类复合词则需要进一步切词，叫 decompounding）。如果复合词的左边界或者右边界有歧义问题（譬如：“天下” 左右边界都可能歧义， e.g. 今天 下雨；英语复合副词 “in particular” 的右边界可能有歧义：e.g. in particular cases），无论中西，这种歧义都需要上下文的帮助才能解决。从手段上看，中文的多字词切词并无任何特别之处，英语 tokenization 用以识别复合词 People&#8217;s Republic &#8230; <a href="http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%80%ef%bc%9a%e5%88%87%e8%af%8d%e7%89%b9%e6%9c%89%e8%ae%ba">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e4%b8%80%e7%a0%96' rel='bookmark' title='第一砖，混在NLP！'>第一砖，混在NLP！</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6' rel='bookmark' title='突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了'>突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了</a></li>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f' rel='bookmark' title='坚持四项基本原则，开发鲁棒性NLP系统'>坚持四项基本原则，开发鲁棒性NLP系统</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-language-weaver' rel='bookmark' title='自然语言处理公司巡礼七：Language Weaver'>自然语言处理公司巡礼七：Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93' rel='bookmark' title='立委科普：从产业角度说说NLP这个行当'>立委科普：从产业角度说说NLP这个行当</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-sdl%e5%85%ac%e5%8f%b8%e6%94%b6%e8%b4%adlanguage-weaver' rel='bookmark' title='机器翻译新闻一则：SDL公司收购Language Weaver'>机器翻译新闻一则：SDL公司收购Language Weaver</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<div>电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中，准备提出来分别讨论。</div>
<div></div>
<div>迷思之一：切词是中文（或东方语言）处理特有的前提，因为中文书写不分词。</div>
<div></div>
<div>切词作为中文处理的一个先行环节，是为了模块化开发的方便，这一点不错。但它根本就不特有。</div>
<div></div>
<div>任何自然语言处理都有一个先行环节，叫 tokenization，就是把输入的字符串分解成为词汇单位：无论何种书面语，没有这个环节，辞典的词汇信息就无以附着，在词汇类别的基础上的有概括性的进一步句法语义分析就不能进行。中文切词不过是这个通用的 tokenization 的一个案例而已，没有什么“特有”的问题。</div>
<div></div>
<div>有说：中文书写不分词，汉字一个挨一个，词之间没有显性标识，而西文是用 space（空白键）来分词的，因此分词是中文处理的特有难题。</div>
<div></div>
<div>这话并不确切，语言学上错误更多。具体来说：</div>
<div></div>
<div>1 汉语词典的词，虽然以多字词为多数，但也有单字词，特别是那些常用的功能词（连词、介词、叹词等）。对于单字词，书面汉语显然是有显性标志的，其标志就是字与字的自然分界（如果以汉字作为语言学分析的最小单位，语言学上叫语素，其 tokenization 极其简单：每两个字节为一个汉字），无需 space.</div>
<div></div>
<div>2 现代汉语的多字词（如：中华人民共和国）是复合词，本质上与西文的复合词（e.g. People&#8217;s Republic of China）没有区别，space 并不能解决复合词的分界问题。无论中西，复合词都主要靠查词典来解决，而不是靠自然分界（如 space）来解决（德语的名词复合词算是西文中的一个例外，封闭类复合词只要 space 就可以了，开放类复合词则需要进一步切词，叫 decompounding）。如果复合词的左边界或者右边界有歧义问题（譬如：“天下” 左右边界都可能歧义， e.g. 今天 下雨；英语复合副词 “in particular” 的右边界可能有歧义：e.g. in particular cases），无论中西，这种歧义都需要上下文的帮助才能解决。从手段上看，中文的多字词切词并无任何特别之处，英语 tokenization 用以识别复合词 People&#8217;s Republic of China 和 in particular 的方法，同样适用于中文切词。</div>
<div></div>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e4%b8%80%e7%a0%96' rel='bookmark' title='第一砖，混在NLP！'>第一砖，混在NLP！</a></li>
<li><a href='http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6' rel='bookmark' title='应该立法禁止分词研究 :=)'>应该立法禁止分词研究 :=)</a></li>
<li><a href='http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6' rel='bookmark' title='突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了'>突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了</a></li>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e5%9d%9a%e6%8c%81%e5%9b%9b%e9%a1%b9%e5%9f%ba%e6%9c%ac%e5%8e%9f%e5%88%99%ef%bc%8c%e5%bc%80%e5%8f%91%e9%b2%81%e6%a3%92%e6%80%a7nlp%e7%b3%bb%e7%bb%9f' rel='bookmark' title='坚持四项基本原则，开发鲁棒性NLP系统'>坚持四项基本原则，开发鲁棒性NLP系统</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-prospect' rel='bookmark' title='COLING 2010前瞻——规则与统计共舞，语言随计算齐飞'>COLING 2010前瞻——规则与统计共舞，语言随计算齐飞</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-language-weaver' rel='bookmark' title='自然语言处理公司巡礼七：Language Weaver'>自然语言处理公司巡礼七：Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e7%a7%91%e6%99%ae-%e4%bb%8e%e4%ba%a7%e4%b8%9a%e8%a7%92%e5%ba%a6%e8%af%b4%e8%af%b4nlp%e8%bf%99%e4%b8%aa%e8%a1%8c%e5%bd%93' rel='bookmark' title='立委科普：从产业角度说说NLP这个行当'>立委科普：从产业角度说说NLP这个行当</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-sdl%e5%85%ac%e5%8f%b8%e6%94%b6%e8%b4%adlanguage-weaver' rel='bookmark' title='机器翻译新闻一则：SDL公司收购Language Weaver'>机器翻译新闻一则：SDL公司收购Language Weaver</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/ULjEPAQQb4E" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%80%ef%bc%9a%e5%88%87%e8%af%8d%e7%89%b9%e6%9c%89%e8%ae%ba/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%a4%84%e7%90%86%e7%9a%84%e8%bf%b7%e6%80%9d%e4%b9%8b%e4%b8%80%ef%bc%9a%e5%88%87%e8%af%8d%e7%89%b9%e6%9c%89%e8%ae%ba</feedburner:origLink></item>
		<item>
		<title>突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/2r98Pz9dyNM/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6</link>
		<comments>http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6#comments</comments>
		<pubDate>Sat, 10 Dec 2011 17:26:43 +0000</pubDate>
		<dc:creator>liwei999</dc:creator>
				<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4158</guid>
		<description><![CDATA[与业內老友的对话：在‘用’字上狠下功夫 耳边响起了林副主席关于系统开发的谆谆教导： Quote 带着问题做，活做活用，做用结合，急用先做，立竿见影，在‘用’字上狠下功夫。 from：http://blog.sciencenet.cn/home.php?mod=space&#38;uid=362400&#38;do=blog&#38;id=510567 这是从与朋友的内部交流中得来的。赶的是编造名人名言的时髦。 ～～～～～～～～～～～～ 在我发文【坚持四项基本原则，开发鲁棒性NLP系统】以后，有业内资深老友表示非常有意思，建议我把NLP方面的博文系列汇集加工，可以考虑出书： Quote A good 经验之谈. Somehow it reminds me this &#8211; 带着问题学，活学活用，学用结合，急用先学，立竿见影，在‘用’字上狠下功夫。 You made a hidden preamble &#8212; a given type of application in a given domain. A recommendation: expand your blog a &#8230; <a href="http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/compile-stardict-tools-and-use-stardict2txt' rel='bookmark' title='编译stardict-tools-3.0.1及使用stardict2txt'>编译stardict-tools-3.0.1及使用stardict2txt</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e5%ae%89%e8%a3%85srilm%e7%9a%84%e4%b8%80%e7%82%b9%e6%96%b0%e5%8f%98%e5%8c%96' rel='bookmark' title='安装Srilm的一点新变化'>安装Srilm的一点新变化</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<div>与业內老友的对话：在‘用’字上狠下功夫</div>
<div>耳边响起了林副主席关于系统开发的谆谆教导：</div>
<blockquote>
<div>
<blockquote>
<div><span style="color: #800000">Quote</span></div>
<div><span style="color: #800000;font-size: medium"><strong>带着问题做，活做活用，做用结合，急用先做，立竿见影，在‘用’字上狠下功夫。</strong></span></div>
<div>from：<a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=510567" rel="nofollow" target="_blank">http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=510567</a></div>
</blockquote>
</div>
</blockquote>
<div>这是从与朋友的内部交流中得来的。赶的是编造名人名言的时髦。<br />
～～～～～～～～～～～～</div>
<div>在我发文【<a href="http://blog.sciencenet.cn/home.php?mod=space&amp;uid=362400&amp;do=blog&amp;id=516413" target="_blank">坚持四项基本原则，开发鲁棒性NLP系统</a>】以后，有业内资深老友表示非常有意思，建议我把NLP方面的博文系列汇集加工，可以考虑出书：</div>
<blockquote>
<div><span style="color: #800000">Quote</span></div>
<div><span style="color: #800000">A good 经验之谈. Somehow it reminds me this &#8211;</span></div>
<div><span style="color: #800000">带着问题学，活学活用，学用结合，急用先学，立竿见影，在‘用’字上狠下功夫。</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">You made a hidden preamble &#8212; a given type of application in a given domain.</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">A recommendation: expand your blog a bit as a series, heading to a book.</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">My friend 吴军 did that quite successfully. Of course with statistics background. So he approached NLP from math perspective &#8212; 数学之美 系列</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">You have very good thoughts and raw material. Just you need to put a bit more time to make your writing more approachable &#8212; I am commenting on comments like “学习不了。” and “读起来鸭梨很大”.</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">I know you said: “有时候想，也不能弄得太可读了，都是多年 的经验，后生想学的话，也该吃点苦头。:=)”</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">But as you already put in the efforts, why not make it more approachable?</span></div>
<div><span style="color: #800000"><br />
</span></div>
<div><span style="color: #800000">The issue is, even if I am willing to 吃点苦头, I still don&#8217;t know where to start 吃苦头, IF I have never built a real-life NLP system.</span></div>
<div><span style="color: #800000"><br />
</span></div>
<p><span style="color: #800000">For example, 词汇主义 by itself is enough for an article. You need to mention its opponents and its history to put it into context. Then you need to give some examples.</span></p></blockquote>
<p>文章千古事，网上涂鸦岂敢出书？这倒不是妄自菲薄，主要是出书太麻烦，跟不上这个时代。我回到：</p>
<div>
<div>吴军&#8217;s series are super popular. When I first read one of his articles on the Google Blackboard, recommended by a friend, I was amazed how well he structured and carried the content. It is intriguing. （边注：当然，他那篇谈 Page Rank 的文章有偏颇，给年轻人一种印象，IT 事业的成功是由技术主宰的，而实际上技术永远是第二位的。对于所谓高技术企业，没有技术是万万不行的，但企业成功的关键却不是技术，这是显而易见的事实了。）For me, to be honest, I do not aim that high.  Never bothered polishing things to pursue perfection although I did make an effort to try to link my stuffs into a series for the convenience of cross reference inside the related series. There are missing links which I know I want to write about but which sort of depends on my mood or time slots.  I guess I am just not pressed and motivated to do the writing part.  Popularizing the technology is only a side effect of the blogging hobby at times.  The way I prove myself is to show that I will be able to build products worth of millions, or even hundreds of millions of dollars.</p>
</div>
<div>
<p>网上的文字都是随兴之所至，我从来不写命题作文，包括我自己的命题。有时候兴趣来了，就说自己下一篇打算写什么什么，算是自我命题，算是动了某个话题的心思。可是过了两天，一个叉打过去，没那个兴致和时间了，也就作罢。</p>
<p>赶上什么写什么，这就是上网的心态。平时打工已经够累了，上网绝不给自己增加负担。</p>
<p>So far I have been fairly straightforward on what I write about.  If there is readability issue, it is mainly due to my lack of time.  Young people should be able to benefit from my writings especially once they start getting their hands dirty in building up a system.</p>
<p>Your discussion is fun. You can see and appreciate things hidden behind my work more than other readers.  After all, you have published in THE CL and you have almost terminated the entire segmentation as a scientific area. Seriously, it is my view that there is not much to do there after your work on tokenization both in theory and practice.</p>
<p>I feel some urgency now for having to do Chinese NLP asap.  Not many people have been though that much as what I have been (luckily), so I am in a position to potentially build a much more powerful system to make an impact on Chinese NLP, and hopefully on the IT landscape as well.  But time passes fast . That is why my focus is on the Chinese processing now, day and night.  I am keeping my hands dirty also with a couple of European languages, but they are less challenging and exciting.</p>
</div>
</div>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/compile-stardict-tools-and-use-stardict2txt' rel='bookmark' title='编译stardict-tools-3.0.1及使用stardict2txt'>编译stardict-tools-3.0.1及使用stardict2txt</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e5%ae%89%e8%a3%85srilm%e7%9a%84%e4%b8%80%e7%82%b9%e6%96%b0%e5%8f%98%e5%8c%96' rel='bookmark' title='安装Srilm的一点新变化'>安装Srilm的一点新变化</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/2r98Pz9dyNM" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e7%aa%81%e7%84%b6%e6%9c%89%e4%b8%80%e7%a7%8d%e7%b4%a7%e8%bf%ab%e6%84%9f%ef%bc%9a%e5%86%8d%e4%b8%8d%e4%b8%8a%e4%b8%ad%e6%96%87nlp%ef%bc%8c%e5%8f%af%e8%83%bd%e5%b0%b1%e9%94%99%e8%bf%87%e6%97%b6</feedburner:origLink></item>
	</channel>
</rss>

