<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" media="screen" href="/~d/styles/rss2full.xsl"?><?xml-stylesheet type="text/css" media="screen" href="http://feeds.feedburner.com/~d/styles/itemcontent.css"?><rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/" xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0" version="2.0">

<channel>
	<title>我爱自然语言处理</title>
	
	<link>http://www.52nlp.cn</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Tue, 09 Mar 2010 16:47:49 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="self" type="application/rss+xml" href="http://feeds.feedburner.com/52nlp" /><feedburner:info uri="52nlp" /><atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="hub" href="http://pubsubhubbub.appspot.com/" /><feedburner:emailServiceId>52nlp</feedburner:emailServiceId><feedburner:feedburnerHostname>http://feedburner.google.com</feedburner:feedburnerHostname><item>
		<title>Beautiful Data-统计语言模型的应用三：分词3</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/FLXg_dQEGE8/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3</link>
		<comments>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3#comments</comments>
		<pubDate>Tue, 09 Mar 2010 16:47:49 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文分词]]></category>
		<category><![CDATA[语言模型]]></category>
		<category><![CDATA[Beautiful Data]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Naive Bayes]]></category>
		<category><![CDATA[Peter Norvig]]></category>
		<category><![CDATA[python]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[朴素贝叶斯]]></category>
		<category><![CDATA[统计语言模型]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3121</guid>
		<description><![CDATA[　　本节我们进入《Beautiful Data》中分词的编码阶段，完整的程序及数据大家可以在“Natural Language Corpus Data: Beautiful Data”上下载ngrams.zip，我这里主要做一些解读。程序由python实现，无论在Linux或者Windows平台下，只要安装了相应的python版本，程序均可以通过测试，不过我所使用的是python2.6，注意，在python3.0上会有一些问题。
　　首先新建一个segment.py文件，依据上一节的思路，我们定义一个segment函数：
　　
　　def segment( text ):
　　　　&#8221;"&#8221;Return a list of words that is the best segmentation of text.&#8221;"&#8221;
　　　　if not text : return []
　　　　candidates = ( [first] + segment( rem ) for first, rem in splits( text ) )
　　　　return max( candidates, key = Pwords )
　　segment函数的目标就是“ 对于所有的候选切分， 选择P(first) × P(remaining) 乘积最高的那一个作为最佳切分”，事实上它里面包括了递归调用，最终返回的是最佳的分词短语，这个我们暂且不说，且看看它另外调用的两个函数splits和Pwords，在segment.py中加入如下的代码：	
　　def splits( text, L [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d2' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词2'>Beautiful Data-统计语言模型的应用三：分词2</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d1' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词1'>Beautiful Data-统计语言模型的应用三：分词1</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用二：背景'>Beautiful Data-统计语言模型的应用二：背景</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/crazy-word-beautiful-word-clouds' rel='bookmark' title='Permanent Link: 单词也疯狂——漂亮的“单词云”'>单词也疯狂——漂亮的“单词云”</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/getting-started-in-natural-language-processing' rel='bookmark' title='Permanent Link: 如何学习自然语言处理'>如何学习自然语言处理</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　本节我们进入《Beautiful Data》中分词的编码阶段，完整的程序及数据大家可以在“<a href="http://norvig.com/ngrams/"target=_blank>Natural Language Corpus Data: Beautiful Data</a>”上下载ngrams.zip，我这里主要做一些解读。程序由python实现，无论在Linux或者Windows平台下，只要安装了相应的python版本，程序均可以通过测试，不过我所使用的是python2.6，注意，在python3.0上会有一些问题。<span id="more-3121"></span><br />
　　首先新建一个segment.py文件，依据上一节的思路，我们定义一个segment函数：<br />
　　<br />
　　def segment( text ):</p>
<p>　　　　&#8221;"&#8221;Return a list of words that is the best segmentation of text.&#8221;"&#8221;</p>
<p>　　　　if not text : return []</p>
<p>　　　　candidates = ( [first] + segment( rem ) for first, rem in splits( text ) )</p>
<p>　　　　return max( candidates, key = Pwords )</p>
<p>　　segment函数的目标就是“ 对于所有的候选切分， 选择P(first) × P(remaining) 乘积最高的那一个作为最佳切分”，事实上它里面包括了递归调用，最终返回的是最佳的分词短语，这个我们暂且不说，且看看它另外调用的两个函数splits和Pwords，在segment.py中加入如下的代码：	</p>
<p>　　def splits( text, L = 20 ):</p>
<p>　　　　&#8221;"&#8221;Return a list of all possible ( first, rem ) pairs, len( first ) <=L"""</p>
<p>　　　　return [ ( text[:i+1], text[i+1:] ) for i in range( min(len(text), L ) ) ]</p>
<p>　　def Pwords( words ):</p>
<p>　　　　pass</p>
<p>　　splits函数的作用是返回所有可能的将字符串切分成首词和剩余字符串切分结果，Pwords稍后再论，暂且”pass”，我们利用python解释器来测试一下splits函数：<br />
　　nlp@52nlp:~/python/beautiful$ python</p>
<p>　　Python 2.6.2 (release26-maint, Apr 19 2009, 01:56:41) </p>
<p>　　[GCC 4.3.3] on linux2</p>
<p>　　Type "help", "copyright", "credits" or "license" for more information.</p>
<p>　　>>> import segment</p>
<p>　　>>> split = segment.splits( &#8220;12345&#8243; )</p>
<p>　　>>> print split</p>
<p>　　[('1', '2345'), ('12', '345'), ('123', '45'), ('1234', '5'), ('12345', '')]</p>
<p>　　>>> split = segment.splits( &#8220;wheninthecourse&#8221; )</p>
<p>　　>>> print split</p>
<p>　　[('w', 'heninthecourse'), ('wh', 'eninthecourse'), ('whe', 'ninthecourse'), ('when', 'inthecourse'), ('wheni', 'nthecourse'), ('whenin', 'thecourse'), ('whenint', 'hecourse'), ('wheninth', 'ecourse'), ('wheninthe', 'course'), ('wheninthec', 'ourse'), ('whenintheco', 'urse'), ('wheninthecou', 'rse'), ('wheninthecour', 'se'), ('wheninthecours', 'e'), ('wheninthecourse', '')]</p>
<p>　　当然，你也可以测试一下:<br />
　　>>> split = segment.splits<br />
( &#8220;wheninthecourseofhumaneventsitbecomesnecessary&#8221; )<br />
　　print之后的结果会比较长。</p>
<p>　　再来看Pwords函数，在segment.py中将其修改为：<br />
　　def Pwords( words ):</p>
<p>　　　　&#8221;"&#8221;The Naive Bayes probability of a sequence of words.&#8221;"&#8221;</p>
<p>　　　　return product( Pw(w) for w in words )</p>
<p>　　《Beautiful Data》中的标准解释是“The Naive Bayes probability of a sequence of words”，既“单词序列的朴素贝叶斯（Naive Bayes，简称NB）概率“，朴素贝叶斯概率的核心在于它假设向量的所有分量之间是独立的，这里的向量是单词序列，故假设的是所有单词之间是独立的，这也是我们利用一元语言模型的一个前提假设。回顾&#8217;wheninrome&#8217;这个分词例子，它有很多候选分词短语，譬如“when in rome”，利用一元语言模型，只需计算P(when) × P(in) × P(rome)。<br />
　　不过Pwords函数同样调用了两个辅助函数:product和Pw(w)，在segment.py中加入如下的代码：<br />
　　def product( nums ):</p>
<p>　　　　&#8221;"&#8221;Return the product of a sequence of numbers.&#8221;"&#8221;</p>
<p>　　　　return reduce( operator.mul, nums, 1 )</p>
<p>　　def Pw( word ):</p>
<p>　　　　pass</p>
<p>　　并且在segment.py的开始处加入：<br />
　　import operator</p>
<p>　　因为product函数调用了operator模块中的二元乘积mul函数：<br />
　　operator.mul(a, b)<br />
　　operator.__mul__(a, b)<br />
　　　　Return a * b, for a and b numbers.<br />
　　事实上operator.mul是被producet中的reduce函数调用的，reduce在python2.6中是内建函数（注意在python3.0中已不是，需要“from functools import reduce”）:<br />
　　reduce(func,seq[,init])：func 为二元函数，将func作用于seq序列的元素，每次携带一对（先前的结果以及下一个序列的元素），连续的将现有的结果和下一个值作用在获得的随后的结果 上，最后减少我们的序列为一个单一的返回值：如果初始值init给定，第一个比较会是init和第一个序列元素而不是序列的头两个元素。<br />
　　这里的func为operator.mul，最终reduce返回给product的结果是数字序列的乘积结果，可以在python的解释器中做如下验证：<br />
　　>>> reload( segment )<br />
　　<module 'segment' from 'segment.py'><br />
　　>>> segment.product( [1, 2, 3, 4, 5] )</p>
<p>　　120</p>
<p>未完待续&#8230;</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/beautiful-data-统计语言模型的应用三分词3">http://www.52nlp.cn/beautiful-data-统计语言模型的应用三分词3</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d2' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词2'>Beautiful Data-统计语言模型的应用三：分词2</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d1' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词1'>Beautiful Data-统计语言模型的应用三：分词1</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用二：背景'>Beautiful Data-统计语言模型的应用二：背景</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/crazy-word-beautiful-word-clouds' rel='bookmark' title='Permanent Link: 单词也疯狂——漂亮的“单词云”'>单词也疯狂——漂亮的“单词云”</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/getting-started-in-natural-language-processing' rel='bookmark' title='Permanent Link: 如何学习自然语言处理'>如何学习自然语言处理</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/FLXg_dQEGE8" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3</feedburner:origLink></item>
		<item>
		<title>感谢ExWebs，回归Host2ez</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/-RcALFXCkY4/%e6%84%9f%e8%b0%a2exwebs-%e5%9b%9e%e5%bd%92host2ez</link>
		<comments>http://www.52nlp.cn/%e6%84%9f%e8%b0%a2exwebs-%e5%9b%9e%e5%bd%92host2ez#comments</comments>
		<pubDate>Sat, 06 Mar 2010 16:38:35 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[wordpress]]></category>
		<category><![CDATA[随笔]]></category>
		<category><![CDATA[ExWebs]]></category>
		<category><![CDATA[host2ez]]></category>
		<category><![CDATA[mediawiki]]></category>
		<category><![CDATA[备份]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3117</guid>
		<description><![CDATA[　　晚上把“我爱自然语言处理”从ExWebs提供的免费空间上转移到Host2ez，加上前两天已经转移了“自然语言处理百科”，至此，从去年4月5日至今的11个月里，对于ExWebs所提供的免费空间，无论访问速度还是稳定性，我个人非常满意，这里表示感谢！
　　事实上，去年10月下旬ExWebs曾给我提供了又一年的免费使用机会，但是由于新的一期免费计划所在主机在国内，我最终选择了放弃。而之后，Host2ez悄然归来，当我1月份选择虚拟主机时，就决定回归Host2ez。而此前我已陆续将52nlp.org，52nlp.com以及博客镜像搬进了Host2ez的虚拟空间里，目前体验依然满意。
　　顺便记录一下wordpress以及mediawiki的搬家记录，其实很简单：
　　1.在旧的空间导出原有数据库；
　　2.在新的空间建一个新数据库，并导入原有数据库（注意，如果不换域名，直接导入即可，换域名的话里利用一些文本编辑工具替换域名后再导入）；
　　3.备份原wordpress或mediawiki文件夹，上传到新空间；
　　4.修改数据库信息即可。
　　总之，平时的备份很重要，尤其是数据库的备份。
注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/感谢exwebs-回归host2ez










相关文章:host2ez, 无奈的出局
WpMathEditor正式安家
赞一下host2ez
Wordpress中的公式编辑器插件
PhpMathPublisher与wpmathpub修改
WpMathEditor：我的第一个WordPress插件



相关文章:<ol><li><a href='http://www.52nlp.cn/host2ez-helpless-out' rel='bookmark' title='Permanent Link: host2ez, 无奈的出局'>host2ez, 无奈的出局</a></li>
<li><a href='http://www.52nlp.cn/wpmatheditor-have-an-official-home' rel='bookmark' title='Permanent Link: WpMathEditor正式安家'>WpMathEditor正式安家</a></li>
<li><a href='http://www.52nlp.cn/praise-host2ez' rel='bookmark' title='Permanent Link: 赞一下host2ez'>赞一下host2ez</a></li>
<li><a href='http://www.52nlp.cn/wordpress-equation-editor-plugin' rel='bookmark' title='Permanent Link: Wordpress中的公式编辑器插件'>Wordpress中的公式编辑器插件</a></li>
<li><a href='http://www.52nlp.cn/phpmathpublisher-and-wpmathpub-modified' rel='bookmark' title='Permanent Link: PhpMathPublisher与wpmathpub修改'>PhpMathPublisher与wpmathpub修改</a></li>
<li><a href='http://www.52nlp.cn/my-first-wordpress-plugin-wpmatheditor' rel='bookmark' title='Permanent Link: WpMathEditor：我的第一个WordPress插件'>WpMathEditor：我的第一个WordPress插件</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　晚上把“我爱自然语言处理”从<a href="http://www.exwebs.com/"target=_blank>ExWebs</a>提供的免费空间上转移到<a href="http://www.host2ez.com/"target=_blank>Host2ez</a>，加上前两天已经转移了“自然语言处理百科”，至此，从去年4月5日至今的11个月里，对于ExWebs所提供的免费空间，无论访问速度还是稳定性，我个人非常满意，这里表示感谢！<span id="more-3117"></span><br />
　　事实上，去年10月下旬ExWebs曾给我提供了又一年的免费使用机会，但是由于新的一期免费计划所在主机在国内，我最终选择了放弃。而之后，Host2ez悄然归来，当我1月份选择虚拟主机时，就决定回归Host2ez。而此前我已陆续将52nlp.org，52nlp.com以及博客镜像搬进了Host2ez的虚拟空间里，目前体验依然满意。<br />
　　顺便记录一下wordpress以及mediawiki的搬家记录，其实很简单：<br />
　　1.在旧的空间导出原有数据库；<br />
　　2.在新的空间建一个新数据库，并导入原有数据库（注意，如果不换域名，直接导入即可，换域名的话里利用一些文本编辑工具替换域名后再导入）；<br />
　　3.备份原wordpress或mediawiki文件夹，上传到新空间；<br />
　　4.修改数据库信息即可。<br />
　　总之，平时的备份很重要，尤其是数据库的备份。</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/感谢exwebs-回归host2ez">http://www.52nlp.cn/感谢exwebs-回归host2ez</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/host2ez-helpless-out' rel='bookmark' title='Permanent Link: host2ez, 无奈的出局'>host2ez, 无奈的出局</a></li>
<li><a href='http://www.52nlp.cn/wpmatheditor-have-an-official-home' rel='bookmark' title='Permanent Link: WpMathEditor正式安家'>WpMathEditor正式安家</a></li>
<li><a href='http://www.52nlp.cn/praise-host2ez' rel='bookmark' title='Permanent Link: 赞一下host2ez'>赞一下host2ez</a></li>
<li><a href='http://www.52nlp.cn/wordpress-equation-editor-plugin' rel='bookmark' title='Permanent Link: Wordpress中的公式编辑器插件'>Wordpress中的公式编辑器插件</a></li>
<li><a href='http://www.52nlp.cn/phpmathpublisher-and-wpmathpub-modified' rel='bookmark' title='Permanent Link: PhpMathPublisher与wpmathpub修改'>PhpMathPublisher与wpmathpub修改</a></li>
<li><a href='http://www.52nlp.cn/my-first-wordpress-plugin-wpmatheditor' rel='bookmark' title='Permanent Link: WpMathEditor：我的第一个WordPress插件'>WpMathEditor：我的第一个WordPress插件</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/-RcALFXCkY4" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e6%84%9f%e8%b0%a2exwebs-%e5%9b%9e%e5%bd%92host2ez/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e6%84%9f%e8%b0%a2exwebs-%e5%9b%9e%e5%bd%92host2ez</feedburner:origLink></item>
		<item>
		<title>砖石，还是露水</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/U-6ijAD7Bfc/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4</link>
		<comments>http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4#comments</comments>
		<pubDate>Sat, 06 Mar 2010 07:40:09 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[刘挺]]></category>
		<category><![CDATA[哈工大]]></category>
		<category><![CDATA[字标注]]></category>
		<category><![CDATA[输入法]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3105</guid>
		<description><![CDATA[　　本文转自哈工大信息检索研究室刘挺老师的博客，是关于创新的，举了两个例子：基于字标注的中文分词方法和搜狗输入法，感觉写得很有启发性，读者也可以对比一下《自然语言处理领域的两种创新观念》。刘老师是国内自然语言处理领域的重量级人物，他的博文估计很多都早已被读者熟悉，这里就不多说了。
　　　　　　　　　　　砖石，还是露水
　　　　　　　　　　　　作者：刘挺
　　我们一天忙到晚，自己耗费了很多精力不说，也消耗着国家的财力物力。我们除了培养了一批学生外，是否为学术进步或技术发展做出了点滴贡献，我们的工作成果是科学技术大厦里的梁柱、砖石，坚固而持久地发挥着作用，还是墙角的露水、楼顶的轻烟，转瞬间就蒸发消散了。
　　要想作出有价值的工作，是需要有一些清晰而坚定的理念支撑的，否则很容易匆匆忙忙地迷失在短期的压力里。我心中好的研究成果是什么样的呢？我想应该具备一下几个特征：
　　1、创新性：与以往的方法有本质的不同
　　2、高性能：解决了旧方法无法解决的问题，导致性能指标有显著性提高
　　3、简单：同行一听就能明白，并认同该方法在原理上的长处，纷纷感叹自己为什么没有想到
　　4、换代：新方法一出，业内大部分产品都纷纷抛弃旧方法，采用这种新方法
　　5、足够的影响面：能够抽象到一定高度，不局限于某个产品的细节
　　举两个例子：
　　1、算法：薛念文基于字标注的汉语分词方法
　　未登录词识别是最影响汉语分词精度的问题，它的影响超过分词歧义处理。以往的方法先用词表把已登录的词先识别出来，然后在“散串”中去找未登录词。这样做的缺陷在于两方面，一是“分词歧义”和“未登录词识别”这两个问题的参数权重估价标准无法统一，二是未登录词中有时候会包含已登录词，或者未登录词和已登录词的交界处有歧义。由于这些不足无法克服，汉语分词的精度一直徘徊不前，方法上没有实质性创新，大多是修修补补。
　　薛念文2002年提出了“基于字标注的汉语分词方法”，这种方法把以往用于短语识别的BIES标注方法（B-短语开头词，I-短语中间词，E-短语末尾词，S-单独成为短语的词）用到了分词上，对汉字进行标注（B-词中开头字，I-词中中间字，E-词中末尾字，S-单独成词的字），汉字得到标注，分词结果立现。对已登录词和未登录词中的字标注形式是一样的，这样就建立了统一的分词模型，而且不需要词表，只要有足够大的经过人工校对的分词语料即可。实验效果明显提高，凡是自然语言处理领域的人都知道BIES，一听就懂了，几年下来，多数商用的汉语分词系统都在采用基于字标注的方法了，分词是中文处理的基础问题，影响面足够大。
　　这种方法的创新路线是“移植”，它把分词问题从匹配切分问题转换为标注问题，把紧邻“短语识别”中的方法移植过来，取得了成功。
　　2、产品：搜狗拼音输入法
　　在搜狗拼音以前，拼音输入法已经有很多种，如智能ABC，微软拼音等。2000年前后昙花一现的“智能狂拼”用大规模语料提高音字转换的精度，但提高是有限的，并没有产生换代的效果。拼音输入法似乎已经做到了极致，尽管不能让人很满意，但似乎也就只能停留在这个水平上了。
　　2006年，搜狗拼音横空出世了，它利用网络收集广大输入法用户贡献的新词，什么“李宇春”、“张靓颖”，什么“蜗居”、“蚁族”，当你想输入时，早有网友贡献过该词，输入速度大幅度提升。拼音输入法最头疼的未登录词输入的准确性被大幅度提高了。　　
　　原理如此简单，效果如此明显，谷歌立即效仿，还惹上了侵权的麻烦，腾讯不甘落后，输入法在绝顶上又攀上了天梯，技术真的没有止境。搜狗由于率先创新，以先发优势横扫输入法市场，输入法是比较有粘性的产品，但也挡不住输入速度和体验大幅度提升的诱惑，在较短的时间内，搜狗输入法的市场占有率超过了70%。这是典型的由于技术创新带来的市场狂澜，好产品会说话。输入是计算机最基本的功能，搜狗通过输入法抢占客户端，影响颇大，为未来的产品拓展勾勒出广阔的空间。
　　有的研究者喜欢开创新领域，找出新方向，用20%的力气作出80%的效果，然后又去开拓别的方向，因为最后20%的路程要用80%的努力才能完成，费力不讨好。搜狗输入法的成功告诉我们，最后5-10%的技术门槛里照样孕育这无穷的商机，只要方法得当，密切观察环境的变化，原来在单机条件下的确做不动的技术，在网络环境下有可能获得突破性的进展。跨越式的发展，不能靠补丁落补丁的量变积累，要有更纯净的一揽子解决问题的革命性方案。
　　衷心期盼80后、90后的青年学者们，不满足于小的改良，不满足于使用机器学习领域最新研制的“秘密武器”，而是满怀颠覆式的技术梦想，抓住根本性问题，洞悉技术环境的变化，移植嫁接，化繁为简，做出让人眼前一亮、拍案叫绝的创新成果来。
注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/砖石-还是露水










相关文章:Beautiful Data-统计语言模型的应用一：缘起
自然语言处理与机器翻译FAQ
中文分词入门之文献
无约束最优化一
一些自然语言处理及计算语言学相关的课件
ACL09 Full Paper各研究领域的录用情况
LDC上免费的中文信息处理资源
基于字标注的中文分词方法
自然语言处理领域的两种创新观念
立委随笔：机器学习和自然语言处理



相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='Permanent Link: 自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/unconstrained-optimization-one' rel='bookmark' title='Permanent Link: 无约束最优化一'>无约束最优化一</a></li>
<li><a href='http://www.52nlp.cn/some-natural-language-processing-and-computational-linguistics-courses-material' rel='bookmark' title='Permanent Link: 一些自然语言处理及计算语言学相关的课件'>一些自然语言处理及计算语言学相关的课件</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/two-innovative-ideas-in-natural-language-processing-area' rel='bookmark' title='Permanent Link: 自然语言处理领域的两种创新观念'>自然语言处理领域的两种创新观念</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='Permanent Link: 立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　本文转自哈工大信息检索研究室刘挺老师的<a href="http://blog.sina.com.cn/s/blog_4cbec5e90100gztv.html"target=_blank>博客</a>，是关于创新的，举了两个例子：基于字标注的中文分词方法和搜狗输入法，感觉写得很有启发性，读者也可以对比一下《<a href="http://www.52nlp.cn/two-innovative-ideas-in-natural-language-processing-area"target=_blank>自然语言处理领域的两种创新观念</a>》。刘老师是国内自然语言处理领域的重量级人物，他的博文估计很多都早已被读者熟悉，这里就不多说了。<span id="more-3105"></span></p>
<p>　　　　　　　　　　　<strong>砖石，还是露水</strong><br />
　　　　　　　　　　　　作者：刘挺<br />
　　我们一天忙到晚，自己耗费了很多精力不说，也消耗着国家的财力物力。我们除了培养了一批学生外，是否为学术进步或技术发展做出了点滴贡献，我们的工作成果是科学技术大厦里的梁柱、砖石，坚固而持久地发挥着作用，还是墙角的露水、楼顶的轻烟，转瞬间就蒸发消散了。</p>
<p>　　要想作出有价值的工作，是需要有一些清晰而坚定的理念支撑的，否则很容易匆匆忙忙地迷失在短期的压力里。我心中好的研究成果是什么样的呢？我想应该具备一下几个特征：<br />
　　1、创新性：与以往的方法有本质的不同<br />
　　2、高性能：解决了旧方法无法解决的问题，导致性能指标有显著性提高<br />
　　3、简单：同行一听就能明白，并认同该方法在原理上的长处，纷纷感叹自己为什么没有想到<br />
　　4、换代：新方法一出，业内大部分产品都纷纷抛弃旧方法，采用这种新方法<br />
　　5、足够的影响面：能够抽象到一定高度，不局限于某个产品的细节</p>
<p>　　举两个例子：</p>
<p>　　1、算法：薛念文基于字标注的汉语分词方法<br />
　　未登录词识别是最影响汉语分词精度的问题，它的影响超过分词歧义处理。以往的方法先用词表把已登录的词先识别出来，然后在“散串”中去找未登录词。这样做的缺陷在于两方面，一是“分词歧义”和“未登录词识别”这两个问题的参数权重估价标准无法统一，二是未登录词中有时候会包含已登录词，或者未登录词和已登录词的交界处有歧义。由于这些不足无法克服，汉语分词的精度一直徘徊不前，方法上没有实质性创新，大多是修修补补。<br />
　　薛念文2002年提出了“基于字标注的汉语分词方法”，这种方法把以往用于短语识别的BIES标注方法（B-短语开头词，I-短语中间词，E-短语末尾词，S-单独成为短语的词）用到了分词上，对汉字进行标注（B-词中开头字，I-词中中间字，E-词中末尾字，S-单独成词的字），汉字得到标注，分词结果立现。对已登录词和未登录词中的字标注形式是一样的，这样就建立了统一的分词模型，而且不需要词表，只要有足够大的经过人工校对的分词语料即可。实验效果明显提高，凡是自然语言处理领域的人都知道BIES，一听就懂了，几年下来，多数商用的汉语分词系统都在采用基于字标注的方法了，分词是中文处理的基础问题，影响面足够大。<br />
　　这种方法的创新路线是“移植”，它把分词问题从匹配切分问题转换为标注问题，把紧邻“短语识别”中的方法移植过来，取得了成功。</p>
<p>　　2、产品：搜狗拼音输入法<br />
　　在搜狗拼音以前，拼音输入法已经有很多种，如智能ABC，微软拼音等。2000年前后昙花一现的“智能狂拼”用大规模语料提高音字转换的精度，但提高是有限的，并没有产生换代的效果。拼音输入法似乎已经做到了极致，尽管不能让人很满意，但似乎也就只能停留在这个水平上了。<br />
　　2006年，搜狗拼音横空出世了，它利用网络收集广大输入法用户贡献的新词，什么“李宇春”、“张靓颖”，什么“蜗居”、“蚁族”，当你想输入时，早有网友贡献过该词，输入速度大幅度提升。拼音输入法最头疼的未登录词输入的准确性被大幅度提高了。　　<br />
　　原理如此简单，效果如此明显，谷歌立即效仿，还惹上了侵权的麻烦，腾讯不甘落后，输入法在绝顶上又攀上了天梯，技术真的没有止境。搜狗由于率先创新，以先发优势横扫输入法市场，输入法是比较有粘性的产品，但也挡不住输入速度和体验大幅度提升的诱惑，在较短的时间内，搜狗输入法的市场占有率超过了70%。这是典型的由于技术创新带来的市场狂澜，好产品会说话。输入是计算机最基本的功能，搜狗通过输入法抢占客户端，影响颇大，为未来的产品拓展勾勒出广阔的空间。<br />
　　有的研究者喜欢开创新领域，找出新方向，用20%的力气作出80%的效果，然后又去开拓别的方向，因为最后20%的路程要用80%的努力才能完成，费力不讨好。搜狗输入法的成功告诉我们，最后5-10%的技术门槛里照样孕育这无穷的商机，只要方法得当，密切观察环境的变化，原来在单机条件下的确做不动的技术，在网络环境下有可能获得突破性的进展。跨越式的发展，不能靠补丁落补丁的量变积累，要有更纯净的一揽子解决问题的革命性方案。</p>
<p>　　衷心期盼80后、90后的青年学者们，不满足于小的改良，不满足于使用机器学习领域最新研制的“秘密武器”，而是满怀颠覆式的技术梦想，抓住根本性问题，洞悉技术环境的变化，移植嫁接，化繁为简，做出让人眼前一亮、拍案叫绝的创新成果来。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/砖石-还是露水">http://www.52nlp.cn/砖石-还是露水</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='Permanent Link: 自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/unconstrained-optimization-one' rel='bookmark' title='Permanent Link: 无约束最优化一'>无约束最优化一</a></li>
<li><a href='http://www.52nlp.cn/some-natural-language-processing-and-computational-linguistics-courses-material' rel='bookmark' title='Permanent Link: 一些自然语言处理及计算语言学相关的课件'>一些自然语言处理及计算语言学相关的课件</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/two-innovative-ideas-in-natural-language-processing-area' rel='bookmark' title='Permanent Link: 自然语言处理领域的两种创新观念'>自然语言处理领域的两种创新观念</a></li>
<li><a href='http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='Permanent Link: 立委随笔：机器学习和自然语言处理'>立委随笔：机器学习和自然语言处理</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/U-6ijAD7Bfc" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4</feedburner:origLink></item>
		<item>
		<title>Beautiful Data-统计语言模型的应用三：分词2</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/_r8BWcm5DMA/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d2</link>
		<comments>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d2#comments</comments>
		<pubDate>Tue, 02 Mar 2010 13:06:15 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文分词]]></category>
		<category><![CDATA[语言模型]]></category>
		<category><![CDATA[Beautiful Data]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Peter Norvig]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[统计语言模型]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3101</guid>
		<description><![CDATA[　　现在，我们就可以应用这个方法来进行分词了。首先定义一个函数：segment，其输入是一串没有空格的字符串，而输出则是一个单词列表，既最好的分词结果：
　　>>> segment(&#8216;choosespain&#8217;)
　　['choose', 'spain']
　　让我们从第一步概率语言模型开始。一个单词序列的概率是给定单词的上下文——在这里是前面的所有的单词——每一个单词概率之积。用数学公式可以如下表达：
　　P(W1:n) = Πk=1:nP(Wk &#124; W1:k–1)
　　我们没有足够的数据来准确计算这个概率，所以我们可以通过使用小一点的语料库来近似地计算这个概率（公式）。由于Google语言模型最大到5元(5-grams),所以我们可以使用5-grams来计算整个单词序列的概率，故一个n-word序列的概率等于给定前4个单词（并不是前面所有单词）每一个单词的概率之积。
　　关于5元语言模型，存在三个困难。首先，Google语言模型中5-gram数据大约有30G，一般机器的内存是无法加载的。其次，很多5元短语的计数为0，我们需要一些方法来回退（或者平滑），既使用较短的（短语）序列来估计这些计数为0的5元短语概率。第三，候选短语的搜索空间将会很大，因为其所依赖的单词数目达到4个。当然，只要想点办法，所有的这三个困难都是可以克服的。但是我们可以先简化一下这个问题，仅考虑一元(unigram)语言模型，这样就能立即解决这三个问题。利用一元语言模型，单词序列的概率就等于每一个单词自身（没有依赖）概率之积，而每一个单词概率与其他单词概率是独立的： 
　　 P(W1:n) = Πk=1:nP(Wk)
　　相应的，我们来看&#8217;wheninrome&#8217;这个分词例子，它有很多候选分词短语，譬如“when in rome”，利用一元语言模型，只需计算P(when) × P(in) × P(rome)。如果这个乘积结果比其他任何候选短语的乘积都高，那么“when in rome”就是最好的分词结果。
　　一个包含n个字符的字符串有2^(n-1)种不同的分词方案（在字符之间有n-1个位置，每一个位置既可以作为单词边界也可以不作为边界）。因此，对于字符串“ wheninthecourseofhumaneventsitbecomesnecessary”,有35万亿(trillion)种切分方法。但是可以肯定，你能够在几秒钟之内找到正确的分词形式，并且不需要枚举所有的候选分词短语。首先扫描“w”,然后是”wh”以及”whe”,并且拒绝这些不大可能的“单词”，但是接受“when”作为可能的“单词”。之后再扫描剩余的部分，与前面同理，依次找到可能的分词，并最终找到最佳的分词短语。一旦我们对问题做了简化，既每一个单词相互是独立的，那么也就意味着我们不需要考虑单词之间的所有组合。
　　这给了我们一个大致的分词函数轮廓：考虑将字符串切分成首词和剩余字符串所有分法（可以任意限定最长的单词长度，例如，L＝20字符）。对于每一种可能的分法，搜索剩余字符串最好的切分方法。对于所有的候选切分， P(first) × P(remaining) 乘积最高的那一个就是最佳分法。
未完待续&#8230;
注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/beautiful-data-统计语言模型的应用三分词2










相关文章:Beautiful Data-统计语言模型的应用三：分词3
Beautiful Data-统计语言模型的应用三：分词1
Beautiful Data-统计语言模型的应用一：缘起
Beautiful Data-统计语言模型的应用二：背景
中文分词入门之文献
中文分词入门之资源
MIT自然语言处理第三讲：概率语言模型（第五部分）
MIT自然语言处理第三讲：概率语言模型（第三部分）
MIT自然语言处理第三讲：概率语言模型（第二部分）
中文分词入门之最大匹配法



相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d1' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词1'>Beautiful Data-统计语言模型的应用三：分词1</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用二：背景'>Beautiful Data-统计语言模型的应用二：背景</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　现在，我们就可以应用这个方法来进行分词了。首先定义一个函数：segment，其输入是一串没有空格的字符串，而输出则是一个单词列表，既最好的分词结果：<span id="more-3101"></span></p>
<blockquote><p>　　>>> segment(&#8216;choosespain&#8217;)<br />
　　['choose', 'spain']</p></blockquote>
<p>　　让我们从第一步概率语言模型开始。一个单词序列的概率是给定单词的上下文——在这里是前面的所有的单词——每一个单词概率之积。用数学公式可以如下表达：</p>
<blockquote><p>　　P(W1:n) = Πk=1:nP(Wk | W1:k–1)</p></blockquote>
<p>　　我们没有足够的数据来准确计算这个概率，所以我们可以通过使用小一点的语料库来近似地计算这个概率（公式）。由于Google语言模型最大到5元(5-grams),所以我们可以使用5-grams来计算整个单词序列的概率，故一个n-word序列的概率等于给定前4个单词（并不是前面所有单词）每一个单词的概率之积。<br />
　　关于5元语言模型，存在三个困难。首先，Google语言模型中5-gram数据大约有30G，一般机器的内存是无法加载的。其次，很多5元短语的计数为0，我们需要一些方法来回退（或者平滑），既使用较短的（短语）序列来估计这些计数为0的5元短语概率。第三，候选短语的搜索空间将会很大，因为其所依赖的单词数目达到4个。当然，只要想点办法，所有的这三个困难都是可以克服的。但是我们可以先简化一下这个问题，仅考虑一元(unigram)语言模型，这样就能立即解决这三个问题。利用一元语言模型，单词序列的概率就等于每一个单词自身（没有依赖）概率之积，而每一个单词概率与其他单词概率是独立的： </p>
<blockquote><p>　　 P(W1:n) = Πk=1:nP(Wk)</p></blockquote>
<p>　　相应的，我们来看&#8217;wheninrome&#8217;这个分词例子，它有很多候选分词短语，譬如“when in rome”，利用一元语言模型，只需计算P(when) × P(in) × P(rome)。如果这个乘积结果比其他任何候选短语的乘积都高，那么“when in rome”就是最好的分词结果。<br />
　　一个包含n个字符的字符串有2^(n-1)种不同的分词方案（在字符之间有n-1个位置，每一个位置既可以作为单词边界也可以不作为边界）。因此，对于字符串“ wheninthecourseofhumaneventsitbecomesnecessary”,有35万亿(trillion)种切分方法。但是可以肯定，你能够在几秒钟之内找到正确的分词形式，并且不需要枚举所有的候选分词短语。首先扫描“w”,然后是”wh”以及”whe”,并且拒绝这些不大可能的“单词”，但是接受“when”作为可能的“单词”。之后再扫描剩余的部分，与前面同理，依次找到可能的分词，并最终找到最佳的分词短语。一旦我们对问题做了简化，既每一个单词相互是独立的，那么也就意味着我们不需要考虑单词之间的所有组合。<br />
　　这给了我们一个大致的分词函数轮廓：考虑将字符串切分成首词和剩余字符串所有分法（可以任意限定最长的单词长度，例如，L＝20字符）。对于每一种可能的分法，搜索剩余字符串最好的切分方法。对于所有的候选切分， P(first) × P(remaining) 乘积最高的那一个就是最佳分法。</p>
<p>未完待续&#8230;</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/beautiful-data-统计语言模型的应用三分词2">http://www.52nlp.cn/beautiful-data-统计语言模型的应用三分词2</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d1' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词1'>Beautiful Data-统计语言模型的应用三：分词1</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用二：背景'>Beautiful Data-统计语言模型的应用二：背景</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/_r8BWcm5DMA" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d2/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d2</feedburner:origLink></item>
		<item>
		<title>Beautiful Data-统计语言模型的应用三：分词1</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/GeHG0DtioPA/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d1</link>
		<comments>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d1#comments</comments>
		<pubDate>Fri, 26 Feb 2010 15:43:45 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文分词]]></category>
		<category><![CDATA[语言模型]]></category>
		<category><![CDATA[Beautiful Data]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Peter Norvig]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[统计语言模型]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3091</guid>
		<description><![CDATA[　　本节我们开始《Beautiful Data》中的“Word Segmentation”之旅，虽然Peter Norvig大牛从中文分词的需求讲起，但本节事实上讲得是英文分词，毕竟Google语言模型是以英文语料库为基础的，用中文分词举例Google语言模型就无用武之地了。一般说来，英文是不需要分词的，基本上tokenization就够了。但是某些时候，譬如英文网址（URLs)就没有空格，对于搜索引擎或者文字处理程序来说正确的分词就很重要了。不过，无论英文分词还是中文分词，利用统计语言模型来分词的思想本质是一样的。
　　首先来看一个例子，如“choosespain.com”，这是一个希望说服你“choose Spain”(选择西班牙）作为旅游目的地的网站。如果被分成“chooses pain”（选择痛苦），其结果可想而知。对于人类来说，凭借多年的经验，做出正确的分词应该没什么问题，但是对于计算机，将这些经验进行编码几乎是不可能的任务。不过还是有“捷径”可以走的：对于这两条候选的分词短语，在Google语言模型中的二元（bigram）表中进行查找，其中“choose Spain”出现了3,210次，而”chooses pain”则没有出现，这也就意味着”chooses pain”在Google的trillion-word语料库中出现的次数少于40次。因此，“choose Spain”至少有80倍的可能作为正确的分词结果。
　　再来看另一个例子，假设存在这样一个未分词的短语“insufficientnumbers”，如果我们不考虑Google语言模型里的单词的大小写问题，以下两种分法的计数结果是：
　　insufficient numbers 20751
　　in sufficient numbers 32378
　　虽然后者比前者多了大约50％，但是相对于Google语料库的规模，区别不是很明显，尽管我们可以猜测哪一个是正确的分词结果，却不能肯定这个猜测。对于不确定的问题，我们没有任何办法计算出一个百分百正确的答案，也没有一个完整的模型使得只有一个结果是正确的，事实上对于人类专家来说也是如此。不过，对于解决这类不确定的问题，还是有一套既定的方法：
　　1.定义一个概率模型。我们不能通过定义所有的要素（语义、语法、词汇等）来决定“choose Spain”是否是一个更好的候选分词结果，但是可以通过一个简化的模型给出一个近似的概率。对于较短的候选短语如“choose Spain”,可以通过在语料库数据中查找n-gram次数的方式来决定其概率。对于较长的候选短语，可以通过将其分解为较小短语的方式来得到相关的概率。至于未登录词，也可以通过一些方法估计其概率。这里的关键点就是定义一个语言模型(language model)——一个覆盖了大多数字符串的某种语言的概率分布——并且通过语料库数据学习相关的参数，然后利用该模型来决定每一个候选短语的概率。
　　2.枚举候选短语。我们不能确定”insufficient numbers”或者”in sufficient numbers”中哪一个是更可能的分词短语，但是我们可以将这两个均看作是候选短语，甚至““in suffi cient numb ers”也是候选。在这一步里，我们暂时不做判断，而是尽可能多的枚举各种可能的候选短语，或者仔细的挑选样本。
　　3.选择最可能的候选短语。对于每一个候选短语，利用语言模型计算其概率，然后选择获得最高概率的那一个短语作为最佳结果。
　　如果你喜欢数学公式，那么这个方法可以定义为：
　　　best = argmax c∈candidates P(c)
　　或者，如果你喜欢计算机编码（我们将使用Pythyon)，也可以如下描述：
　　　best = max(c in candidates, key=P)
未完待续：分词2
注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/beautiful-data-统计语言模型的应用三分词1










相关文章:Beautiful Data-统计语言模型的应用三：分词2
Beautiful Data-统计语言模型的应用三：分词3
Beautiful Data-统计语言模型的应用二：背景
Beautiful Data-统计语言模型的应用一：缘起
MIT自然语言处理第三讲：概率语言模型（第一部分）
MIT自然语言处理第三讲：概率语言模型（第二部分）
MIT自然语言处理第三讲：概率语言模型（第六部分）
中文分词入门之资源
单词也疯狂——漂亮的“单词云”
MIT自然语言处理第三讲：概率语言模型（第五部分）



相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d2' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词2'>Beautiful Data-统计语言模型的应用三：分词2</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用二：背景'>Beautiful Data-统计语言模型的应用二：背景</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-sixth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第六部分）'>MIT自然语言处理第三讲：概率语言模型（第六部分）</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/crazy-word-beautiful-word-clouds' rel='bookmark' title='Permanent Link: 单词也疯狂——漂亮的“单词云”'>单词也疯狂——漂亮的“单词云”</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　本节我们开始《Beautiful Data》中的“Word Segmentation”之旅，虽然Peter Norvig大牛从中文分词的需求讲起，但本节事实上讲得是英文分词，毕竟Google语言模型是以英文语料库为基础的，用中文分词举例Google语言模型就无用武之地了。一般说来，英文是不需要分词的，基本上tokenization就够了。但是某些时候，譬如英文网址（URLs)就没有空格，对于搜索引擎或者文字处理程序来说正确的分词就很重要了。不过，无论英文分词还是中文分词，利用统计语言模型来分词的思想本质是一样的。<span id="more-3091"></span><br />
　　首先来看一个例子，如“choosespain.com”，这是一个希望说服你“choose Spain”(选择西班牙）作为旅游目的地的网站。如果被分成“chooses pain”（选择痛苦），其结果可想而知。对于人类来说，凭借多年的经验，做出正确的分词应该没什么问题，但是对于计算机，将这些经验进行编码几乎是不可能的任务。不过还是有“捷径”可以走的：对于这两条候选的分词短语，在Google语言模型中的二元（bigram）表中进行查找，其中“choose Spain”出现了3,210次，而”chooses pain”则没有出现，这也就意味着”chooses pain”在Google的trillion-word语料库中出现的次数少于40次。因此，“choose Spain”至少有80倍的可能作为正确的分词结果。<br />
　　再来看另一个例子，假设存在这样一个未分词的短语“insufficientnumbers”，如果我们不考虑Google语言模型里的单词的大小写问题，以下两种分法的计数结果是：</p>
<blockquote><p>　　insufficient numbers 20751<br />
　　in sufficient numbers 32378</p></blockquote>
<p>　　虽然后者比前者多了大约50％，但是相对于Google语料库的规模，区别不是很明显，尽管我们可以猜测哪一个是正确的分词结果，却不能肯定这个猜测。对于不确定的问题，我们没有任何办法计算出一个百分百正确的答案，也没有一个完整的模型使得只有一个结果是正确的，事实上对于人类专家来说也是如此。不过，对于解决这类不确定的问题，还是有一套既定的方法：<br />
　　1.<strong>定义一个概率模型</strong>。我们不能通过定义所有的要素（语义、语法、词汇等）来决定“choose Spain”是否是一个更好的候选分词结果，但是可以通过一个简化的模型给出一个近似的概率。对于较短的候选短语如“choose Spain”,可以通过在语料库数据中查找n-gram次数的方式来决定其概率。对于较长的候选短语，可以通过将其分解为较小短语的方式来得到相关的概率。至于未登录词，也可以通过一些方法估计其概率。这里的关键点就是定义一个语言模型(language model)——一个覆盖了大多数字符串的某种语言的概率分布——并且通过语料库数据学习相关的参数，然后利用该模型来决定每一个候选短语的概率。<br />
　　2.<strong>枚举候选短语</strong>。我们不能确定”insufficient numbers”或者”in sufficient numbers”中哪一个是更可能的分词短语，但是我们可以将这两个均看作是候选短语，甚至““in suffi cient numb ers”也是候选。在这一步里，我们暂时不做判断，而是尽可能多的枚举各种可能的候选短语，或者仔细的挑选样本。<br />
　　3.<strong>选择最可能的候选短语</strong>。对于每一个候选短语，利用语言模型计算其概率，然后选择获得最高概率的那一个短语作为最佳结果。<br />
　　如果你喜欢数学公式，那么这个方法可以定义为：<br />
　　　best = argmax c∈candidates P(c)<br />
　　或者，如果你喜欢计算机编码（我们将使用Pythyon)，也可以如下描述：<br />
　　　best = max(c in candidates, key=P)</p>
<p>未完待续：<a href="http://www.52nlp.cn/beautiful-data-%E7%BB%9F%E8%AE%A1%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%BA%94%E7%94%A8%E4%B8%89%E5%88%86%E8%AF%8D2">分词2</a></p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/beautiful-data-统计语言模型的应用三分词1">http://www.52nlp.cn/beautiful-data-统计语言模型的应用三分词1</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d2' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词2'>Beautiful Data-统计语言模型的应用三：分词2</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用二：背景'>Beautiful Data-统计语言模型的应用二：背景</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-sixth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第六部分）'>MIT自然语言处理第三讲：概率语言模型（第六部分）</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/crazy-word-beautiful-word-clouds' rel='bookmark' title='Permanent Link: 单词也疯狂——漂亮的“单词云”'>单词也疯狂——漂亮的“单词云”</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/GeHG0DtioPA" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d1/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d1</feedburner:origLink></item>
		<item>
		<title>立委随笔：机器学习和自然语言处理</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/_leAUqlTM8k/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86</link>
		<comments>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86#comments</comments>
		<pubDate>Mon, 22 Feb 2010 16:35:05 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器学习]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[李维]]></category>
		<category><![CDATA[计算语言学]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3078</guid>
		<description><![CDATA[　　不小心撞上了科学网上李维老师的博客，读了他个人履历和几篇文章，只能用“敬佩”二字对李维老师表示敬意。作为年后开工的第一篇博文，本无转载计划的，但是这里还是选用李维老师的随笔《机器学习和自然语言处理》，这是一位计算语言学学者和自然语言处理实践者多年来的经验之谈，没有相当的积累，纸上是谈不来的。不过，更推荐有兴趣的读者读读《朝华午拾：在美国写基金申请的酸甜苦辣》，虽然很长，我还是一气呵成读完的，除了佩服李维老师的行文能力外，也能看到成功背后的付出和汗水是多么的巨大。
　　　　　　　　《立委随笔：机器学习和自然语言处理》
　　　　　　　　　　　　　　作者：李维
有脚客介绍人工智能（AI）现状 ( http://rl.rockiestech.com/node/636 )，认为由于机器学习（ML）技术的长足进步，人工智能正进入繁荣期，并且开始成功用于自然语言处理（NLP). 除了调子过分乐观了一些，这是个不错的介绍。下面的随笔是根据我自己的经验和体会而来。
AI, ML and NLP
NLP 中过分强调 AI 曾经是斜途，其实现在我认为也还是斜途, 我很久以前就有过这个看法，现在觉得并没过时：

机器翻译的另一极是建立在充分理解基础上, 毋须转换的自动翻译, 这是从实质上对人的翻译过程的模拟。这时候, 源语分析才是真正的自然语言理解, 机器翻译才真正属于人工智能。然而, 这里遇到两个难题: 一是知识处理问题; 二是所谓元语言问题。
考察人的翻译活动, 可以发现, 人是靠丰富的知识在理解的基础上从事翻译的。这些知识既包括语言知识, 也包括世界知识(常识、专业知识等)。如何组织这些包罗万象的百科全书一样的知识, 以便适应机器处理和运用的需要, 是人工智能所面临的根本性课题。
……
总之, 虽然机器翻译的最终出路在于人工智能的理论和技术的突破, 但在条件不成熟的时候过份强调机器翻译的人工智能性质, 一味追求基于知识和理解的自动翻译,对于应用型机器翻译系统的研制, 往往没有益处。
摘自【立委科普：机器翻译】: http://www.starlakeporch.net/bbs/read.php?45,18361
AI 里面调子最高的一派是 Doug Lenat，他的 cyc 项目进行了多年，获得了政府和许多 high profile sponsors 的多年资助，一直无法实用，尽管他自己10年前就宣扬已经接近应用前夜了。对于 Doug Lenat，我打心底钦佩，这种基于常识推理的 AI 需要苦功夫，是对人的智能（一个侧面）的逼真模拟。
多数学者对此不以为然，对这种 “纯粹AI” 不看好，大家大都转向以统计为基础的机器学习（ML）。基本上是把人的智能看成黑箱，不再试图从本质上模拟人脑的过程，包括逻辑推理，而是把每一个具体的智能活动定义为一个任务，一个从输入转换成所求的输出的任务，而这是可以客观度量的。只要机器能够训练成尽可能逼近所需的输出，人的智能就局部实现了。
ML 和 NLP
如今，NLP（包括机器翻译MT）也基本上已经被搞机器学习的人统治了，传统的规则方法只能打边鼓。他们也确实弄出一些名堂来，尤其是语音处理，分类(classification)，和知识习得(knowledge acquisition) 方面。
目前的情况是，有指导的学习（supervised learning） 比较成熟，但遭遇知识瓶颈，就是需要大数据量的 labeled data 的问题。如果问题单纯，features 选取容易，又有海量数据，学习的结果真地可以很接近人工水平。我们曾经做过一项研究（碰巧的是，IBM 也大体同时做了这项研究，不如我们深入，但大同小异，结果也类似），找到了一个很好的应用领域做大小写恢复工作（Case [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='Permanent Link: 最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='Permanent Link: MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='Permanent Link: 自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　不小心撞上了科学网上李维老师的<a href="http://www.sciencetimes.com.cn/u/liwei999/"target=_blank>博客</a>，读了他个人履历和几篇文章，只能用“敬佩”二字对李维老师表示敬意。作为年后开工的第一篇博文，本无转载计划的，但是这里还是选用李维老师的随笔《<a href="http://www.sciencetimes.com.cn/m/user_content.aspx?id=294037"target=_blank>机器学习和自然语言处理</a>》，这是一位计算语言学学者和自然语言处理实践者多年来的经验之谈，没有相当的积累，纸上是谈不来的。不过，更推荐有兴趣的读者读读《<a href="http://www.sciencetimes.com.cn/m/user_content.aspx?id=295797"target=_blank>朝华午拾：在美国写基金申请的酸甜苦辣</a>》，虽然很长，我还是一气呵成读完的，除了佩服李维老师的行文能力外，也能看到成功背后的付出和汗水是多么的巨大。<span id="more-3078"></span></p>
<p>　　　　　　　　<strong>《立委随笔：机器学习和自然语言处理》</strong><br />
　　　　　　　　　　　　　　作者：李维</p>
<p>有脚客介绍人工智能（AI）现状 ( http://rl.rockiestech.com/node/636 )，认为由于机器学习（ML）技术的长足进步，人工智能正进入繁荣期，并且开始成功用于自然语言处理（NLP). 除了调子过分乐观了一些，这是个不错的介绍。下面的随笔是根据我自己的经验和体会而来。</p>
<p>AI, ML and NLP</p>
<p>NLP 中过分强调 AI 曾经是斜途，其实现在我认为也还是斜途, 我很久以前就有过这个看法，现在觉得并没过时：</p>
<blockquote><p>
机器翻译的另一极是建立在充分理解基础上, 毋须转换的自动翻译, 这是从实质上对人的翻译过程的模拟。这时候, 源语分析才是真正的自然语言理解, 机器翻译才真正属于人工智能。然而, 这里遇到两个难题: 一是知识处理问题; 二是所谓元语言问题。</p>
<p>考察人的翻译活动, 可以发现, 人是靠丰富的知识在理解的基础上从事翻译的。这些知识既包括语言知识, 也包括世界知识(常识、专业知识等)。如何组织这些包罗万象的百科全书一样的知识, 以便适应机器处理和运用的需要, 是人工智能所面临的根本性课题。<br />
……</p>
<p>总之, 虽然机器翻译的最终出路在于人工智能的理论和技术的突破, 但在条件不成熟的时候过份强调机器翻译的人工智能性质, 一味追求基于知识和理解的自动翻译,对于应用型机器翻译系统的研制, 往往没有益处。<br />
摘自【立委科普：机器翻译】: http://www.starlakeporch.net/bbs/read.php?45,18361</p></blockquote>
<p>AI 里面调子最高的一派是 Doug Lenat，他的 cyc 项目进行了多年，获得了政府和许多 high profile sponsors 的多年资助，一直无法实用，尽管他自己10年前就宣扬已经接近应用前夜了。对于 Doug Lenat，我打心底钦佩，这种基于常识推理的 AI 需要苦功夫，是对人的智能（一个侧面）的逼真模拟。</p>
<p>多数学者对此不以为然，对这种 “纯粹AI” 不看好，大家大都转向以统计为基础的机器学习（ML）。基本上是把人的智能看成黑箱，不再试图从本质上模拟人脑的过程，包括逻辑推理，而是把每一个具体的智能活动定义为一个任务，一个从输入转换成所求的输出的任务，而这是可以客观度量的。只要机器能够训练成尽可能逼近所需的输出，人的智能就局部实现了。</p>
<p>ML 和 NLP</p>
<p>如今，NLP（包括机器翻译MT）也基本上已经被搞机器学习的人统治了，传统的规则方法只能打边鼓。他们也确实弄出一些名堂来，尤其是语音处理，分类(classification)，和知识习得(knowledge acquisition) 方面。</p>
<p>目前的情况是，有指导的学习（supervised learning） 比较成熟，但遭遇知识瓶颈，就是需要大数据量的 labeled data 的问题。如果问题单纯，features 选取容易，又有海量数据，学习的结果真地可以很接近人工水平。我们曾经做过一项研究（碰巧的是，IBM 也大体同时做了这项研究，不如我们深入，但大同小异，结果也类似），找到了一个很好的应用领域做大小写恢复工作（Case Restoration），效果奇好。过去很多档案文字的电子版本是全大写的，网络上现在还有很多文件也是不分大小写的（譬如很多语音识别出来的材料，标题，还有论坛和电子邮件的非正式文字，等等），这就给自然语言处理和信息抽取造成困难，因为多数语言处理系统 assume 的 input 是正常大小写夹杂的文字，一旦输入文件没有大小写的区别，一切就乱套了。连最基础的词类区分（POS: Part-of-Speech tagging）和专名识别（NE: named entity tagging）都寸步难行（因为最重要的一个识别专名边界的clue就是大写）。为了解决这个问题，以前的研究者就设计两套系统，比如BBN就把大小写的features统统弃置重新训练一套NE系统来对付没有大小写的input, 除了 overhead, 系统性能也下降很多。我们想，如果我们先把大小写恢复，然后再做 NLP 不就成了。这个恢复大小写的任务相对比较单纯，训练文本几乎是无限的，因为网上文字大多是区分大小写的。我们利用这些现成的 &#8220;labeled&#8221; data, 用最简单的HMM算法，学出了一个高效能的系统，解决了这个问题，结果超出预料地好。（Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004.）</p>
<p>不过，这样讨巧的事并不多 (一个类似可以讨巧的是某些classification的任务：比如想训练一个给评语分类的系统，就可以上网找到很多客户回馈的记录，这些记录除了文字外，常常还有星号标识，以1个星号表示很差，5星表示很好)。多数任务会遇到 lebeling data 的瓶颈。统计界的共识之一就是，data, data and data. 很多时候，算法的优劣是其次的，主要还是要足够多的 data 和合适的 feature design.  数据量大了，学习的效果自然就好了。所以，labeled data 是 supervised learning 的真正知识瓶颈。我就见过这样的系统，本来是指望随时重新训练以适应新情况的，结果 data 跟不上，成了一个只训练一次的死系统，任何后续的改进都不是经过增加数据重新训练，而是在系统外部打各种补丁。机器学习的优势就失去了。</p>
<p>无须指导的学习（Unsupervised learning） 因此引起学者的兴趣，成为热点，因为所需的训练材料无须标注。在网络世界，有的是 raw data. 对某个对象进行 clustering 就可以用 unsupervised leaning, 出了很多有意思的结果。Clustering 有别于 classification, 前者没有预定一个目标，而是根据features，只要长得象的就归在一起，后者是有预定的 tag set 作为分类的目标。只要设计者心中有个大致的目标，features 选取得当，可以控制 clustering 的结果的粗细，然后去现实世界或使用者中印证clustering的合理性和含义。反正是 unsupervised learning, 不妨多来几次，选取最好的结果作为方向，这样就可以把 clustering 转化成具有广泛应用的 classification. （在人类智能活动中，分类是最常用的技能，也是应用最广泛，相对单纯，比较易于机器学习和模拟成功的任务。大千世界，林林总总，为了把握它，人类第一个要做的就是分类。分类以后，才好缩小范围，集中到某个子领域，钻进去仔细分析。）</p>
<p>正如自如所述，目前很多研究者对所谓 weakly supervised learning 情有独衷，觉得这是一个具有突破性的研究方向。传统的 supervised learning 有知识瓶颈而为人诟病，完全没有指导的学习效率不高，因此尝试利用有限 labeled data 作为种子（seeds）, 怎样引导学习程序一步一步向指定方向去，这是一个充满魅力的路子。这方面的成果令人鼓舞，但总体还在探索阶段，只有少部分课题已经接近临床实用，譬如分类和词典习得（lexicon acqusition）.</p>
<p>机器学习的缺点和局限等有时间再接着谈。先说一点，任务一复杂，ML 就麻烦。遇到复杂的难以分解的任务，基本是没戏，譬如 自然语言的深度结构分析（deep parsing）。而任务相对单纯的浅层分析（shallow parsing），ML 的效果就很好，可以媲美人工系统。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/立委随笔-机器学习和自然语言处理">http://www.52nlp.cn/立委随笔-机器学习和自然语言处理</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='Permanent Link: ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/acl-ijcnlp-2009-running-two' rel='bookmark' title='Permanent Link: ACL-IJCNLP 2009会议进行时二'>ACL-IJCNLP 2009会议进行时二</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='Permanent Link: 最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='Permanent Link: MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='Permanent Link: 自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/_leAUqlTM8k" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86</feedburner:origLink></item>
		<item>
		<title>祝福大家虎年吉祥如意</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/pTMeMtQES0Q/%e7%a5%9d%e7%a6%8f%e5%a4%a7%e5%ae%b6%e8%99%8e%e5%b9%b4%e5%90%89%e7%a5%a5%e5%a6%82%e6%84%8f</link>
		<comments>http://www.52nlp.cn/%e7%a5%9d%e7%a6%8f%e5%a4%a7%e5%ae%b6%e8%99%8e%e5%b9%b4%e5%90%89%e7%a5%a5%e5%a6%82%e6%84%8f#comments</comments>
		<pubDate>Thu, 11 Feb 2010 15:45:48 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[随笔]]></category>
		<category><![CDATA[52nlp]]></category>
		<category><![CDATA[msra]]></category>
		<category><![CDATA[周明]]></category>
		<category><![CDATA[微软对联]]></category>
		<category><![CDATA[统计机器翻译]]></category>
		<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3069</guid>
		<description><![CDATA[　　回家过年，博客暂停更新！
　　提前祝大家虎年吉祥如意，家人平安幸福！
　　以下是利用微软对联为52nlp生成的虎年春联，上联选“自然语言处理”，下联是挑来组去自动生成的：
　　　　　　　
　　关于新版本的微软对联，可以看看周明老师的《微软新对联·欢乐庆春节》，主要做了如下的改进：
　　1．对联搜索。可以通过关键字搜索古今中外名联。
　　2．更加强大的对对联引擎。可以对多达15字的对联。而且对联速度和质量也进一步提升。
　　3．作品发表。可以把您的对联作品发布出来，供其它网友欣赏和评价。
　　4．免费短信分享。可以用短信把您的对联作品分发给您的好友。
　　不过我感觉核心的对联引擎没有多大改变，但无论如何，微软对联是一个非常有创意的产品，尤其能与统计机器翻译联系起来，实在太佩服MSRA的创新能力了！
注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/祝福大家虎年吉祥如意










相关文章:机器翻译与微软对联
“我爱自然语言处理”PageRank更新为3
“知行合一”与自然语言处理
“我爱自然语言处理”PageRank再次更新
“我爱自然语言处理”半岁
“我爱自然语言处理”PageRank首次更新
“我爱自然语言处理”日访问量过百
“我爱自然语言处理”阶段性总结
“我爱自然语言处理”一周岁
推荐刘群老师的《计算所与北大往事回顾》



相关文章:<ol><li><a href='http://www.52nlp.cn/machine-translation-and-microsoft-couplet' rel='bookmark' title='Permanent Link: 机器翻译与微软对联'>机器翻译与微软对联</a></li>
<li><a href='http://www.52nlp.cn/52nlp-pagerank-update-three' rel='bookmark' title='Permanent Link: “我爱自然语言处理”PageRank更新为3'>“我爱自然语言处理”PageRank更新为3</a></li>
<li><a href='http://www.52nlp.cn/the-knowledge-and-action-in-natural-language-processing' rel='bookmark' title='Permanent Link: “知行合一”与自然语言处理'>“知行合一”与自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/52nlp-pagerank-update-second' rel='bookmark' title='Permanent Link: “我爱自然语言处理”PageRank再次更新'>“我爱自然语言处理”PageRank再次更新</a></li>
<li><a href='http://www.52nlp.cn/52nlp-half-year' rel='bookmark' title='Permanent Link: “我爱自然语言处理”半岁'>“我爱自然语言处理”半岁</a></li>
<li><a href='http://www.52nlp.cn/52nlp-pagerank-update-first' rel='bookmark' title='Permanent Link: “我爱自然语言处理”PageRank首次更新'>“我爱自然语言处理”PageRank首次更新</a></li>
<li><a href='http://www.52nlp.cn/52nlp-day-visit-more-than-one-hundred' rel='bookmark' title='Permanent Link: “我爱自然语言处理”日访问量过百'>“我爱自然语言处理”日访问量过百</a></li>
<li><a href='http://www.52nlp.cn/i-love-natural-language-processing-stage-summary' rel='bookmark' title='Permanent Link: “我爱自然语言处理”阶段性总结'>“我爱自然语言处理”阶段性总结</a></li>
<li><a href='http://www.52nlp.cn/%e6%88%91%e7%88%b1%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e4%b8%80%e5%91%a8%e5%b2%81' rel='bookmark' title='Permanent Link: “我爱自然语言处理”一周岁'>“我爱自然语言处理”一周岁</a></li>
<li><a href='http://www.52nlp.cn/liu-qun-article-recommended' rel='bookmark' title='Permanent Link: 推荐刘群老师的《计算所与北大往事回顾》'>推荐刘群老师的《计算所与北大往事回顾》</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　回家过年，博客暂停更新！<br />
　　提前祝大家虎年吉祥如意，家人平安幸福！<br />
　　以下是利用微软对联为52nlp生成的虎年春联，上联选“自然语言处理”，下联是挑来组去自动生成的：<span id="more-3069"></span></p>
<p>　　　　　　　<img src="http://www.52nlp.cn/images/Couplet_2010.jpg" alt="微软对联之“自然语言处理”" /></p>
<p>　　关于新版本的微软对联，可以看看周明老师的《<a href="http://blog.sina.com.cn/s/blog_4caedc7a0100hr2d.html?tj=1"target=_blank>微软新对联·欢乐庆春节</a>》，主要做了如下的改进：<br />
　　1．对联搜索。可以通过关键字搜索古今中外名联。<br />
　　2．更加强大的对对联引擎。可以对多达15字的对联。而且对联速度和质量也进一步提升。<br />
　　3．作品发表。可以把您的对联作品发布出来，供其它网友欣赏和评价。<br />
　　4．免费短信分享。可以用短信把您的对联作品分发给您的好友。<br />
　　不过我感觉核心的对联引擎没有多大改变，但无论如何，微软对联是一个非常有创意的产品，尤其能与统计机器翻译联系起来，实在太佩服MSRA的创新能力了！</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/祝福大家虎年吉祥如意">http://www.52nlp.cn/祝福大家虎年吉祥如意</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/machine-translation-and-microsoft-couplet' rel='bookmark' title='Permanent Link: 机器翻译与微软对联'>机器翻译与微软对联</a></li>
<li><a href='http://www.52nlp.cn/52nlp-pagerank-update-three' rel='bookmark' title='Permanent Link: “我爱自然语言处理”PageRank更新为3'>“我爱自然语言处理”PageRank更新为3</a></li>
<li><a href='http://www.52nlp.cn/the-knowledge-and-action-in-natural-language-processing' rel='bookmark' title='Permanent Link: “知行合一”与自然语言处理'>“知行合一”与自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/52nlp-pagerank-update-second' rel='bookmark' title='Permanent Link: “我爱自然语言处理”PageRank再次更新'>“我爱自然语言处理”PageRank再次更新</a></li>
<li><a href='http://www.52nlp.cn/52nlp-half-year' rel='bookmark' title='Permanent Link: “我爱自然语言处理”半岁'>“我爱自然语言处理”半岁</a></li>
<li><a href='http://www.52nlp.cn/52nlp-pagerank-update-first' rel='bookmark' title='Permanent Link: “我爱自然语言处理”PageRank首次更新'>“我爱自然语言处理”PageRank首次更新</a></li>
<li><a href='http://www.52nlp.cn/52nlp-day-visit-more-than-one-hundred' rel='bookmark' title='Permanent Link: “我爱自然语言处理”日访问量过百'>“我爱自然语言处理”日访问量过百</a></li>
<li><a href='http://www.52nlp.cn/i-love-natural-language-processing-stage-summary' rel='bookmark' title='Permanent Link: “我爱自然语言处理”阶段性总结'>“我爱自然语言处理”阶段性总结</a></li>
<li><a href='http://www.52nlp.cn/%e6%88%91%e7%88%b1%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e4%b8%80%e5%91%a8%e5%b2%81' rel='bookmark' title='Permanent Link: “我爱自然语言处理”一周岁'>“我爱自然语言处理”一周岁</a></li>
<li><a href='http://www.52nlp.cn/liu-qun-article-recommended' rel='bookmark' title='Permanent Link: 推荐刘群老师的《计算所与北大往事回顾》'>推荐刘群老师的《计算所与北大往事回顾》</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/pTMeMtQES0Q" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%a5%9d%e7%a6%8f%e5%a4%a7%e5%ae%b6%e8%99%8e%e5%b9%b4%e5%90%89%e7%a5%a5%e5%a6%82%e6%84%8f/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e7%a5%9d%e7%a6%8f%e5%a4%a7%e5%ae%b6%e8%99%8e%e5%b9%b4%e5%90%89%e7%a5%a5%e5%a6%82%e6%84%8f</feedburner:origLink></item>
		<item>
		<title>机器翻译：多一点宽容</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/eUOgF0t006s/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%a4%9a%e4%b8%80%e7%82%b9%e5%ae%bd%e5%ae%b9</link>
		<comments>http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%a4%9a%e4%b8%80%e7%82%b9%e5%ae%bd%e5%ae%b9#comments</comments>
		<pubDate>Wed, 10 Feb 2010 11:05:14 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[随笔]]></category>
		<category><![CDATA[CSDN]]></category>
		<category><![CDATA[Franz Och]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[手机翻译]]></category>
		<category><![CDATA[统计机器翻译]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3065</guid>
		<description><![CDATA[　　这两天“我爱自然语言处理”的一些访问来源于CSDN的推介，于是查了一下，发现与CSDN的一则新闻有关：《Google研发手机翻译软件 人类有望无需学外语》，里面除了原始新闻的简单摘译外，附加了Franz Och的介绍——引用了《统计机器翻译英雄谱一：Franz Josef Och》中的部分内容。
　　“东芝开发智能手机翻译软件”刚过去不久，这次又轮到Google，看来移动终端的争夺是大势所趋，估计过不了多久微软也会抛出一个基于Windows CE开发的手机翻译软件。不过无论这些大企业如何宣传，我对机器翻译尤其是统计机器翻译的态度依然是：完全智能化的翻译是远大目标，是人工智能的终极体现，但目前机器翻译还不能取代人，只能辅助人。
　　Google在线翻译是统计机器翻译的一个典型应用，其翻译质量在目前的机器翻译中的算是比较不错的了，但即使如此，如果指望Google翻译来完成翻译工作，除非完全不懂那门外语，否则肯定是脑子锈透了。多数人用Google翻译主要是协助自己工作，机助人译大概是目前机器翻译所能发挥的最大作用了，所以虽然常常见到有些人拿“古诗词”来考验Google，甚至一句话在Google翻译中跑一圈，然后再拿结果来嘲笑“Google翻译”，但是嘲笑归嘲笑，我估计他们过后还是依然用Google。
　　回头再来看这则新闻，事实上英文原始新闻的题目是《Google leaps language barrier with translator phone》，也许CSDN的编辑为了吸引眼球，就加了后半句“人类有望无需学外语”，不过与英文原文对比起来，CSDN的这则新闻实在有些简化，因此所表达的意思估计重点就成了“人类有望无需学外语”，所以评论多以批评、嘲讽为主。读了一下英文原文，发现Franz Och主要强调的是以下几点：
　　1）“We think speech-to-speech translation should be possible and work reasonably well in a few years’ time”
　　2) Clearly, for it to work smoothly, you need a combination of high-accuracy machine translation and high-accuracy voice recognition, and that’s what we’re working on.
　　3) Although automatic text [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/online-translation-survey-and-analysis' rel='bookmark' title='Permanent Link: Google、网易、百度在线翻译调查及分析'>Google、网易、百度在线翻译调查及分析</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-speech-recognition-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:统计机器翻译与语音识别'>SMT经典再回首之Brown90:统计机器翻译与语音识别</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-language-weaver' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼七：Language Weaver'>自然语言处理公司巡礼七：Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-tutorial-reading' rel='bookmark' title='Permanent Link: 统计机器翻译文献阅读指南'>统计机器翻译文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/machine-translation-and-microsoft-couplet' rel='bookmark' title='Permanent Link: 机器翻译与微软对联'>机器翻译与微软对联</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='Permanent Link: 统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/cwmt2009-follow-up' rel='bookmark' title='Permanent Link: 第五届全国机器翻译研讨会后续'>第五届全国机器翻译研讨会后续</a></li>
<li><a href='http://www.52nlp.cn/the-knowledge-and-action-in-natural-language-processing' rel='bookmark' title='Permanent Link: “知行合一”与自然语言处理'>“知行合一”与自然语言处理</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　这两天“我爱自然语言处理”的一些访问来源于CSDN的推介，于是查了一下，发现与CSDN的一则新闻有关：《<a href="http://news.csdn.net/a/20100209/216955.html"target=_blank>Google研发手机翻译软件 人类有望无需学外语</a>》，里面除了原始新闻的简单摘译外，附加了Franz Och的介绍——引用了《<a href="http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och"target=_blank>统计机器翻译英雄谱一：Franz Josef Och</a>》中的部分内容。<span id="more-3065"></span><br />
　　“东芝开发智能手机翻译软件”刚过去不久，这次又轮到Google，看来移动终端的争夺是大势所趋，估计过不了多久微软也会抛出一个基于Windows CE开发的手机翻译软件。不过无论这些大企业如何宣传，我对机器翻译尤其是统计机器翻译的态度依然是：完全智能化的翻译是远大目标，是人工智能的终极体现，但目前机器翻译还不能取代人，只能辅助人。<br />
　　Google在线翻译是统计机器翻译的一个典型应用，其翻译质量在目前的机器翻译中的算是比较不错的了，但即使如此，如果指望Google翻译来完成翻译工作，除非完全不懂那门外语，否则肯定是脑子锈透了。多数人用Google翻译主要是协助自己工作，机助人译大概是目前机器翻译所能发挥的最大作用了，所以虽然常常见到有些人拿“古诗词”来考验Google，甚至一句话在Google翻译中跑一圈，然后再拿结果来嘲笑“Google翻译”，但是嘲笑归嘲笑，我估计他们过后还是依然用Google。<br />
　　回头再来看这则新闻，事实上英文原始新闻的题目是《<a href="http://technology.timesonline.co.uk/tol/news/tech_and_web/personal_tech/article7017831.ece"target=_blank>Google leaps language barrier with translator phone</a>》，也许CSDN的编辑为了吸引眼球，就加了后半句“人类有望无需学外语”，不过与英文原文对比起来，CSDN的这则新闻实在有些简化，因此所表达的意思估计重点就成了“人类有望无需学外语”，所以评论多以批评、嘲讽为主。读了一下英文原文，发现Franz Och主要强调的是以下几点：<br />
　　1）“We think speech-to-speech translation should be possible and work reasonably well in a few years’ time”<br />
　　2) Clearly, for it to work smoothly, you need a combination of high-accuracy machine translation and high-accuracy voice recognition, and that’s what we’re working on.<br />
　　3) Although automatic text translators are now reasonably effective, voice recognition has proved more challenging.<br />
　　Franz Och主要表达了未来几年手机上语音到语音自动翻译的可能性，并强调了目前文本机器翻译reasonably effective，而挑战再于语音识别。我觉得“reasonably effective”是值得推敲的，目前统计机器翻译在一些受限领域的翻译是可以达到“reasonably effective”的。另外，虽然Google翻译目前对于汉语和英语的翻译结果不是很理想，但是在那些区别相对较小的语言对里，如英语和法语，统计机器翻译的效果也许要好一些，有可能“reasonably effective”。恰好，我看到了英文原文的一条评论：</p>
<blockquote><p>Google Translate between English, French, German, Spanish is absolutely amazingly good. Anyone criticizing it has not tried it recently. The reason why those translations are now very good is because Google has enormous amounts of professionally translated texts from the European Union and the United Nations, where by just adding more and more examples to Google&#8217;s database, the translations become better and better.</p>
<p>Also, Google can use their search technology to analyse the probable context of every bit of translation. Thus increasing the probable quality.<br />
…</p></blockquote>
<p>　　虽然那里面的评论不乏一些批评，但是这些批评往往不是无端指责和嘲讽，更多的时候有理有据，甚至写得很长。这条评论很长，对“reasonably effective”最有利的佐证就是“Google Translate between English, French, German, Spanish is absolutely amazingly good.”。我曾经利用Moses及欧洲议会平行语料库搭建过法英统计机器翻译平台，虽然不懂法语，但是试着翻译一些法语句子，印象深刻的就是翻译的英文句子可读性比较好。而对于Google来说，其平行数据的规模及处理能力非常人能及，所以Franz Och说Google 翻译“reasonably effective”还是有一定依据的。<br />
　　机器翻译的“巴别塔(Tower of Babel)”不是一朝一夕建成的，对于Franz Och及Google翻译，求全责备不太应该，我们不能指望“这个软件如果研发成功，将有望改变全球说各种不同语言（据估计目前世界在使用的语言有6000 多种）的人之间的沟通方式，人们也不再需要为了与人口头交流而去学习外语”，只是希望在机器翻译这条路上，Franz Och及Google能带给我们更多的惊喜和技术体验；而对于CSDN这则机器翻译新闻，大可以一笑了之。</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/机器翻译多一点宽容">http://www.52nlp.cn/机器翻译多一点宽容</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/online-translation-survey-and-analysis' rel='bookmark' title='Permanent Link: Google、网易、百度在线翻译调查及分析'>Google、网易、百度在线翻译调查及分析</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-speech-recognition-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:统计机器翻译与语音识别'>SMT经典再回首之Brown90:统计机器翻译与语音识别</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-language-weaver' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼七：Language Weaver'>自然语言处理公司巡礼七：Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-tutorial-reading' rel='bookmark' title='Permanent Link: 统计机器翻译文献阅读指南'>统计机器翻译文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/machine-translation-and-microsoft-couplet' rel='bookmark' title='Permanent Link: 机器翻译与微软对联'>机器翻译与微软对联</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='Permanent Link: 统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/cwmt2009-follow-up' rel='bookmark' title='Permanent Link: 第五届全国机器翻译研讨会后续'>第五届全国机器翻译研讨会后续</a></li>
<li><a href='http://www.52nlp.cn/the-knowledge-and-action-in-natural-language-processing' rel='bookmark' title='Permanent Link: “知行合一”与自然语言处理'>“知行合一”与自然语言处理</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/eUOgF0t006s" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%a4%9a%e4%b8%80%e7%82%b9%e5%ae%bd%e5%ae%b9/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%a4%9a%e4%b8%80%e7%82%b9%e5%ae%bd%e5%ae%b9</feedburner:origLink></item>
		<item>
		<title>Beautiful Data-统计语言模型的应用二：背景</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/wn28iie3nw8/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af</link>
		<comments>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af#comments</comments>
		<pubDate>Tue, 09 Feb 2010 11:30:51 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[语言模型]]></category>
		<category><![CDATA[Beautiful Data]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Google Web 1t 5-gram]]></category>
		<category><![CDATA[LDC]]></category>
		<category><![CDATA[Peter Norvig]]></category>
		<category><![CDATA[Zipf’s Law]]></category>
		<category><![CDATA[水木社区]]></category>
		<category><![CDATA[统计语言模型]]></category>
		<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3045</guid>
		<description><![CDATA[　　本节我们进入《Beautiful Data》的正题，将沿着其第14章Peter Norvig大牛的“Natural Language Corpus Data”的轨迹介绍统计语言模型的三个应用：分词、解码及拼写检查。不过《Beautiful Data》中这三个应用依赖着Google的海量语言模型，所以Peter Norvig研究员首先介绍的也是Google语言模型的一些基本情况和背景。
　　虽然Google声称“All Our N-gram are Belong to You”，但是这个语言模型最终是通过语言数据联盟LDC (Linguistic Data Consortium)提供给用户的，因此如果使用，仍需要一些费用。在LDC的“Web 1T 5-gram Version 1”这个页面上，大家可以找到Google语言模型的基本信息，包括简介、来源、规模、编码及费用等情况：
This data set, contributed by Google Inc., contains English word n-grams and their observed frequency counts. The length of the n-grams ranges from unigrams (single words) to five-grams. We expect this data will be useful [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d2' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词2'>Beautiful Data-统计语言模型的应用三：分词2</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d1' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词1'>Beautiful Data-统计语言模型的应用三：分词1</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/language-modeling-toolkit-irstlm-installation-and-trial-noting' rel='bookmark' title='Permanent Link: 语言模型工具IRSTLM安装及试用手记'>语言模型工具IRSTLM安装及试用手记</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%a4%9a%e4%b8%80%e7%82%b9%e5%ae%bd%e5%ae%b9' rel='bookmark' title='Permanent Link: 机器翻译：多一点宽容'>机器翻译：多一点宽容</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/crazy-word-beautiful-word-clouds' rel='bookmark' title='Permanent Link: 单词也疯狂——漂亮的“单词云”'>单词也疯狂——漂亮的“单词云”</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　本节我们进入《<a href="http://www.xun6.com/file/cc9883d12/Beautiful+Data.pdf.html"target=_blank>Beautiful Data</a>》的正题，将沿着其第14章Peter Norvig大牛的“Natural Language Corpus Data”的轨迹介绍统计语言模型的三个应用：分词、解码及拼写检查。不过《Beautiful Data》中这三个应用依赖着Google的海量语言模型，所以Peter Norvig研究员首先介绍的也是Google语言模型的一些基本情况和背景。<span id="more-3045"></span><br />
　　虽然Google声称“All Our N-gram are Belong to You”，但是这个语言模型最终是通过语言数据联盟LDC (Linguistic Data Consortium)提供给用户的，因此如果使用，仍需要一些费用。在LDC的“<a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13"target=_blank>Web 1T 5-gram Version 1</a>”这个页面上，大家可以找到Google语言模型的基本信息，包括简介、来源、规模、编码及费用等情况：</p>
<blockquote><p>This data set, contributed by Google Inc., contains English word n-grams and their observed frequency counts. The length of the n-grams ranges from unigrams (single words) to five-grams. We expect this data will be useful for statistical language modeling, e.g., for machine translation or speech recognition, as well as for other uses.</p></blockquote>
<p>　　之所以说1T，应该是压缩的24G Google语言模型解压之后的大小，这样大的语言资源对多数人来说收藏的意义远大于使用，毕竟对于绝大多数个人电脑甚至是很多服务器来说，内存这一关都无法过去。其实去年8月份的时候水木社区自然语言处理版有好心人通过Emule共享过“Google Web 1t 5-gram”，如果读者对此语言模型很有兴趣，可以去找找，不知现在是否还能下载。<br />
　　关于Google语言模型（语料库）的一些细节：<br />
　　1）包括1万亿的“词例”及1千3百万的“词型”（a trillion tokens and 13 million types）；<br />
　　2）出现次数少于200次的单词被认为是未登录词，用&lt;UNK&gt;符号代替，而出现次数少于40次的N-grams被去除；<br />
　　3）多数词型出现的次数很小，最常见的10个词型（或者说单词）占去了几乎1/3的词例数，最常见的前1000个词型占去了2/3，而排名前100000的词型占去了98%，不知读者是否会想起著名的Zipf 法则;<br />
　　既然Peter Norvig大牛要在《Beautiful Data》中展示Google语言模型的美丽，除了他的解释：</p>
<blockquote><p>Why would I say this data is beautiful, and not merely mundane? Each individual count is mundane. But the aggregation of the counts—billions of counts—is beautiful, because it says so much, not just about the English language, but about the world that speakers inhabit. The data is beautiful because it represents much of what is worth saying.</p></blockquote>
<p>　　更重要的是如何通过应用这个语言模型来让读者领略“语言数据的美”，但是1T的语言模型如何用？答案在他专门为本章准备的网页上：<a href="http://norvig.com/ngrams/"target=_blank>Natural Language Corpus Data: Beautiful Data</a>，包括了所有的程序及资源文件，最最重要的两个文件就是从Google语言模型中简化了的两个分别为5M左右的1-gram和2-gram及其频率统计的文件：count_1w.txt和count_2w.txt。前者包含了前333333个高频词及其在语料库中统计的频率，并按词频排序；后者包含了前286358个2-grams，不过按的是词典顺序排序。<br />
　　让我们来看一下count_1w.txt中的前十个最常见的英文单词：</p>
<blockquote><p>the	23135851162<br />
of	13151942776<br />
and	12997637966<br />
to	12136980858<br />
a	9081174698<br />
in	8469404971<br />
for	5933321709<br />
is	4705743816<br />
on	3750423199<br />
that	3400031103<br />
…</p></blockquote>
<p>　　注意数字代表了这些英文单词在语料库中出现的次数，浏览这个文件，你会发现排名靠前的单词都是我们日常经常用到的单词，而排名靠后的单词很多都不认识，如果学习或者背单词的时候按这个顺序，估计会很实用，这大概也能算做Google语言模型的一个应用吧！好了，本节到此为止，下一节我们正式进入到统计语言模型的应用层面。</p>
<p>未完待续：<a href="http://www.52nlp.cn/beautiful-data-%E7%BB%9F%E8%AE%A1%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%BA%94%E7%94%A8%E4%B8%89%E5%88%86%E8%AF%8D1">分词1</a></p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/beautiful-data-统计语言模型的应用二背景">http://www.52nlp.cn/beautiful-data-统计语言模型的应用二背景</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%80%e7%bc%98%e8%b5%b7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用一：缘起'>Beautiful Data-统计语言模型的应用一：缘起</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d2' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词2'>Beautiful Data-统计语言模型的应用三：分词2</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d1' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词1'>Beautiful Data-统计语言模型的应用三：分词1</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/language-modeling-toolkit-irstlm-installation-and-trial-noting' rel='bookmark' title='Permanent Link: 语言模型工具IRSTLM安装及试用手记'>语言模型工具IRSTLM安装及试用手记</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%a4%9a%e4%b8%80%e7%82%b9%e5%ae%bd%e5%ae%b9' rel='bookmark' title='Permanent Link: 机器翻译：多一点宽容'>机器翻译：多一点宽容</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/crazy-word-beautiful-word-clouds' rel='bookmark' title='Permanent Link: 单词也疯狂——漂亮的“单词云”'>单词也疯狂——漂亮的“单词云”</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/wn28iie3nw8" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af</feedburner:origLink></item>
		<item>
		<title>自然语言处理与医疗健康</title>
		<link>http://feedproxy.google.com/~r/52nlp/~3/0fD2yP3fjuo/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e4%b8%8e%e5%8c%bb%e7%96%97%e5%81%a5%e5%ba%b7</link>
		<comments>http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e4%b8%8e%e5%8c%bb%e7%96%97%e5%81%a5%e5%ba%b7#comments</comments>
		<pubDate>Thu, 04 Feb 2010 12:12:53 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[随笔]]></category>
		<category><![CDATA[Philip Resnik]]></category>
		<category><![CDATA[医学信息学]]></category>
		<category><![CDATA[医疗健康]]></category>
		<category><![CDATA[微软亚洲研究院]]></category>
		<category><![CDATA[数据挖掘]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3036</guid>
		<description><![CDATA[　　自然语言处理与医疗健康看起来似乎不搭边，不过如果读者还记着《HMM在自然语言处理中的应用一：词性标注4》中的Philip Resnik教授的话——他利用自然语言处理来提高医用编码（medical coding）的水平——大概也不会太吃惊。而今天看到和讯科技的一则新闻：《多领域IT技术研究推动改善数字健康与医疗》，讲的是“2010微软亚洲研究院数字健康与医疗研讨会”，文中提到了与数字医疗健康相关的领域，其中就包括自然语言处理：
自然语言处理:由于医疗信息和病人的病史以自由文本格式保存在病历里,自然语言处理可以帮助医生从庞大的记录中萃取出关键信息,并将文本转化为可使用的知识。
　　这促使我Google了一下国内外的相关研究情况。国内我只找了一篇07年的文章：《基于自然语言处理技术的消化科内窥镜检查报告的结构化》：
以消化科内窥镜检查报告为例.介绍一种基于自然语言处理技术的结构化实现方法.利用现有的自然语言处理技术,并引入消化科内窥镜检查术语标准 MST(Minimal Standard Terminology).实现了胃镜的叙述性检查报告到基于MST的结构化报告的转化,表述准确率达到92.3%.
　　不太明白，也没找原始文献，就没有深究了。
　　而国外的研究情况远超我想象，本以为这个交叉方向很新，没想到找到了一篇94年的paper“Natural Language Processing and the Representation of Clinical Data”，网上将其列为医学信息学经典论文，目前的引用次数已达150次，没有深究最早将NLP和医学结合的论文，但是看来这个方向至少不会比统计机器翻译晚多少。
　　既然称其为“数字医疗健康”，那么时下很多流行的词汇就可以用上了，和讯的这则新闻又列出了如下的几个相关领域，有兴趣的读者可以追踪一下：
数据挖掘:随着存储和处理的医疗数据不断增多,在数据挖掘技术的应用方面还有很大的发展潜力。利用创新技术可以整合电子病历、个人生理数据以及累积的社区数据并提炼出有价值的信息。
移动设备/躯感网:用移动设备和传感器可以捕捉人们的生理状态,如体力活动水平、血压、心跳、葡萄糖水平以及其他重要指数,从而帮助人们建立健康的生活方式。
信号处理:随着收集和记录能力不断增强,信号数据（包括时间序列比如心电图轨迹和其他医学图像数据）正在以惊人的速度增长。在医学图像增强技术、目标识别、异常状况监测以及医学时间序列分析等领域的研究可以有效改善信号处理。
数据可视化:采用创新方法可以使大量数据实现可视化和可操控性,用于展示医学数据或者与医学数据进行互动。
医学成像:随着医学成像技术的不断进步,将电脑技术应用到医学成像领域以帮助医生获取、分析和处理医学图像的机会越来越大。由于医学成像的迅速数字化,通过高级运算来增强和理解医学图像能力,从而预防疾病也将成为可能。
注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/自然语言处理与医疗健康










相关文章:“眼泪”与“门外汉”——向自然语言处理的大牛们学习
HMM在自然语言处理中的应用一：词性标注4
HMM在自然语言处理中的应用一：词性标注3
nlpers最近无法访问
“我爱自然语言处理”阶段性总结
自然语言处理公司巡礼六：Metaweb
自然语言处理公司巡礼五：Autonomy
自然语言处理公司巡礼三：Inxight
自然语言处理公司巡礼二：Powerset
自然语言处理公司巡礼一：Teragram



相关文章:<ol><li><a href='http://www.52nlp.cn/tears-and-uninitiated-learn-from-natural-language-processing-heros' rel='bookmark' title='Permanent Link: “眼泪”与“门外汉”——向自然语言处理的大牛们学习'>“眼泪”与“门外汉”——向自然语言处理的大牛们学习</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-4' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注4'>HMM在自然语言处理中的应用一：词性标注4</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-3' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注3'>HMM在自然语言处理中的应用一：词性标注3</a></li>
<li><a href='http://www.52nlp.cn/nlpers-can-not-visit-recently' rel='bookmark' title='Permanent Link: nlpers最近无法访问'>nlpers最近无法访问</a></li>
<li><a href='http://www.52nlp.cn/i-love-natural-language-processing-stage-summary' rel='bookmark' title='Permanent Link: “我爱自然语言处理”阶段性总结'>“我爱自然语言处理”阶段性总结</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-metaweb' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼六：Metaweb'>自然语言处理公司巡礼六：Metaweb</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-autonomy' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼五：Autonomy'>自然语言处理公司巡礼五：Autonomy</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-inxight' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼三：Inxight'>自然语言处理公司巡礼三：Inxight</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-powerset' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼二：Powerset'>自然语言处理公司巡礼二：Powerset</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-teragram' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼一：Teragram'>自然语言处理公司巡礼一：Teragram</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　自然语言处理与医疗健康看起来似乎不搭边，不过如果读者还记着《<a href="http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-4"target=_blank>HMM在自然语言处理中的应用一：词性标注4</a>》中的Philip Resnik教授的话——他利用自然语言处理来提高医用编码（medical coding）的水平——大概也不会太吃惊。而今天看到和讯科技的一则新闻：《<a href="http://tech.hexun.com/2010-02-04/122607868.html"target=_blank>多领域IT技术研究推动改善数字健康与医疗</a>》，讲的是“2010微软亚洲研究院数字健康与医疗研讨会”，文中提到了与数字医疗健康相关的领域，其中就包括自然语言处理：<span id="more-3036"></span></p>
<blockquote><p>自然语言处理:由于医疗信息和病人的病史以自由文本格式保存在病历里,自然语言处理可以帮助医生从庞大的记录中萃取出关键信息,并将文本转化为可使用的知识。</p></blockquote>
<p>　　这促使我Google了一下国内外的相关研究情况。国内我只找了一篇07年的文章：《基于自然语言处理技术的消化科内窥镜检查报告的结构化》：</p>
<blockquote><p>以消化科内窥镜检查报告为例.介绍一种基于自然语言处理技术的结构化实现方法.利用现有的自然语言处理技术,并引入消化科内窥镜检查术语标准 MST(Minimal Standard Terminology).实现了胃镜的叙述性检查报告到基于MST的结构化报告的转化,表述准确率达到92.3%.</p></blockquote>
<p>　　不太明白，也没找原始文献，就没有深究了。<br />
　　而国外的研究情况远超我想象，本以为这个交叉方向很新，没想到找到了一篇94年的paper“Natural Language Processing and the Representation of Clinical Data”，网上将其列为医学信息学经典论文，目前的引用次数已达150次，没有深究最早将NLP和医学结合的论文，但是看来这个方向至少不会比统计机器翻译晚多少。<br />
　　既然称其为“数字医疗健康”，那么时下很多流行的词汇就可以用上了，和讯的这则新闻又列出了如下的几个相关领域，有兴趣的读者可以追踪一下：</p>
<blockquote><p>数据挖掘:随着存储和处理的医疗数据不断增多,在数据挖掘技术的应用方面还有很大的发展潜力。利用创新技术可以整合电子病历、个人生理数据以及累积的社区数据并提炼出有价值的信息。</p>
<p>移动设备/躯感网:用移动设备和传感器可以捕捉人们的生理状态,如体力活动水平、血压、心跳、葡萄糖水平以及其他重要指数,从而帮助人们建立健康的生活方式。</p>
<p>信号处理:随着收集和记录能力不断增强,信号数据（包括时间序列比如心电图轨迹和其他医学图像数据）正在以惊人的速度增长。在医学图像增强技术、目标识别、异常状况监测以及医学时间序列分析等领域的研究可以有效改善信号处理。</p>
<p>数据可视化:采用创新方法可以使大量数据实现可视化和可操控性,用于展示医学数据或者与医学数据进行互动。</p>
<p>医学成像:随着医学成像技术的不断进步,将电脑技术应用到医学成像领域以帮助医生获取、分析和处理医学图像的机会越来越大。由于医学成像的迅速数字化,通过高级运算来增强和理解医学图像能力,从而预防疾病也将成为可能。</p></blockquote>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/自然语言处理与医疗健康">http://www.52nlp.cn/自然语言处理与医疗健康</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/tears-and-uninitiated-learn-from-natural-language-processing-heros' rel='bookmark' title='Permanent Link: “眼泪”与“门外汉”——向自然语言处理的大牛们学习'>“眼泪”与“门外汉”——向自然语言处理的大牛们学习</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-4' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注4'>HMM在自然语言处理中的应用一：词性标注4</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-3' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注3'>HMM在自然语言处理中的应用一：词性标注3</a></li>
<li><a href='http://www.52nlp.cn/nlpers-can-not-visit-recently' rel='bookmark' title='Permanent Link: nlpers最近无法访问'>nlpers最近无法访问</a></li>
<li><a href='http://www.52nlp.cn/i-love-natural-language-processing-stage-summary' rel='bookmark' title='Permanent Link: “我爱自然语言处理”阶段性总结'>“我爱自然语言处理”阶段性总结</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-metaweb' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼六：Metaweb'>自然语言处理公司巡礼六：Metaweb</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-autonomy' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼五：Autonomy'>自然语言处理公司巡礼五：Autonomy</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-inxight' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼三：Inxight'>自然语言处理公司巡礼三：Inxight</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-powerset' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼二：Powerset'>自然语言处理公司巡礼二：Powerset</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-teragram' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼一：Teragram'>自然语言处理公司巡礼一：Teragram</a></li>
</ol></p><img src="http://feeds.feedburner.com/~r/52nlp/~4/0fD2yP3fjuo" height="1" width="1"/>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e4%b8%8e%e5%8c%bb%e7%96%97%e5%81%a5%e5%ba%b7/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		<feedburner:origLink>http://www.52nlp.cn/%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e4%b8%8e%e5%8c%bb%e7%96%97%e5%81%a5%e5%ba%b7</feedburner:origLink></item>
	</channel>
</rss>
