《数学之美》摘录

本文探讨了自然语言处理的历史和技术进展,包括翻译、语音识别、统计语言学的应用以及基于规则和统计方法的区别。同时介绍了语言模型中的二元模型及其在计算句子概率中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


【不定期过来加几句】

2016-12-12之前部分:

翻译这件事儿之所以能达成,仅仅是因为不同的文字系统在记录信息上的能力是等价的。

 

信息的冗余是信息安全的保障。

 

罗马数字编码方式:I代表1,V代表5,左侧为减,右侧为加,所以IV就是5-1=4,VII就是5+2=7。

 

阿拉伯数字的真正发明人是印度人,只是由阿拉伯人传入欧洲。

 

计算机是否有处理自然语言的能力?如果有,是否和人类一样?   (书里说Yes)

 

五六十年前对于人工智能和自然语言理解的认知:想要让机器拥有翻译或者语音识别的能力必须要让计算机理解自然语言,而要做到这一点必须要让计算机拥有类似于人的智能。(前面被称为“鸟飞派”,看鸟怎么飞然后模仿鸟造出飞机)  然而怀特兄弟造飞机靠的是空气动力学而不是仿生学。同样,而今的机器翻译和语音识别靠的是统计学而非真正理解多重语言。

 

语言里有语法规则,词性,构词法等等恰好能比较方便地用计算方法描述,坚定了大家对基于规则的自然语言处理的信心。

 

//但是每种规则都有很多特例。。而且很多时候规则树很庞大。。

 

规则处理自然语言的方法在上个世纪六十年代受挫,(The pen is in thebox和The box is in the pen)pen也可以表示围栏的意思。之后统计语言学的兴起使得自然语言处理重获新生。

 

语言模型中的二元模型:用来计算一句话出现的概率,统计一句话出现的概率其实是一件非常难的事情,故而马尔可夫提出了一种偷懒但有效的方法——只计算在前一个词出现的情况下下一个词出现的概率,这样串联起来一句话就可以计算一个句子出现的概率了。

/*在统计学没有大规模引入句法分析的时候分析句子是否合理其实很麻烦,但用统计学来看一些句子会合理很多,例如打乱一个句法合理的句子之后概率可能小五六个数量级。(虽然本身出现的概率只有-20的数量级)*/



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

朱铭德

五毛也是爱٩(●´৺`●)૭

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值