我来我网
https://5come5.cn
 
您尚未 登录  注册 | 菠菜 | 软件站 | 音乐站 | 邮箱1 | 邮箱2 | 风格选择 | 更多 » 
 

«1 2 » Pages: ( 2/2 total )
本页主题: [原创/不要转载]写个关于HMM隐式马尔科夫模型的东西~有兴趣的蝈蝈讨论一下~ 隐藏签名 | 打印 | 加为IE收藏 | 收藏主题 | 上一主题 | 下一主题

zc1984





性别: 帅哥 状态: 该用户目前不在线
头衔: 上帝模式
等级: 荣誉会员
家族: 战略研究所
发贴: 10096
威望: 5
浮云: 0
在线等级:
注册时间: 2004-08-24
最后登陆: 2017-06-08

5come5帮你背单词 [ glance /gla:ns/ v. 扫视,匆匆一看;n. 一瞥,扫视 ]


Quote:
引用第13楼jiju84于2007-04-22 18:32发表的:



HMM理论上比较成功了........

.......


各种训练之后的值我们可以认为是保持了稳定的~~
这是源于我们的语言环境在一段比较长的历史时期里面其实是不会有太大的变化的(这是一个与现实生活紧密相关的问题,因此需要注意我们的使用环境,而不是一味的为算法而算法~~),
因此就可以采用建立一个你说的库的方法,而不需要每次都去计算这些值~
这就是主要矛盾与次要矛盾的问题了~~
主要矛盾是:分词
次要矛盾:各种概率参数的变化

次要矛盾在此远远小于主要矛盾~
因此:建立库,避免重复运算这种吃力不讨好的事情~~~加快分词速度~~~

p.s.可以设定一定的条件更新这些概率参数之类的东西,以适应更长的时间(也许会出现更好的办法,呵呵~)
在北京,做飞信,也在创业,我的微博:https://weibo.com/herozhang
顶端 Posted: 2007-04-22 18:45 | [15 楼]
zc1984





性别: 帅哥 状态: 该用户目前不在线
头衔: 上帝模式
等级: 荣誉会员
家族: 战略研究所
发贴: 10096
威望: 5
浮云: 0
在线等级:
注册时间: 2004-08-24
最后登陆: 2017-06-08

5come5帮你背单词 [ postcard /'pəustka:d/ n. 明信片 ]


Quote:
引用第14楼jiju84于2007-04-22 18:35发表的:
还有一个问题就是

最终用Viterbi算法分出来的,可能不是全局最优解

尽管有些书上说是全局最有的,但是他大大简化了HMM
.......


viterbi会根据输入的观察序列,“自左向右”的根据上下文给出最优的理解。由于viterbi会在给出最终选择前考虑所有的观察序列因素,这样就避免了由于突然的噪声使得决策原理正确答案。这种情况在真实的数据中经常出现。
我们可以从数学形式上证明这种方法的最优性~~~

你说说不是全局最优解的那种情况~~~
在北京,做飞信,也在创业,我的微博:https://weibo.com/herozhang
顶端 Posted: 2007-04-22 18:50 | [16 楼]
jiju84



性别: 帅哥 状态: 该用户目前不在线
头衔: 【做人要低调!!】
等级: 前途无量
家族: J&S
发贴: 6455
威望: 0
浮云: 1253
在线等级:
注册时间: 2005-03-07
最后登陆: 2010-03-18

5come5帮你背单词 [ thirsty /'θə:sti/ a. 口渴的,渴望的,渴求的 ]


Quote:
引用第15楼zc1984于04-22-2007 18:45发表的:


各种训练之后的值我们可以认为是保持了稳定的~~
这是源于我们的语言环境在一段比较长的历史时期里面其实是不会有太大的变化的(这是一个与现实生活紧密相关的问题,因此需要注意我们的使用环境,而不是一味的为算法而算法~~),
因此就可以采用建立一个你说的库的方法,而不需要每次都去计算这些值~
.......



嘎嘎........

看来你也赞成偶的想法嘎?呵呵.........

的却要建库,语料库其实也可以暂时省略

只要把那个观察概率B整的稍微准确就可以,初始状态概率和转移概率的初始值对HMM的训练影响不大

要建这个库也是个不小的工作量呵

关键是准确度,因为他只是个局部最优

如果在刚开始就偏离方向了,后面的viterbi的正确率更不敢想象了

...............

继续学习........
Fighting Copyright© Super_Jiju

//--------------------------------------------------
https://super-jiju.spaces.live.com
顶端 Posted: 2007-04-22 18:51 | [17 楼]
jiju84



性别: 帅哥 状态: 该用户目前不在线
头衔: 【做人要低调!!】
等级: 前途无量
家族: J&S
发贴: 6455
威望: 0
浮云: 1253
在线等级:
注册时间: 2005-03-07
最后登陆: 2010-03-18

5come5帮你背单词 [ continuous /kən'tinjuəs/ a. 连续的,不间断的 ]


Re:[原创/不要转载]写个关于HMM隐式马尔科夫模型的东西~有兴趣的蝈蝈讨论一下~

Quote:
引用第16楼zc1984于04-22-2007 18:50发表的:


viterbi会根据输入的观察序列,“自左向右”的根据上下文给出最优的理解。由于viterbi会在给出最终选择前考虑所有的观察序列因素,这样就避免了由于突然的噪声使得决策原理正确答案。这种情况在真实的数据中经常出现。
我们可以从数学形式上证明这种方法的最优性~~~

.......


为了计算viterbi[i,j],这个算法假设是:“动态规划守恒”
为了计算viterbi[i,j],这个算法假设是:“动态规划守恒”

这是一个简化但并不正确的假定,这种假定认为,如果对于全部的观察序列,最终的最佳路径恰好经过了状态q,那么这条路径必是在此之前包括状态q在内的所有路径中的最佳路径。这并不意味着在任何时刻t的最佳路径就是所有序列中的最佳路径。一条路径在开始可能并不太好,但是后来可能变为最佳路径。
比如对于某些类别的语法,(包括三元语法),Viterbi的假设就回失败。所以现在很多语音识别用了栈解码算法或A*算法。


aa.jpg

aaa.jpg
Viterbi的假定是为了使我们能用一种简单的方法来分解路径,对t-1时刻进行扩充

Daniel的 Speechand language processing有详细的论证
Fighting Copyright© Super_Jiju

//--------------------------------------------------
https://super-jiju.spaces.live.com
顶端 Posted: 2007-04-22 19:02 | [18 楼]
zc1984





性别: 帅哥 状态: 该用户目前不在线
头衔: 上帝模式
等级: 荣誉会员
家族: 战略研究所
发贴: 10096
威望: 5
浮云: 0
在线等级:
注册时间: 2004-08-24
最后登陆: 2017-06-08

5come5帮你背单词 [ plus /plΛs/ 加上;a. 正的,附加的,有增益的;n. 加号,正号 ]


Quote:
引用第17楼jiju84于2007-04-22 18:51发表的:



嘎嘎........

.......


问题就在于你的观察概率如何得出啦~~~
毕竟要“观察”啊~~~
所以语料库还是要的~~~

viterbi通过求一个又一个的局部最优是可以得到全局最优的~~
这种情况的证明可以参照于最短路径或者最小生成树~~~~

大胆的用,木有问题的~~~

但是HMM毕竟还是有短板,“人类总是喜欢乱说话”,因此配合词库法,效果会好一些~
但是注意配合的方式和具体的参数的选择~~~
这个就没有什么捷径了,完全凭借不断的尝试和主观意见~~
毕竟分词质量的好坏最终是通过人的观察来进行判定的~~
在北京,做飞信,也在创业,我的微博:https://weibo.com/herozhang
顶端 Posted: 2007-04-22 19:12 | [19 楼]
jiju84



性别: 帅哥 状态: 该用户目前不在线
头衔: 【做人要低调!!】
等级: 前途无量
家族: J&S
发贴: 6455
威望: 0
浮云: 1253
在线等级:
注册时间: 2005-03-07
最后登陆: 2010-03-18

5come5帮你背单词 [ behind /bi'haind/ prep. 在…后面,迟于,落后于;ad. 在后,迟,慢 ]


Quote:
引用第19楼zc1984于04-22-2007 19:12发表的:


问题就在于你的观察概率如何得出啦~~~
毕竟要“观察”啊~~~
所以语料库还是要的~~~
.......


偶意思是实现通过语料库
建立观察概率的库.........

初始概率和转移概率就用均匀分布.........

一切还在规划中,等做出来再说吧
Fighting Copyright© Super_Jiju

//--------------------------------------------------
https://super-jiju.spaces.live.com
顶端 Posted: 2007-04-22 19:19 | [20 楼]
zc1984





性别: 帅哥 状态: 该用户目前不在线
头衔: 上帝模式
等级: 荣誉会员
家族: 战略研究所
发贴: 10096
威望: 5
浮云: 0
在线等级:
注册时间: 2004-08-24
最后登陆: 2017-06-08

5come5帮你背单词 [ mostly /'məustli/ ad. 主要地,多半,通常 ]


Quote:
引用第20楼jiju84于2007-04-22 19:19发表的:


偶意思是实现通过语料库
建立观察概率的库.........

.......


你上面贴出来的图片是什么地方的哦?
在北京,做飞信,也在创业,我的微博:https://weibo.com/herozhang
顶端 Posted: 2007-04-22 19:26 | [21 楼]
jiju84



性别: 帅哥 状态: 该用户目前不在线
头衔: 【做人要低调!!】
等级: 前途无量
家族: J&S
发贴: 6455
威望: 0
浮云: 1253
在线等级:
注册时间: 2005-03-07
最后登陆: 2010-03-18

5come5帮你背单词 [ topic /'topik/ n. 话题,主题 ]


Quote:
引用第21楼zc1984于04-22-2007 19:26发表的:


你上面贴出来的图片是什么地方的哦?


Viterbi算法
and
自己做的图解
Fighting Copyright© Super_Jiju

//--------------------------------------------------
https://super-jiju.spaces.live.com
顶端 Posted: 2007-04-22 19:32 | [22 楼]
jiju84



性别: 帅哥 状态: 该用户目前不在线
头衔: 【做人要低调!!】
等级: 前途无量
家族: J&S
发贴: 6455
威望: 0
浮云: 1253
在线等级:
注册时间: 2005-03-07
最后登陆: 2010-03-18

5come5帮你背单词 [ book /buk/ n. 书本,书籍,手册,卷,册;vt. 预定(票、座位等) ]


Quote:
引用第21楼zc1984于04-22-2007 19:26发表的:


你上面贴出来的图片是什么地方的哦?



莫非有误??

追根是语音识别里面的一个东西........

他那个和这还有不小区别
Fighting Copyright© Super_Jiju

//--------------------------------------------------
https://super-jiju.spaces.live.com
顶端 Posted: 2007-04-22 19:34 | [23 楼]
zc1984





性别: 帅哥 状态: 该用户目前不在线
头衔: 上帝模式
等级: 荣誉会员
家族: 战略研究所
发贴: 10096
威望: 5
浮云: 0
在线等级:
注册时间: 2004-08-24
最后登陆: 2017-06-08

5come5帮你背单词 [ hydraulic /hai'dro:lik/ a. 水力的,液压的,水利学的 ]


Quote:
引用第23楼jiju84于2007-04-22 19:34发表的:



莫非有误??

.......


语音识别和分词的区别还是比较大的~~~
是非特定人连续语音识别还是其他啊?
语音识别算法+专用DSP芯片~~~哇咔咔,爽翻了~~

p.s.最近也在做声音识别的东西~~~麻烦啊~~不是处理人的声音,是处理各种歌曲~~保存MP3都挤爆硬盘了~~~
尽量把毕业设计做的完善一点,否则真的没脸去答辩了~~
在北京,做飞信,也在创业,我的微博:https://weibo.com/herozhang
顶端 Posted: 2007-04-22 19:46 | [24 楼]
jiju84



性别: 帅哥 状态: 该用户目前不在线
头衔: 【做人要低调!!】
等级: 前途无量
家族: J&S
发贴: 6455
威望: 0
浮云: 1253
在线等级:
注册时间: 2005-03-07
最后登陆: 2010-03-18

5come5帮你背单词 [ stewardess /'stju:ədis/ n. 女乘务员 ]


Quote:
引用第24楼zc1984于04-22-2007 19:46发表的:


语音识别和分词的区别还是比较大的~~~
是非特定人连续语音识别还是其他啊?
语音识别算法+专用DSP芯片~~~哇咔咔,爽翻了~~
.......

专用DSP芯片??

其实说白了就是NLP的升级版,语音库嘎.......

不晓得这个芯片咋回事?

上次校软件大赛有个研究生队伍就做了这个语音适别......

效果很差,还是用matlab来采样的,也用了啥芯片,

仅仅训练了3个词

并且有个老师去实验的时候,说了个四川话的“山东”给说死机了
笑死偶了

ps:养QQ宠物去了,呵呵。zc赶快把viterbi 还有训练补上吧,呵呵
Fighting Copyright© Super_Jiju

//--------------------------------------------------
https://super-jiju.spaces.live.com
顶端 Posted: 2007-04-22 19:52 | [25 楼]
zc1984





性别: 帅哥 状态: 该用户目前不在线
头衔: 上帝模式
等级: 荣誉会员
家族: 战略研究所
发贴: 10096
威望: 5
浮云: 0
在线等级:
注册时间: 2004-08-24
最后登陆: 2017-06-08

5come5帮你背单词 [ mood /mu:d/ n. 情绪,心境,心镜不佳 ]


Quote:
引用第25楼jiju84于2007-04-22 19:52发表的:

专用DSP芯片??

其实说白了就是NLP的升级版,语音库嘎.......

.......


特殊的DSP芯片在处理某些数据的时候比CPU快得多~~~
可以有上数量级的提升~~~

如果只是语音波形之间的比较~~那么真的很无趣~~~(貌似上次某个博士团队就是这样的,录音“打开Word”,然后用户对着麦克风说“打开Word”,进行单纯的Wave的比较~~太XX了~~~简直对我们学校的博士失去很大的一坨信心~~哇咔咔)

今天写累了,该看会儿书了,貌似你都把viterbi的东西贴出来了~~~
在北京,做飞信,也在创业,我的微博:https://weibo.com/herozhang
顶端 Posted: 2007-04-22 19:58 | [26 楼]
jiju84



性别: 帅哥 状态: 该用户目前不在线
头衔: 【做人要低调!!】
等级: 前途无量
家族: J&S
发贴: 6455
威望: 0
浮云: 1253
在线等级:
注册时间: 2005-03-07
最后登陆: 2010-03-18

5come5帮你背单词 [ poster /'pəustə/ n. 招贴,标语,海报 ]


Quote:
引用第26楼zc1984于04-22-2007 19:58发表的:
特殊的DSP芯片在处理某些数据的时候比CPU快得多~~~
可以有上数量级的提升~~~

如果只是语音波形之间的比较~~那么真的很无趣~~~(貌似上次某个博士团队就是这样的,录音“打开Word”,然后用户对着麦克风说“打开Word”,进行单纯的Wave的比较~~太XX了~~~简直对我们学校的博士失去很大的一坨信心~~哇咔咔)

今天写累了,该看会儿书了,貌似你都把viterbi的东西贴出来了~~~
.......




录音“打开Word”,然后用户对着麦克风说“打开Word”,进行单纯的Wave的比较~~太XX了~

不知道效果怎么样,如果能对非特定人群,还是不错的。

ps:多谢+了15FY嘎.....呵呵,以后多多交流
Fighting Copyright© Super_Jiju

//--------------------------------------------------
https://super-jiju.spaces.live.com
顶端 Posted: 2007-04-22 22:36 | [27 楼]
jiju84



性别: 帅哥 状态: 该用户目前不在线
头衔: 【做人要低调!!】
等级: 前途无量
家族: J&S
发贴: 6455
威望: 0
浮云: 1253
在线等级:
注册时间: 2005-03-07
最后登陆: 2010-03-18

5come5帮你背单词 [ warn /wo:n/ v. 警告,告诫 ]


Quote:
引用第8楼zc1984于04-22-2007 13:49发表的:
p.s.对于Viterbi算法来说,我们只是得到了一个路径,如果我们需要N-Best呢?配合Stack解码算法进行(A*也是可以的哈~~)~~这样就可以得到多个候选~~
.......



这倒是个很好的注意,赞一个
..........................

或许可以用来识别未登录词
..............................
Fighting Copyright© Super_Jiju

//--------------------------------------------------
https://super-jiju.spaces.live.com
顶端 Posted: 2007-04-24 16:30 | [28 楼]
«1 2 » Pages: ( 2/2 total )
我来我网·5come5 Forum » 程序员之家

Total 0.012349(s) query 5, Time now is:11-23 15:44, Gzip enabled
Powered by PHPWind v5.3, Localized by 5come5 Tech Team, 黔ICP备16009856号