概率圖模型[大數(shù)據(jù)培訓(xùn)]

更新時間:2019年10月14日14時41分來源:傳智播客瀏覽次數(shù):

概率圖模型是在概率模型的基礎(chǔ)上，使用了基于圖的方法來表示概率分布，是一種通用化的不確定性知識表示和處理方法，在人工智能、機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺等領(lǐng)域有廣闊的應(yīng)用前景。

概率圖模型簡介

根據(jù)圖模型的邊是否有向，概率圖模型通常被劃分為有向概率圖模型和無向概率圖模型，概率圖模型可以表示如下所示的樹形結(jié)構(gòu)。

有向圖VS無向圖

有向圖(Digraph)：若圖G的關(guān)系集合E(G)中，頂點(diǎn)偶對的v和w之間是有序的，稱圖G是有向圖。

有向圖

無向圖(Undigraph)：若圖G的關(guān)系集合E(G)中，頂點(diǎn)偶對的v和w之間是無序的，稱圖G是無向圖。

無向圖

在概率圖模型中，數(shù)據(jù)(樣本)由公式G=(V,E)建模表示：

·V表示節(jié)點(diǎn)，即隨機(jī)變量(放在此處的，可以是一個token或者一個label)，具體地，用Y=(y1,y2…yn)為隨機(jī)變量建模，注意Y現(xiàn)在是代表了一批隨機(jī)變量(想象對應(yīng)一條sequence，包含了很多的token)， P(Y)為這些隨機(jī)變量的分布;

·E表示邊，即概率依賴關(guān)系。

生成式模型VS判別式模型

生成式模型(或稱產(chǎn)生式模型)與區(qū)分式模型(或稱判別式模型)的本質(zhì)區(qū)別在于模型中觀測序列x和狀態(tài)序列y之間的決定關(guān)系，前者假設(shè)y決定x，后者假設(shè)x決定y。

生成式模型以狀態(tài)序列y按照一定的規(guī)律生成觀測序列x為假設(shè)，針對聯(lián)合分布p(x,y)進(jìn)行建模，并且通過估計(jì)使生成概率最大的生成序列來獲取y。生成式模型是所有變量的全概率模型，因此可以生成所有變量的值。在這類模型中一般都有嚴(yán)格的獨(dú)立假設(shè)，特征是事先給定的，并且特征之間的關(guān)系直接體現(xiàn)在公式中。

這類模型的優(yōu)點(diǎn)是：處理單類問題時比較靈活，模型變量之間的關(guān)系比較清楚，模型可以通過增量學(xué)習(xí)獲得，可用于數(shù)據(jù)不完整的情況。其弱點(diǎn)在于模型的推導(dǎo)和學(xué)習(xí)比較復(fù)雜。

典型的生成式模型有：n元語法模型、HMM、樸素貝葉斯分類器、概率上下文無關(guān)文法等。

判別式模型符合傳統(tǒng)的模型分類思想，認(rèn)為y(狀態(tài)序列)由x(觀測序列)決定，直接對后驗(yàn)概率p(y|x)進(jìn)行建模，它從x中提取特征，學(xué)習(xí)模型參數(shù)，使得條件概率符合一定形式的最優(yōu)。

這種模型的優(yōu)點(diǎn)是：處理多分類問題或分辨某一類與其他類之間的差異比較靈活，模型簡單，容易建立和學(xué)習(xí)。其弱點(diǎn)在于模型的描述能力有限，變量之間的關(guān)系不清楚，而且大多數(shù)判別式模型是有監(jiān)督的學(xué)習(xí)方法，不能擴(kuò)展成無監(jiān)督學(xué)習(xí)方法。

典型的判別式模型有：最大熵模型、條件隨機(jī)場、支持向量機(jī)、最大熵馬爾可夫模型、感知機(jī)等。【推薦了解：大數(shù)據(jù)培訓(xùn)機(jī)構(gòu)課程】

概率圖模型介紹

動態(tài)貝葉斯網(wǎng)絡(luò)(DBN)用于處理隨時間變化的動態(tài)系統(tǒng)中的推斷和預(yù)測問題。其中，隱馬爾科夫模型(HMM)在語音識別、漢語自動分詞與詞性標(biāo)注和統(tǒng)計(jì)機(jī)器翻譯等若干語音語言處理任務(wù)中得到了廣泛應(yīng)用;卡爾曼濾波器則在信號處理領(lǐng)域有廣泛的應(yīng)用。

馬爾可夫網(wǎng)絡(luò)下的條件隨機(jī)場廣泛應(yīng)用于自然語言處理中的序列標(biāo)注、特征選擇、機(jī)器翻譯等任務(wù)，玻爾茲曼機(jī)近年來被用于依存句法分析和語義角色標(biāo)注等。

概率模型圖2

下圖從縱橫兩個維度詮釋了概率圖模型的演變過程。橫向：由點(diǎn)到線(序列結(jié)構(gòu))、到面(圖結(jié)構(gòu))?？v向：在一定條件下生成式模型轉(zhuǎn)變?yōu)榕袆e式模型，樸素貝葉斯演變?yōu)檫壿嫽貧w，隱馬爾可夫模型演變?yōu)榫€性鏈?zhǔn)綏l件隨機(jī)場，生成式有向圖模型演變?yōu)橥ㄓ脳l件隨機(jī)場。

上一篇：SparkMllib如何解決回歸問題？[大數(shù)據(jù)培訓(xùn)] 下一篇：求TopN熱搜關(guān)鍵詞[大數(shù)據(jù)算法]