更新時(shí)間:2020年09月21日14時(shí)52分 來源:黑馬程序員 瀏覽次數(shù):
1、首先, 如果所有參與訓(xùn)練的token被100%的[MASK], 那么在fine-tunning的時(shí)候所有單詞都是已知的, 不存在[MASK], 那么模型就只能根據(jù)其他token的信息和語序結(jié)構(gòu)來預(yù)測(cè)當(dāng)前詞, 而無法利用到這個(gè)詞本身的信息, 因?yàn)樗鼈儚奈闯霈F(xiàn)在訓(xùn)練過程中, 等于模型從未接觸到它們的信息, 等于整個(gè)語義空間損失了部分信息. 采用80%的概率下應(yīng)用[MASK], 既可以讓模型去學(xué)著預(yù)測(cè)這些單詞, 又以20%的概率保留了語義信息展示給模型。
2、保留下來的信息如果全部使用原始token, 那么模型在預(yù)訓(xùn)練的時(shí)候可能會(huì)偷懶, 直接照抄當(dāng)前token信息. 采用10%概率下random token來隨機(jī)替換當(dāng)前token, 會(huì)讓模型不能去死記硬背當(dāng)前的token, 而去盡力學(xué)習(xí)單詞周邊的語義表達(dá)和遠(yuǎn)距離的信息依賴, 嘗試建模完整的語言信息.
3、最后再以10%的概率保留原始的token, 意義就是保留語言本來的面貌, 讓信息不至于完全被遮掩, 使得模型可以"看清"真實(shí)的語言面貌。
下面是傳智播客公開的幾套人工智能視頻教程,如果感興趣可以下載學(xué)習(xí)。
北京校區(qū)