首頁(yè)技術(shù)文章正文

什么是字符集？字符集的編碼、解碼操作

更新時(shí)間:2023年08月08日14時(shí)32分來(lái)源:傳智教育瀏覽次數(shù):

字符集(Character Set)是多個(gè)字符的集合，字符集種類(lèi)較多，每個(gè)字符集包含的字符個(gè)數(shù)不同，常見(jiàn)字符集有ASCII字符集、GBK字符集和Unicode(UTF-8)字符集等。下面來(lái)詳細(xì)介紹。

ASCII字符集：

ASCII(American Standard Code for Information Interchange，美國(guó)信息交換標(biāo)準(zhǔn)代碼)：包括了數(shù)字、英文、符號(hào)。ASCII使用1個(gè)字節(jié)存儲(chǔ)一個(gè)字符，一個(gè)字節(jié)是8位，總共可以表示128個(gè)字符信息，對(duì)于表示英文、數(shù)字來(lái)說(shuō)是夠用的。

1691474574105_字符集.png

GBK：

GBK是中國(guó)的碼表，包含了幾萬(wàn)個(gè)漢字等字符，同時(shí)也要兼容ASCII編碼，GBK編碼中一個(gè)中文字符一般以?xún)蓚€(gè)字節(jié)的形式存儲(chǔ)。UTF-8編碼后一個(gè)中文一般以三個(gè)字節(jié)的形式存儲(chǔ)，同時(shí)也要兼容ASCII編碼表。技術(shù)人員都應(yīng)該使用UTF-8的字符集編碼。

Unicode字符集：

統(tǒng)一碼，也叫萬(wàn)國(guó)碼。是計(jì)算機(jī)科學(xué)領(lǐng)域里的一項(xiàng)業(yè)界標(biāo)準(zhǔn)。UTF-8是Unicode的一種常見(jiàn)編碼方式。字符解碼時(shí)使用的字符集和編碼時(shí)使用的字符集必須一致，否則會(huì)出現(xiàn)亂碼。

例如漢字存儲(chǔ)和展示過(guò)程解析如下：

1691475671731_漢字儲(chǔ)存解析過(guò)程.png