字符编码-世界杯舞蹈视频-世界杯举办地_世界杯预选赛巴西

2025-07-02 08:37:41

字符编码

术语字符编码（character encoding），字符映射（character map），字符集（character set）或者代码页，在历史上往往是同义概念，即字符表（repertoire）中的字符如何编码为码元的流（stream of code units）–通常每个字符对应单个码元。

码元（Code Unit，也称“代码单元”）是指一个已编码的文本中具有最短的比特组合的单元。对于UTF-8来说，码元是8比特长；对于UTF-16来说，码元是16比特长；对于UTF-32来说，码元是32比特长[1]。码值（Code Value）是过时的用法。

代码页通常意味着面向字节的编码，但强调是一套用于不能语言的编码方案的集合.著名的如"Windows"代码页系列，"IBM"/"DOS"代码页系列.

IBM的字符数据表示体系（Character Data Representation Architecture - CDRA）与编码字符集标识符（coded character set identifiers - CCSIDs）常常把charset, character set, code page, or CHARMAP等类似意义的术语混用.

Unix或Linux不使用代码页概念，它们用charmap，比locales具有更广泛的含义.

与上文的编码字符集（Coded Character Set - CCS）不同，字符编码（character encoding）是从抽象字符到代码字（code word）的映射. HTTP（与MIME）的用法中，字符集（character set）与字符编码同义，但与CCS不是一个意思.