Please enable JavaScript to view this site.

Unicode - стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков, т.е. это уникальный код для любого символа, независимо от платформы, независимо от программы, независимо от языка.

Стандарт состоит из двух основных разделов: универсальный набор символов (UCS, Universal Character Set) и семейство кодировок (UTF, Unicode Transformation Format).

Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены коды от U+0400 до U+052F (см. https://ru.wikipedia.org/wiki/Кириллица_в_Юникоде.

Имеется несколько форм представления: http://ru.wikipedia.org/wiki/UTF-8, http://ru.wikipedia.org/wiki/UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE)

В системах Windows 2000 и XP используется двухбайтовая форма UTF-16LE для внутреннего представления имен файлов и других системных строк. В UNIX-подобных операционных системах GNU/Linux, BSD и Mac OS X принята форма UTF-8 для файлов и UTF-32 или UTF-8 для обработки символов в оперативной памяти.

Начиная с Windows 2000, служебная программа «Таблица символов» отображает таблицу всех символов от U+0000 до U+FFFF, поддерживаемых конкретным шрифтом. Эта программа позволяет выбирать отдельные символы и копировать их в буфер обмена для последующей вставки. Более универсальный способ ввода символа, код которого известен, состоит в следующем: нажать клавишу ALT и, удерживая ее, набрать на дополнительной цифровой клавиатуре код требуемого символа в десятичной системе счисления. Например, нажатие ALT+0241 вставит букву «ñ».

Как любая изобретенная человеком система, Unicode не свободен от недостатков, например, некоторые системы письма все еще не представлены должным образом, а еще файлы с текстом в Unicode занимают больше места в памяти, так как один символ кодируется не одним байтом, как в различных национальных кодировках, а последовательностью байтов (исключение составляет UTF-8 для языков, алфавит которых укладывается в ASCII).

Ссылки:

https://www.unicode.org/standard/translations/russian.html

http://ru.wikipedia.org/wiki/Юникод

Подразделы:

(отсутствуют)

© ООО «АСКОН-Системы проектирования», 2024. Все права защищены. | Единая телефонная линия: 8-800-700-00-78