[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [Fwd: NEW charset!!! Было: Re: KOI8]
> Дело в том, что по статусу IANA - это чисто *регистрационный*
> орган. И зарегистрировать в нем новый charset весьма легко.
> Для этого нужно : a) уникальное имя б) mapping на unicode.
> Но другое дело, что производители софта вовсе не обязаны
> его поддерживать. Собственно, больше половины charset-ов
> в этом registry -- мертвые.
Вот именно! IANA регистрирует _названия_ чарсетов, которые могут
встретиться в MIME заголовках.
Кстати, существует ли хоть один софт, который корректно понимает
все чарсеты (хотя бы без алиасов) из ихней регистри? ;)
По хорошему, чарсеты должны регистрироваться в ISO IR.
Тогда их можно "проталкивать" производителям софта.
Так вот. Насколько я понял, там регистрируемые "стандартные"
чарсеты должны занимать не весь диапазон 0x80-0xff, а только
0xa0-0xff. Скорее всего, это сделано из соображений, чтобы
их можно было "упихать" в семибитную кодировку, что сейчас
мало актуально. При семибитной кодировке восьмой бит отрезается
и чарсет "падает" на символы ASCII, а коды 0x80-0x9f на "управляющие".
В этой связи очень интересно выглядит один из основных аргументов
"за koi8" - если ему отрезать восьмой бит, то все можно будет прочитать.
Что можно будет прочитать из псевдографики?
Ну так и вот. В том диапазоне, который остается чарсету (96 символов),
едва влезает кириллица с украинскими и белорусскими буквами.
Никакой псевдографики и "пунктуации" там не разместить.
Кстати, как я уже писал (кажется) в "иксах" и на вводе, и в фонтах
то, что называется koi8 представляет собой только алфавит без
псевдографики.
(Я догадываюсь - откуда в koi8-r псевдографика. В тех стандартах,
на которые ссылается Чернов ее естественно нет. Он тогда занимался
e-mail'овым софтом, а клиентские машины были в основном под DOS'ом.
И у Чернова была задача - не отказываясь от любимой КОИ8 "затолкать"
туда все, что было в cp866. :-)
> >Переходить на 1251. По крайней мере в тех приложениях, в которых нужен
> >EURO. Это не так сложно, но требует создания небольшой группы
> >единомышленников, которые будут патчить все библиотки, работающие с
> >кодировками. Если заодно добавить 1250, то восточноевропейцы будут нам
> >благодарны. Криков будет много, так как это шаг по пути свободы выбора,
> >а не по Unix way.
Я подозреваю, что koi8 живет в основном за счет "религиозных войн" -
Unix vs Microsoft.
> К сожалению, X-ы не содержат такой возможности *расширения*.
> Собственно, на этом, мне кажется, и надо сосредоточить усилия.
> Разработать механизм динамического подключения любых кодировок.
> Тогда и Windows-1251 и Windows-1250 и любые User Defined
> подключались бы легко. А нам осталось бы только написать
Вот это точно!
to AEN: у меня уже была такая мысль - зачем встраивать в Xlib таблицы
для всех возможных кодировок. Когда реально для приложения нужны одна-две.
Их надо при старте зачитывать из файлов (как и XLC_LOCALE).
Тогда подключение новых кодировок можно было бы сделать полностью
через файлы locale (кстати, и sequenc'ы и даже полные описания свойств
charset'ов уже сейчас можно задавать в XLC_LOCALE, а не "прошивать" в Xlib).
> А лучше сделать X-ы полностью UNICODE. И не UTF-8, а
> настоящий UCS-2. Хватит таскать I18N через игольное ушко
А кто такой UCS-2? И чем он "круче" UTF-8?
(Про UCS4 знаю, и чем он _хуже_ UTF-8 - тоже :-)
--
Ivan U. Pascal | e-mail: pascal@tsu.ru
Administrator of | Tomsk State University
University Network | Tomsk, Russia