[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [Fwd: NEW charset!!! Было: Re: KOI8]



>  Дело в том, что по статусу IANA - это чисто *регистрационный*
> орган. И зарегистрировать в нем новый charset весьма легко.
> Для этого нужно : a) уникальное имя б) mapping на unicode.
> Но другое дело, что производители софта вовсе не обязаны
> его поддерживать. Собственно, больше половины charset-ов
> в этом registry -- мертвые.

  Вот именно! IANA регистрирует _названия_ чарсетов, которые могут
встретиться в MIME заголовках.

  Кстати, существует ли хоть один софт, который корректно понимает
все чарсеты (хотя бы без алиасов) из ихней регистри? ;)

  По хорошему, чарсеты должны регистрироваться в ISO IR.
Тогда их можно "проталкивать" производителям софта.

  Так вот. Насколько я понял, там регистрируемые "стандартные"
чарсеты должны занимать не весь диапазон 0x80-0xff, а только
0xa0-0xff. Скорее всего, это сделано из соображений, чтобы
их можно было "упихать" в семибитную кодировку, что сейчас
мало актуально. При семибитной кодировке восьмой бит отрезается
и чарсет "падает" на символы ASCII, а коды 0x80-0x9f на "управляющие".

  В этой связи очень интересно выглядит один из основных аргументов
"за koi8" - если ему отрезать восьмой бит, то все можно будет прочитать.
  Что можно будет прочитать из псевдографики?

   Ну так и вот. В том диапазоне, который остается чарсету (96 символов),
едва влезает кириллица с украинскими и белорусскими буквами.
   Никакой псевдографики и "пунктуации" там не разместить.

  Кстати, как я уже писал (кажется) в "иксах" и на вводе, и в фонтах
то, что называется koi8 представляет собой только алфавит без
псевдографики.

(Я догадываюсь - откуда в koi8-r псевдографика. В тех стандартах,
на которые ссылается Чернов ее естественно нет. Он тогда занимался
e-mail'овым софтом, а клиентские машины были в основном под DOS'ом.
И у Чернова была задача - не отказываясь от любимой КОИ8 "затолкать"
туда все, что было в cp866. :-)

> >Переходить на 1251. По крайней мере в тех приложениях, в которых нужен
> >EURO. Это не так сложно, но требует создания небольшой группы
> >единомышленников, которые будут патчить все библиотки, работающие с
> >кодировками. Если заодно добавить 1250, то восточноевропейцы будут нам
> >благодарны. Криков будет много, так как это шаг по пути свободы выбора,
> >а не по Unix way.

  Я подозреваю, что koi8 живет в основном за счет "религиозных войн" -
Unix vs Microsoft.

>  К сожалению, X-ы не содержат такой возможности *расширения*.
> Собственно, на этом, мне кажется, и надо сосредоточить усилия.
> Разработать механизм динамического подключения любых кодировок.
> Тогда и Windows-1251 и Windows-1250 и любые User Defined
> подключались бы легко. А нам осталось бы только написать

  Вот это точно!

to AEN: у меня уже была такая мысль - зачем встраивать в Xlib  таблицы
для всех возможных кодировок. Когда реально для приложения нужны одна-две.
  Их надо при старте зачитывать из файлов (как и XLC_LOCALE).
Тогда подключение новых кодировок можно было бы сделать полностью
через файлы locale (кстати, и sequenc'ы и даже полные описания свойств
charset'ов уже сейчас можно задавать в XLC_LOCALE, а не "прошивать" в Xlib).

>  А лучше сделать X-ы полностью UNICODE. И не UTF-8, а
> настоящий UCS-2. Хватит таскать I18N через игольное ушко
  А кто такой UCS-2? И чем он "круче" UTF-8?
(Про UCS4 знаю, и чем он _хуже_ UTF-8 - тоже :-)

-- 
 Ivan U. Pascal         |   e-mail: pascal@tsu.ru
   Administrator of     |   Tomsk State University
     University Network |       Tomsk, Russia