[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: sort & locale



Hi!

>>>Интересный вопрос. Принадлежность символов к определенному алфавиту (не
>>>кодировке!) _должна_ быть известна при вводе!
>>
>>  Что имеется в виду под термином "алфавит" ? Атрибут текста "language" ?
>> Или Character Set ?
>
>Алфавит (в данном контексте) - набор специфических символов Это заведомо не
>Character Set в смысле POSIX (KOI8-R, например, содержит латинский алфавит)
и
>не атрибут _текста_. Алфавит определяется перечислением и, возможно (но не
в
>нашем случае), правилами порождения.

Ой. Если мы сейчас залезем в филологические дебри, мы там и останемся. :-)
Попробуйте например "на раз" объяснить разницу между терминами "знак" и
"символ", или попроще : между терминами "фонт" и "шрифт" :-)

>Один из вариантов такого определения - keysymdef.h из Xlib. Cyrillic_Ghe не
>принадлежит какому либо Charset, он может интерпретироваться как элемент
>Charset только в контексте locale. Кстати, описание locale имеет дело
именно с
>алфавитами (или одним большим алфавитом), но не с charset и, тем более, не
с
>аттрибутом текста.


К сожалению, я не разбирал модель локализации X, вполне допускаю что там
все иначе. Но термин "алфавит" - "alphapet" (?) встречается только в
описаниях
Latin1 : Latin Alphapet N1.

Вернее так : есть атрибут текста "language". Этот "language" имеет систему
(может не одну) письменности : "script". У этого "script" есть понятие
"character repertoire" (если письмо посимвольное). Каждый "character" имеет
каноническое изображение "glyph" (если символы отображаются графически).
Варианты multi-language и multi-script текстов не рассматриваем.

Естественно, КАЖДЫЙ термин здесь довольно зыбок, и "символ" и "язык"
и даже "текст". Это лишь ОДНА из возможных классификаций. И открывать
научную дискуссию, IMHO бесмысленно, есть специальные журналы :-)
Например, для русского и украинского языков символ "A" это один и
тот же ? В UNICODE, например, считается, что да. А символ "A" для
болгарского и польского ? Разные ? И т.д. Проблем масса.

Вы не будете спорить, что при такой схеме из "язык" --> однозначно следует
"character repertoire". Это то, что имелось в виду под термином "алфавит" ?

Locale состоит из двух главных компонент : "язык" и "территория". Опять
некоторая зыбкость терминологии, но "язык" это примерно то, что описано
выше.

Если в X по другому, с удовольствием выслушаю разъяснение идеи. Но ведь
если для отображения этого "Cyrillic_Ghe" будет выводиться "три вертикальных
черты" меня неправильно поймут... :-) Это к тому, что X, как система
ориенированная на *отображение* по видимому больше ориентирована под
кодирование неких абстрактных "glyph"-ов и сквозной пронос их :
   с клавиатуры --> через приложение --> на отображение.
Причем, кодировка - это отдельная тема. В конференции недавно был
удивленный вопрос "А почему внутри X не UNICODE ?".


--
-=AV=-