[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UNICODE in Windows'95



> 
> Hi!
> 
> Посмотрел: http://www.sensi.org/~alec/unicode/win95.html#offi,
> увы, не все так хорошо.
> 
> Вот эта фраза меня сильно смущает:
> >    Microsoft Office'97 имеет весьма мощную поддержку UNICODE. Более того,
> >по видимому все внутреннее
> >представление символов происходит в UNICODE.
> 
> Конкретно про Word8: UNICODE используется весьма странно, не всегда - его нет
> для Latin1, идет обычный 8бит, а для русского - именно USC-2, даже не UTF8!!!
> 
Так как на этой странице все осталось без изменений, и на нее ссылаются,
то позволю себе продолжить:

На прежнее письмо отозвался автор catdoc, Victor Wagner, и вот что
он выяснил об Word.Document.8 (что и есть Word из MS Office'97 -))), 
кроме того о чем писал я (эта часть нашей переписки с его разрешения):

> Вот кайф какой. Оказывается деление Unicode/не-Unicode происходит не по
> абзацам, а по 256-байтным блокам. Попробовать что-ли из mswordview украсть
> код, который это определяет.
> 
Мой текст о catdoc 0.91
> > Кстати, в дагонку: catdoc и просто чистый latin1 в Word.Document.8 сам
> > без ключа -8 не понимает (которого нет в "Usage: catdoc" -((
> > Пример: файл readme-v97.doc от "Microsoft Word Viewer 97 Readme".
> 
> Еще интереснее. В доке с whatsit написано что этот флаг означает
> "Document uses extended character set" а на практике выясняется,
> что это всего лишь значит "Документ создан Word8 и выше". 
> В общем, придется для каждого 256-байтного блока Unicode/неUnicode
> определять отдельно, что решит обе проблемы.  

А так же со странице catdoc:

Revision history

0.91.1 October 15 1999 
     As it was expected it was wrong decision to believe information about extended charset from
     word document header. Now we analyze encoding for each 256-byte page separately
     (becouse it is possible that first ones would be 8-bit and other 16-bit). When processing
     non-word files (i.e. plain text) encodings are converted and -u is taken into account, so catdoc
     can be used as generic character converter, which supports utf8 and utf16 (both byteorders)
     as input. 

Увы, кривость так и преследует реализацию unicode в Word8.

Так же хотел заметить об письме Alexа Vakulenko об Office'97, там 
то же есть не совсем корректные фразы.

-- 

                      С наилучшими пожеланиями, Евгений Бырганов.
                      Best regards, Eugene Byrganov

  mailto:E.B.Byrganov@inp.nsk.su.remove-this.
  work - http://www.inp.nsk.su/