UPD. Много полезной информации о DjVu + меня поправили + продолжение разговора. Снимается часть моих возражений (например, про принципиальную невозможность поиска). Остаётся вопрос трудозатрат на OCR и вёрстку для DjVu, в сравнении с PDF. Также у нас с Kindle остаётся принципиальный вопрос про применимость фиксированной, а не плавающей вёрстки (в pdf и djvu) для мобильных устройств и ебуков. Несмотря на то, что вопрос вроде бы не про формат, он отчасти и про формат: DjVu в отличие от PDF, заявлен как принципиально электронный, для чтения с экрана.
В каких областях DjVu обладает значимыми преимуществами перед текстово-картиночными форматами вроде pdf?
Это я читал, но имхо всё сказанное там описывает не формат для чтения, а некий промежуточный вариант. Типа, сосканировал, OCRить лень или нет времени, быстренько завернул в дежавю и скинул друзьям-товарищам. Мол, нате, мучайтесь дальше сами. Ну да, размер якобы маленький (см. ниже). Но и удобство немногим больше, чем у папки со сканами в jpg аналогичных размеров.
Для документов, в которых много картинок и формул, этот формат тоже не очень удобен. Какая плотность формул требуется, чтобы заодно и весь остальной текст переводить в графику? А если формул относительно мало, то ографичивание здорово напортит тексту. Да, формулы там будут неискажёнными. Картинки тоже. Но так ли много документов, состоящих исключительно из монохромных иллюстраций и восьмиэтажных уравнений? Даже если они есть, в любом случае их явно не большинство.
Вот взял я книжку по микроэлектронике. В djvu. Средняя плотность изображений — одно на две-три страницы. Формул ещё меньше. А остальное — потерянный текст. И таких книг среди наблюдаемых мной DjVu, подавляющее большинство.
- Масштабировать его сложно, потому что графика.
- Вписать в экран ебука муторно, потому что картинка.
- Поиска по тексту нет, потому что изображение.
- Скопировать текст нельзя, потому что рисунок.
- Разбиение на страницы не по моему экрану, а как сосканировано, потому что растр.
Отоусиэреный PDF без оптимизации занимает 7 Мб, оригинал же — 17 Мб. Что, чёрт возьми, логично — тексты можно очень хорошо жать и хаффманом, и кучей других алгоритмов. А у сжатия картинок без существенных потерь, есть свои ограничения.
Ну и что, кроме лени, этот формат оправдывает?