DJVu - DjVu
Dosya adı uzantıları |
.djvu, .djv
|
---|---|
İnternet medya türü |
image/vnd.djvu, image/x-djvu |
sihirli sayı | AT&T |
Tarafından geliştirilmiş | AT&T Laboratuvarları – Araştırma |
İlk sürüm | 1998 |
En son sürüm | Sürüm 3.5.28 (8 Ocak 2021 ) |
Biçim türü | Görüntü dosyası biçimleri |
İçeriği: | Değişim Dosyası Formatı |
Açık biçim ? | DjVu Referans Kitaplığı ve DjVuLibre-3.5 için GNU GPLv2; Kitaplığın özelliklerini kapsayan çeşitli patentler için GNU GPL kapsamında verilen lisanslar |
DjVu ( / ˌ d eɪ ʒ ɑ hac Û / DAY -zhah- VOO , Fransız "gibi dejavunun ") a, bilgisayar dosya biçimi depolamak amacıyla tasarlanmış taranmış belgeler , özellikle metin bir kombinasyonunu ihtiva eden bu, çizimler endeksli rengi resimler , fotoğraflar. Metin ve arka plan/görüntülerin görüntü katmanı ayrımı, aşamalı yükleme , aritmetik kodlama ve iki tonlu ( tek renkli ) görüntüler için kayıplı sıkıştırma gibi teknolojileri kullanır . Bu, yüksek kaliteli, okunabilir görüntülerin minimum alanda saklanmasına ve böylece web'de kullanıma sunulmasına olanak tanır .
DjVu, taranan belgelerin çoğu için PDF'den daha küçük dosyalar sağladığı için tanıtılmıştır . DjVu geliştiricileri, renkli dergi sayfalarının sıkıştırıldığını 40-70 kB'a, siyah-beyaz teknik kağıtların 15-40 kB'ye ve eski el yazmalarının yaklaşık 100 kB'ye sıkıştırdığını bildiriyor; tatmin edici bir JPEG görüntüsü tipik olarak 500 kB gerektirir. PDF gibi, DjVu da bir OCR metin katmanı içerebilir , bu da kopyalama ve yapıştırma ve metin arama işlemlerini gerçekleştirmeyi kolaylaştırır .
Ücretsiz içerik oluşturucular, manipülatörler, dönüştürücüler, Web tarayıcı eklentileri ve masaüstü görüntüleyiciler mevcuttur. DjVu, Linux ( Okular , Evince ), Windows ( Okular , SumatraPDF ) ve Android (FBReader, EBookDroid, PocketBook ) üzerinde bir dizi çok formatlı belge görüntüleyici ve e-kitap okuyucu yazılımı tarafından desteklenir .
Tarih
DjVu teknoloji aslında tarafından geliştirilen Yann LeCun , Léon Bottou , Patrick Haffner'e , Paul G. Howard , Patrice Simard ve Yoshua Bengio de AT & T Labs 1996'dan 2001'e kadar.
PDF'nin 2008'de standardizasyonundan önce , o zamanlar PDF'nin tescilli doğasının aksine, açık bir dosya formatı olduğu için DjVu üstün kabul ediliyordu . Bildirilen daha yüksek sıkıştırma oranı (ve dolayısıyla daha küçük dosya boyutu) ve büyük hacimli metinleri DjVu formatına dönüştürmenin iddia edilen kolaylığı, 2004'ün teknoloji ortamında DjVu'nun PDF'ye göre üstünlüğünün diğer argümanlarıydı. Bağımsız teknoloji uzmanı Brewster Kahle 2004'te yaptığı bir konuşmada IT Conversations'da DjVu dosyalarına daha kolay erişim sağlamanın yararları tartışıldı.
DjVuLibre açık kaynak paketinin bir parçası olarak dağıtılan DjVu kitaplığı , DjVu formatı için referans uygulaması haline geldi. DjVuLibre, 2002'den beri DjVu'nun orijinal geliştiricileri tarafından korunmakta ve güncellenmektedir.
DjVu dosya formatı spesifikasyonu, en sonuncusu 2005'ten olmak üzere bir dizi revizyondan geçmiştir.
Sürüm | Yayın tarihi | Notlar | |
---|---|---|---|
1–19 | 1996–1999 | Formatın LizardTech'e satışından önceki AT&T laboratuvarlarının geliştirme sürümleri . | |
Sürüm 20 | Nisan 1999 | DjVu sürüm 3. DjVu, tek sayfa biçiminden çok sayfalı biçime değiştirildi. | |
Sürüm 21 | Eylül 1999 | Dolaylı depolama biçimi değiştirildi. Aranabilir metin katmanı eklendi. | |
Sürüm 22 | Nisan 2001 | Sayfa yönü, renkli JB2 | |
Sürüm 23 | Temmuz 2002 | müşteri kimliği öbeği | |
Sürüm 24 | Şubat 2003 | LTAnno yığın | |
Sürüm 25 | Mayıs 2003 | NAVM yığını. DjVu yer imleri (anahatlar) için destek eklendi. Sürüm 23 ve 24 tarafından yapılan değişiklikler geçersiz kılındı. | |
Sürüm 26 | Nisan 2005 | Metin/satır açıklamaları | |
Efsane:
Eski versiyon
Eski sürüm, hala korunuyor
En son sürüm
En son önizleme sürümü
|
Yazılım ekosistemindeki rol
DjVu formatının birincil kullanımı, basılı belgelerle karşılaştırılabilir kalitede belgelerin elektronik olarak dağıtılması olmuştur. Bu niş aynı zamanda PDF için birincil kullanım olduğundan, iki biçimin rakip olması kaçınılmazdı. Bununla birlikte, iki biçimin yüksek çözünürlüklü belgeleri sağlama sorununa çok farklı şekillerde yaklaştığı gözlemlenmelidir: PDF, öncelikle grafikleri ve metni vektörleştirilmiş veriler olarak kodlarken, DjVu bunları öncelikle pixmap görüntüleri olarak kodlar . Bu, PDF'nin belgeyi oluşturma yükünü okuyucuya, DjVu'nun ise yaratıcıya yüklemesi anlamına gelir .
Birkaç yıl boyunca, DjVu'nun geliştirildiği dönemle önemli ölçüde örtüşen, ücretsiz işletim sistemleri için PDF görüntüleyici yoktu - özel bir engel, küçük dosya boyutunu yüksek çözünürlükle birleştirmek için gerekli olan vektörleştirilmiş yazı tiplerinin oluşturulmasıydı. PDF. DjVu'yu görüntülemek, özgür yazılımın mevcut olduğu daha basit bir sorun olduğundan, özgür yazılım hareketinin dokümantasyonu dağıtmak için PDF yerine DjVu kullanması gerektiğine dair öneriler vardı ; DjVu oluşturmak için işleme, ilke olarak, aygıta özel bir yazıcı sürücüsü için işleme yapmaktan çok farklı değildir ve DjVu, son çare olarak, kağıt ortamın taranmasından oluşturulabilir. Ancak 2000 yılında FreeType 2.0 tüm büyük vektörlü yazı tipi biçimlerinin görüntülenmesini sağlamaya başladığında, DjVu'nun bu özel avantajı azalmaya başladı.
2000'li yıllarda büyümesi ile world wide web ve yaygınlaşmasının önce geniş bant , DjVu genellikle kabul edildi dijital kütüphanelerin kendi seçtikleri biçimi olarak, benzeri yazılımlar ile entegrasyon sayesinde Greenstone ve Internet Archive , tarayıcı eklentileri gelişmiş izin hangi çevrimiçi tarama, kitap taramaları ve diğer resim ağırlıklı belgeler ve gömme ve tam metnini aramayı destek karşılaştırılabilir kalitesi için daha küçük dosya boyutu OCR . Küçük resim önizlemeleri gibi bazı özellikler daha sonra İnternet Arşivi'nin Kitap Okuyucusuna entegre edildi ve DjVu tarama, 2015 civarında bazı büyük tarayıcılar onlarla NPAPI ve DjVu eklentilerini desteklemeyi bıraktığı için lehine kaldırıldı .
DjVu.js Viewer , eksik eklentileri değiştirmeye çalışır.
Teknik Genel Bakış
dosya yapısı
DjVu dosya formatı, Değişim Dosyası Formatını temel alır ve hiyerarşik olarak organize edilmiş parçalardan oluşur. IFF yapısından önce 4 baytlık bir AT&T
sihirli sayı gelir . Aşağıda , sırasıyla, tek sayfalık veya çok sayfalı bir belge için FORM
ya DJVU
da ikincil tanımlayıcısı olan tek bir yığın DJVM
verilmiştir.
Paketlenmiş belgeler olarak adlandırılan durumda tüm parçalar tek bir dosyada bulunabilir veya birkaç dosyada bulunabilir: her sayfa için bir dosya artı paylaşılan parçalara sahip bazı dosyalar.
Parça türleri
yığın tanımlayıcısı | İçeriği: | Açıklama |
---|---|---|
FORM: DJVU | FORM: DJVM | Tek bir sayfayı tanımlar. Bir belgenin kökünde olabilir ve tek sayfalık bir belge olabilir veya bir DIRM yığından atıfta bulunulabilir .
|
FORM: DJVM | Yok | Çok sayfalı bir belgeyi tanımlar. Belgenin kök öbeğidir. |
FORM: DJVI | FORM: DJVM | Birden çok sayfa tarafından paylaşılan verileri içerir. |
FORM: THUM | FORM: DJVM | Küçük resimler içerir. |
BİLGİ | FORM: DJVU | İlk parça olmalı. Sayfa genişliğini, yüksekliğini, biçim sürümünü, çözünürlüğü , gamayı ve dönüşü açıklar . |
DIRM | FORM: DJVM | İlk parça olmalı. Diğer FORM parçalara atıfta bulunur . Bu öbekler, öbek içindeki bu öbeği takip edebilir FORM:DJVM veya harici dosyalarda bulunabilir. Bu tür belgeler sırasıyla toplu veya dolaylı olarak adlandırılır .
|
NAVM | FORM: DJVM | Varsa, DIRM yığını hemen takip etmelidir . Belgenin BZZ ile sıkıştırılmış bir taslağını içerir.
|
ANTa, ANTz | FORM: DJVI veya FORM: DJVU | Ek açıklamalar. |
TXT, TXTz | FORM: DJVU | Unicode metin ve düzen bilgileri. |
DAHİL | FORM: DJVU | Dahil edilen bir FORM::DJVI yığının kimliği .
|
Sjbz | FORM: DJVU | Maskeyi depolamak için kullanılan BZZ sıkıştırılmış JB2 iki tonlu verileri. |
djbz | FORM: DJVI veya FORM: DJVU | Paylaşılan şekil tablosu. |
WMRM | ? | Bir filigranı kaldırmak için gereken JB2 verileri. |
|
FORM: DJVU | Bilinmeyen içeriğe sahip eski yığın. |
Sıkıştırma
DjVu, tek bir görüntüyü birçok farklı görüntüye böler ve ardından bunları ayrı ayrı sıkıştırır. Bir DjVu dosyası oluşturmak için ilk görüntü önce üç görüntüye ayrılır: arka plan görüntüsü, ön plan görüntüsü ve maske görüntüsü. Arka plan ve ön plan görüntüleri tipik olarak daha düşük çözünürlüklü renkli görüntülerdir (örneğin, 100 dpi); maske görüntüsü, yüksek çözünürlüklü iki düzeyli bir görüntüdür (örneğin, 300 dpi) ve tipik olarak metnin depolandığı yerdir. Arka plan ve ön plan görüntüleri daha sonra IW44 adlı dalgacık tabanlı bir sıkıştırma algoritması kullanılarak sıkıştırılır . Maske görüntü (benzer bir yöntem olup adı JB2 kullanılarak sıkıştırılır JBIG2'den ). JB2 kodlama yöntemi, belirli bir yazı tipi, stil ve boyutta belirli bir karakterin birden çok oluşumu gibi sayfada neredeyse aynı şekilleri tanımlar. Her benzersiz şeklin bitmap'ini ayrı ayrı sıkıştırır ve ardından her şeklin sayfada göründüğü konumları kodlar. Böylece belirli bir yazı tipinde bir "e" harfini birden çok kez sıkıştırmak yerine, "e" harfini bir kez sıkıştırır (sıkıştırılmış bir bit görüntüsü olarak) ve ardından sayfada bulunduğu her yeri kaydeder.
İsteğe bağlı olarak, bu şekiller UTF-8 kodlarına (el ile veya potansiyel olarak bir metin tanıma sistemi tarafından) eşlenebilir ve DjVu dosyasında saklanabilir. Bu eşleme mevcutsa, metni seçmek ve kopyalamak mümkündür.
JB2 (DjVuBitonal olarak da adlandırılır), aynı prensipler üzerinde çalışan JBIG2'nin bir varyasyonu olduğundan, kayıplı sıkıştırma gerçekleştirirken her iki sıkıştırma yöntemi de aynı sorunları yaşar. 2013'te, Xerox fotokopi makinelerinin ve tarayıcıların, benzer görünenlerin yerine rakamları koyduğu ortaya çıktı; örneğin, 6 yerine 8 yerine bir DjVu belgesi, vahşi doğada, n ve kanayan seriflerin au'ya dönüşmesi gibi karakter değişiklikleriyle tespit edildi. ve içinde bir nokta bulunan bir o, bir e'ye dönüşüyor. Kayıplı sıkıştırmanın oluşup oluşmadığı dosyada saklanmaz ve DjView görüntüleme uygulaması, ne kayıplı bir sıkıştırılmış dosyayı açarken ne de Bilgi veya Meta Veri iletişim kutularında glif değişimlerinin meydana gelmiş olabileceği konusunda kullanıcıyı uyarmaz.
Biçim lisansı
DjVu, patentleri olan açık bir dosya formatıdır . Dosya biçimi belirtimi ve başvuru kitaplığı için kaynak kodu yayınlanır. Orijinal yazarlar , GNU Genel Kamu Lisansı altında " DjVuLibre " adlı açık kaynaklı bir uygulama dağıtırlar . Kodlama yazılımının ticari geliştirme hakları, AT&T Corporation , LizardTech , Celartem ve Cuminas dahil olmak üzere yıllar içinde farklı şirketlere devredildi .
Celartem, LizardTech ve Extensis'i satın aldı .
Destek
DjVu, tarama ve görüntüleme yazılımı tarafından yaygın olarak desteklenmemektedir. İzleyiciler indirilebilirken, DjVu dosyalarının açılması varsayılan olarak çoğu işletim sisteminde uygulanmaz. Ana istisna, çoğu Linux dağıtımıdır .
2002 yılında, DjVu dosya formatı, İnternet Arşivi tarafından Milyon Kitap Projesi'nin taranmış kamu malı kitapları çevrimiçi olarak ( TIFF ve PDF ile birlikte) sağladığı bir format olarak seçildi . Şubat 2016'da İnternet Arşivi, DjVu'nun artık yeni yüklemeler için kullanılmayacağını duyurdu.
Diğerlerinin yanı sıra Wikipedia tarafından kullanılan bir medya deposu olan Wikimedia Commons , PDF ve DjVu medya dosyalarına koşullu olarak izin verir.
Ayrıca bakınız
- Uluslararası Görüntü Birlikte Çalışabilirlik Çerçevesi (IIIF)
- JBIG2
- E-kitap formatlarının karşılaştırılması
Referanslar
Dış bağlantılar
- DjVu belgeleri koleksiyonu (çoğunlukla ayrıştırılmış)
- DjVuLibre sitesi
- Mevcut Firefox ve Chrome ile kullanılabilen DjVu.js Viewer sitesi
- pdf2djvu Jakub Wilk'in araçları
- djvu.org (anonim bir web yöneticisi tarafından korunur)
- djvu.com ("DjVu Universe") (Caminova Corporation)
- Cuminas Corporation – Yazılım İndirmeleri
- Cuminas DjVu SDK DjVu kod çözücü/kodlayıcı kitaplığı
- (2001) DjVu belgesine gerçek bir bağlantı