DJVu - DjVu

DJVu
Djvu simgesi.svg
Dosya adı uzantıları
.djvu, .djv
İnternet medya türü
image/vnd.djvu, image/x-djvu
sihirli sayı AT&T
Tarafından geliştirilmiş AT&T Laboratuvarları – Araştırma
İlk sürüm 1998 ; 23 yıl önce ( 1998 )
En son sürüm
Sürüm 3.5.28
(8 Ocak 2021 ; 9 ay önce ) ( 2021-01-08 )
Biçim türü Görüntü dosyası biçimleri
İçeriği: Değişim Dosyası Formatı
Açık biçim ? DjVu Referans Kitaplığı ve DjVuLibre-3.5 için GNU GPLv2;
Kitaplığın özelliklerini kapsayan çeşitli patentler için GNU GPL kapsamında verilen lisanslar

DjVu ( / ˌ d ʒ ɑ hac Û / DAY -zhah- VOO , Fransız "gibi dejavunun ") a, bilgisayar dosya biçimi depolamak amacıyla tasarlanmış taranmış belgeler , özellikle metin bir kombinasyonunu ihtiva eden bu, çizimler endeksli rengi resimler , fotoğraflar. Metin ve arka plan/görüntülerin görüntü katmanı ayrımı, aşamalı yükleme , aritmetik kodlama ve iki tonlu ( tek renkli ) görüntüler için kayıplı sıkıştırma gibi teknolojileri kullanır . Bu, yüksek kaliteli, okunabilir görüntülerin minimum alanda saklanmasına ve böylece web'de kullanıma sunulmasına olanak tanır .

DjVu, taranan belgelerin çoğu için PDF'den daha küçük dosyalar sağladığı için tanıtılmıştır . DjVu geliştiricileri, renkli dergi sayfalarının sıkıştırıldığını 40-70 kB'a, siyah-beyaz teknik kağıtların 15-40 kB'ye ve eski el yazmalarının yaklaşık 100 kB'ye sıkıştırdığını bildiriyor; tatmin edici bir JPEG görüntüsü tipik olarak 500 kB gerektirir. PDF gibi, DjVu da bir OCR metin katmanı içerebilir , bu da kopyalama ve yapıştırma ve metin arama işlemlerini gerçekleştirmeyi kolaylaştırır .

Ücretsiz içerik oluşturucular, manipülatörler, dönüştürücüler, Web tarayıcı eklentileri ve masaüstü görüntüleyiciler mevcuttur. DjVu, Linux ( Okular , Evince ), Windows ( Okular , SumatraPDF ) ve Android (FBReader, EBookDroid, PocketBook ) üzerinde bir dizi çok formatlı belge görüntüleyici ve e-kitap okuyucu yazılımı tarafından desteklenir .

Tarih

DjVu teknoloji aslında tarafından geliştirilen Yann LeCun , Léon Bottou , Patrick Haffner'e , Paul G. Howard , Patrice Simard ve Yoshua Bengio de AT & T Labs 1996'dan 2001'e kadar.

PDF'nin 2008'de standardizasyonundan önce , o zamanlar PDF'nin tescilli doğasının aksine, açık bir dosya formatı olduğu için DjVu üstün kabul ediliyordu . Bildirilen daha yüksek sıkıştırma oranı (ve dolayısıyla daha küçük dosya boyutu) ve büyük hacimli metinleri DjVu formatına dönüştürmenin iddia edilen kolaylığı, 2004'ün teknoloji ortamında DjVu'nun PDF'ye göre üstünlüğünün diğer argümanlarıydı. Bağımsız teknoloji uzmanı Brewster Kahle 2004'te yaptığı bir konuşmada IT Conversations'da DjVu dosyalarına daha kolay erişim sağlamanın yararları tartışıldı.

DjVuLibre açık kaynak paketinin bir parçası olarak dağıtılan DjVu kitaplığı , DjVu formatı için referans uygulaması haline geldi. DjVuLibre, 2002'den beri DjVu'nun orijinal geliştiricileri tarafından korunmakta ve güncellenmektedir.

DjVu dosya formatı spesifikasyonu, en sonuncusu 2005'ten olmak üzere bir dizi revizyondan geçmiştir.

Revizyon Geçmişi
Sürüm Yayın tarihi Notlar
Eski sürüm, artık korunmuyor: 1–19 1996–1999 Formatın LizardTech'e satışından önceki AT&T laboratuvarlarının geliştirme sürümleri .
Eski sürüm, artık korunmuyor: Sürüm 20 Nisan 1999 DjVu sürüm 3. DjVu, tek sayfa biçiminden çok sayfalı biçime değiştirildi.
Daha eski sürüm, ancak yine de korunur: Sürüm 21 Eylül 1999 Dolaylı depolama biçimi değiştirildi. Aranabilir metin katmanı eklendi.
Daha eski sürüm, ancak yine de korunur: Sürüm 22 Nisan 2001 Sayfa yönü, renkli JB2
Eski sürüm, artık korunmuyor: Sürüm 23 Temmuz 2002 müşteri kimliği öbeği
Eski sürüm, artık korunmuyor: Sürüm 24 Şubat 2003 LTAnno yığın
Daha eski sürüm, ancak yine de korunur: Sürüm 25 Mayıs 2003 NAVM yığını. DjVu yer imleri (anahatlar) için destek eklendi. Sürüm 23 ve 24 tarafından yapılan değişiklikler geçersiz kılındı.
Mevcut kararlı sürüm: Sürüm 26 Nisan 2005 Metin/satır açıklamaları
Efsane:
Eski versiyon
Eski sürüm, hala korunuyor
En son sürüm
En son önizleme sürümü
Gelecek sürüm

Yazılım ekosistemindeki rol

DjVu formatının birincil kullanımı, basılı belgelerle karşılaştırılabilir kalitede belgelerin elektronik olarak dağıtılması olmuştur. Bu niş aynı zamanda PDF için birincil kullanım olduğundan, iki biçimin rakip olması kaçınılmazdı. Bununla birlikte, iki biçimin yüksek çözünürlüklü belgeleri sağlama sorununa çok farklı şekillerde yaklaştığı gözlemlenmelidir: PDF, öncelikle grafikleri ve metni vektörleştirilmiş veriler olarak kodlarken, DjVu bunları öncelikle pixmap görüntüleri olarak kodlar . Bu, PDF'nin belgeyi oluşturma yükünü okuyucuya, DjVu'nun ise yaratıcıya yüklemesi anlamına gelir .

Birkaç yıl boyunca, DjVu'nun geliştirildiği dönemle önemli ölçüde örtüşen, ücretsiz işletim sistemleri için PDF görüntüleyici yoktu - özel bir engel, küçük dosya boyutunu yüksek çözünürlükle birleştirmek için gerekli olan vektörleştirilmiş yazı tiplerinin oluşturulmasıydı. PDF. DjVu'yu görüntülemek, özgür yazılımın mevcut olduğu daha basit bir sorun olduğundan, özgür yazılım hareketinin dokümantasyonu dağıtmak için PDF yerine DjVu kullanması gerektiğine dair öneriler vardı ; DjVu oluşturmak için işleme, ilke olarak, aygıta özel bir yazıcı sürücüsü için işleme yapmaktan çok farklı değildir ve DjVu, son çare olarak, kağıt ortamın taranmasından oluşturulabilir. Ancak 2000 yılında FreeType 2.0 tüm büyük vektörlü yazı tipi biçimlerinin görüntülenmesini sağlamaya başladığında, DjVu'nun bu özel avantajı azalmaya başladı.

2000'li yıllarda büyümesi ile world wide web ve yaygınlaşmasının önce geniş bant , DjVu genellikle kabul edildi dijital kütüphanelerin kendi seçtikleri biçimi olarak, benzeri yazılımlar ile entegrasyon sayesinde Greenstone ve Internet Archive , tarayıcı eklentileri gelişmiş izin hangi çevrimiçi tarama, kitap taramaları ve diğer resim ağırlıklı belgeler ve gömme ve tam metnini aramayı destek karşılaştırılabilir kalitesi için daha küçük dosya boyutu OCR . Küçük resim önizlemeleri gibi bazı özellikler daha sonra İnternet Arşivi'nin Kitap Okuyucusuna entegre edildi ve DjVu tarama, 2015 civarında bazı büyük tarayıcılar onlarla NPAPI ve DjVu eklentilerini desteklemeyi bıraktığı için lehine kaldırıldı .

DjVu.js Viewer , eksik eklentileri değiştirmeye çalışır.

Teknik Genel Bakış

dosya yapısı

DjVu dosya formatı, Değişim Dosyası Formatını temel alır ve hiyerarşik olarak organize edilmiş parçalardan oluşur. IFF yapısından önce 4 baytlık bir AT&T sihirli sayı gelir . Aşağıda , sırasıyla, tek sayfalık veya çok sayfalı bir belge için FORMya DJVUda ikincil tanımlayıcısı olan tek bir yığın DJVMverilmiştir.

Paketlenmiş belgeler olarak adlandırılan durumda tüm parçalar tek bir dosyada bulunabilir veya birkaç dosyada bulunabilir: her sayfa için bir dosya artı paylaşılan parçalara sahip bazı dosyalar.

Parça türleri

DjVu dosyalarındaki yığın türleri
yığın tanımlayıcısı İçeriği: Açıklama
FORM: DJVU FORM: DJVM Tek bir sayfayı tanımlar. Bir belgenin kökünde olabilir ve tek sayfalık bir belge olabilir veya bir DIRMyığından atıfta bulunulabilir .
FORM: DJVM Yok Çok sayfalı bir belgeyi tanımlar. Belgenin kök öbeğidir.
FORM: DJVI FORM: DJVM Birden çok sayfa tarafından paylaşılan verileri içerir.
FORM: THUM FORM: DJVM Küçük resimler içerir.
BİLGİ FORM: DJVU İlk parça olmalı. Sayfa genişliğini, yüksekliğini, biçim sürümünü, çözünürlüğü , gamayı ve dönüşü açıklar .
DIRM FORM: DJVM İlk parça olmalı. Diğer FORMparçalara atıfta bulunur . Bu öbekler, öbek içindeki bu öbeği takip edebilir FORM:DJVMveya harici dosyalarda bulunabilir. Bu tür belgeler sırasıyla toplu veya dolaylı olarak adlandırılır .
NAVM FORM: DJVM Varsa, DIRMyığını hemen takip etmelidir . Belgenin BZZ ile sıkıştırılmış bir taslağını içerir.
ANTa, ANTz FORM: DJVI veya FORM: DJVU Ek açıklamalar.
TXT, TXTz FORM: DJVU Unicode metin ve düzen bilgileri.
DAHİL FORM: DJVU Dahil edilen bir FORM::DJVIyığının kimliği .
Sjbz FORM: DJVU Maskeyi depolamak için kullanılan BZZ sıkıştırılmış JB2 iki tonlu verileri.
djbz FORM: DJVI veya FORM: DJVU Paylaşılan şekil tablosu.
WMRM ? Bir filigranı kaldırmak için gereken JB2 verileri.
CIDa FORM: DJVU Bilinmeyen içeriğe sahip eski yığın.

Sıkıştırma

DjVu, tek bir görüntüyü birçok farklı görüntüye böler ve ardından bunları ayrı ayrı sıkıştırır. Bir DjVu dosyası oluşturmak için ilk görüntü önce üç görüntüye ayrılır: arka plan görüntüsü, ön plan görüntüsü ve maske görüntüsü. Arka plan ve ön plan görüntüleri tipik olarak daha düşük çözünürlüklü renkli görüntülerdir (örneğin, 100 dpi); maske görüntüsü, yüksek çözünürlüklü iki düzeyli bir görüntüdür (örneğin, 300 dpi) ve tipik olarak metnin depolandığı yerdir. Arka plan ve ön plan görüntüleri daha sonra IW44 adlı dalgacık tabanlı bir sıkıştırma algoritması kullanılarak sıkıştırılır . Maske görüntü (benzer bir yöntem olup adı JB2 kullanılarak sıkıştırılır JBIG2'den ). JB2 kodlama yöntemi, belirli bir yazı tipi, stil ve boyutta belirli bir karakterin birden çok oluşumu gibi sayfada neredeyse aynı şekilleri tanımlar. Her benzersiz şeklin bitmap'ini ayrı ayrı sıkıştırır ve ardından her şeklin sayfada göründüğü konumları kodlar. Böylece belirli bir yazı tipinde bir "e" harfini birden çok kez sıkıştırmak yerine, "e" harfini bir kez sıkıştırır (sıkıştırılmış bir bit görüntüsü olarak) ve ardından sayfada bulunduğu her yeri kaydeder.

İsteğe bağlı olarak, bu şekiller UTF-8 kodlarına (el ile veya potansiyel olarak bir metin tanıma sistemi tarafından) eşlenebilir ve DjVu dosyasında saklanabilir. Bu eşleme mevcutsa, metni seçmek ve kopyalamak mümkündür.

JB2 (DjVuBitonal olarak da adlandırılır), aynı prensipler üzerinde çalışan JBIG2'nin bir varyasyonu olduğundan, kayıplı sıkıştırma gerçekleştirirken her iki sıkıştırma yöntemi de aynı sorunları yaşar. 2013'te, Xerox fotokopi makinelerinin ve tarayıcıların, benzer görünenlerin yerine rakamları koyduğu ortaya çıktı; örneğin, 6 yerine 8 yerine bir DjVu belgesi, vahşi doğada, n ve kanayan seriflerin au'ya dönüşmesi gibi karakter değişiklikleriyle tespit edildi. ve içinde bir nokta bulunan bir o, bir e'ye dönüşüyor. Kayıplı sıkıştırmanın oluşup oluşmadığı dosyada saklanmaz ve DjView görüntüleme uygulaması, ne kayıplı bir sıkıştırılmış dosyayı açarken ne de Bilgi veya Meta Veri iletişim kutularında glif değişimlerinin meydana gelmiş olabileceği konusunda kullanıcıyı uyarmaz.

Biçim lisansı

DjVu, patentleri olan açık bir dosya formatıdır . Dosya biçimi belirtimi ve başvuru kitaplığı için kaynak kodu yayınlanır. Orijinal yazarlar , GNU Genel Kamu Lisansı altında " DjVuLibre " adlı açık kaynaklı bir uygulama dağıtırlar . Kodlama yazılımının ticari geliştirme hakları, AT&T Corporation , LizardTech , Celartem ve Cuminas dahil olmak üzere yıllar içinde farklı şirketlere devredildi .

Celartem, LizardTech ve Extensis'i satın aldı .

Destek

DjVu, tarama ve görüntüleme yazılımı tarafından yaygın olarak desteklenmemektedir. İzleyiciler indirilebilirken, DjVu dosyalarının açılması varsayılan olarak çoğu işletim sisteminde uygulanmaz. Ana istisna, çoğu Linux dağıtımıdır .

2002 yılında, DjVu dosya formatı, İnternet Arşivi tarafından Milyon Kitap Projesi'nin taranmış kamu malı kitapları çevrimiçi olarak ( TIFF ve PDF ile birlikte) sağladığı bir format olarak seçildi . Şubat 2016'da İnternet Arşivi, DjVu'nun artık yeni yüklemeler için kullanılmayacağını duyurdu.

Diğerlerinin yanı sıra Wikipedia tarafından kullanılan bir medya deposu olan Wikimedia Commons , PDF ve DjVu medya dosyalarına koşullu olarak izin verir.

Ayrıca bakınız

Referanslar

Dış bağlantılar