Özel Ürünler (Unicode blok) - Specials (Unicode block)

Özel
Menzil U+FFF0..U+FFFF
(16 kod noktası)
Uçak BMP
Kodlar Yaygın
Atandı 5 kod noktası
kullanılmamış 9 ayrılmış kod noktası
2 karakter olmayan
Unicode sürüm geçmişi
1.0.0 (1991) 1 (+1)
2.1 (1998) 2 (+1)
3.0 (1999) 5 (+3)
Not :

Özeller , Temel Çok Dilli Düzlemin en sonunda , U+FFF0–FFFF'de tahsis edilen kısa bir Unicode bloğudur . Bu 16 kod noktasından beşi Unicode 3.0'dan beri atanmıştır:

  • U+FFF9 INTERLINEAR ANOTATION ANCHOR , açıklamalı metnin başlangıcını işaretler
  • U+FFFA INTERLINEAR ANNOTATION SEPARATOR , açıklama ekleyen karakter(ler)in başlangıcını işaretler
  • U+FFFB DOĞRUSAL ANLATASYON SONLANDIRICI , açıklama bloğunun sonunu işaretler
  • U+FFFC NESNE DEĞİŞTİRME KARAKTER , başka bir belirtilmemiş nesne için metinde yer tutucu, örneğin birbileşik belgede.
  • U+FFFD DEĞİŞTİRME KARAKTERİ bilinmeyen, tanınmayan veya temsil edilemeyen bir karakterin yerini almak için kullanılır
  • U+FFFE <noncharacter-FFFE> bir karakter değil.
  • U+FFFF <noncharacter-FFFF> bir karakter değil.

FFFE ve FFFF, olağan anlamda atanmamış değildir, ancak Unicode karakterleri olmayacağı garanti edilir . Bir metnin kodlama şemasını tahmin etmek için kullanılabilirler, çünkü bunları içeren herhangi bir metin tanım gereği doğru kodlanmış bir Unicode metni değildir. Unicode'un U+FEFF BYTE SİPARİŞ İŞARETİ karakteri, endian olduğunu belirtmek için bir Unicode metninin başına eklenebilir : böyle bir metni okuyan ve 0xFFFE ile karşılaşan bir program, daha sonra, aşağıdaki tüm karakterler için bayt sırasını değiştirmesi gerektiğini bilir.

Unicode 1.0'daki blok adı Special idi .

Yedek karakter

Yedek karakter

Yedek karakteri (genellikle siyah olarak görüntülenir rhombus beyaz soru işareti) bulunan bir semboldür Unicode kod noktası U + FFFD de standart Özel masaya. Bir sistem bir veri akışını doğru bir sembole dönüştüremediğinde sorunları belirtmek için kullanılır. Genellikle veriler geçersiz olduğunda ve herhangi bir karakterle eşleşmediğinde görülür:

ISO-8859-1 kodlamasında ( ) Almanca für ("için" anlamına gelir) kelimesini içeren bir metin dosyası düşünün . Bu dosya şimdi girdinin UTF-8 olduğunu varsayan bir metin düzenleyiciyle açılır . İlk ve son bayt, ASCII'nin geçerli UTF-8 kodlamalarıdır, ancak ortadaki bayt ( ) UTF-8'de geçerli bir bayt değildir. Bu nedenle, bir metin düzenleyici, geçerli bir Unicode kod noktası dizesi oluşturmak için bu baytı değiştirme karakter simgesiyle değiştirebilir . Tüm dize şimdi şu şekilde görüntülenir: "f r". 0x66 0xFC 0x720xFC

Kötü uygulanmış bir metin düzenleyici, değiştirmeyi UTF-8 biçiminde kaydedebilir; metin dosyası verileri daha sonra şöyle görünecektir: 0x66 0xEF 0xBF 0xBD 0x72, ISO-8859-1'de "fï ¿½r" olarak görüntülenecektir (buna mojibake denir ). Değiştirme tüm hatalar için aynı olduğundan, orijinal karakteri kurtarmayı imkansız hale getirir. Daha iyi (ancak uygulanması daha zor) bir tasarım, hata da dahil olmak üzere orijinal baytları korumak ve yalnızca metni görüntülerken değiştirmeye dönüştürmektir . Bu, metin düzenleyicinin orijinal bayt sırasını kaydetmesine ve aynı zamanda kullanıcıya hata göstergesini göstermesine olanak tanır.

Bir zamanlar, o karakter için bir yazı tipinde mevcut bir glif olmadığında değiştirme karakteri sıklıkla kullanılıyordu. Ancak çoğu modern metin işleme sistemi bunun yerine bir yazı tipinin .notdef karakterini kullanır; bu çoğu durumda boş bir kutudur (veya bir kutuda "?" veya "X") ve bazen " tofu " olarak adlandırılır (bu tarayıcıda ???? ). Bu sembol için Unicode kod noktası yoktur.

Bu nedenle, değiştirme karakteri artık yalnızca geçersiz UTF-8 gibi kodlama hataları için görülüyor. Bazı yazılımlar, geçersiz UTF-8'in baytlarını Windows-1252'deki eşleşen karakterlere çevirerek (çünkü bu hataların en olası kaynağı bu olduğundan), değiştirilen karakterin asla görülmemesi için bunu gizlemeye çalışır .

Unicode grafik

Özel Ürünler
Resmi Unicode Konsorsiyumu kod şeması (PDF)
  0 1 2 3 4 5 6 7 8 9 A B C NS E F
U+FFFx  IA 
A
 IA 
S
 IA 
T
Notlar
1. ^ Unicode 14.0 sürümünden itibaren
2. ^ Gri alanlar atanmamış kod noktalarını gösterir
3. ^ Siyah alanlar karakter olmayanları belirtir (Unicode Standardında asla kodlanmış karakterler olarak atanmamaları garanti edilen kod noktaları)

Tarih

Aşağıdaki Unicode ile ilgili belgeler, Özeller bloğunda belirli karakterleri tanımlamanın amacını ve sürecini kaydeder:

Sürüm Son kod noktaları Saymak UTC  Kimliği L2  kimliği WG2  kimliği Belge
1.0.0 U+FFFD 1 (belirlenecek)
U+FFFE..FFFF 2 (belirlenecek)
L2/01-295R Moore, Lisa (2001-11-06), "Hareket 88-M2", UTC/L2 toplantısından Dakikalar #88
L2/01-355 N2369 (html , belge ) Davis, Mark (2001-09-26), ISO/IEC 10646 metninde UTF-8'de FFFF, FFFE'ye izin verme isteği
L2/02-154 N2403 Umamaheswaran, VS (2002-04-22), "9.3 UTF-8'de FFFF ve FFFE'ye İzin Verme", WG 2 toplantısı 41'in taslak tutanakları, Hotel Phoenix, Singapur, 2001-10-15/19
2.1 U+FFFC 1 UTC/1995-056 Sargent, Murray (1995-12-06), WCH_EMBEDDING karakterini kodlama önerisi
UTC/1996-002 Aliprand, Joan; Hart, Edwin; Greenfield, Steve (1996-03-05), "Gömülü Nesneler", UTC #67 Dakika
N1365 Sargent, Murray (1996-03-18), Teklif Özeti – Nesne Değiştirme Karakteri
N1353 Umamaheswaran, VS; Ksar, Mike (1996-06-25), "8.14", WG2 Kopenhag Toplantısının taslak tutanakları # 30
L2/97-288 N1603 Umamaheswaran, VS (1997-10-24), "7.3", Onaylanmamış Toplantı Tutanakları, WG 2 Toplantısı # 33, Kandiye, Girit, Yunanistan, 20 Haziran – 4 Temmuz 1997
L2/98-004R N1681 PDAM kaydı ve FPDAM oylaması için ISO 10646 – AMD 18 metni , 1997-12-22
L2/98-070 Aliprand, Joan; Winkler, Arnold, "2.1 ile ilgili ek yorumlar", Cupertino'daki toplantıdan ortak UTC ve L2 toplantısının tutanakları, 25-27 Şubat 1998
L2/98-318 N1894 10646-1/FPDAM 18, DEĞİŞİKLİK 18'in gözden geçirilmiş metni: Semboller ve Diğerleri , 1998-10-22
3.0 U+FFF9..FFFB 3 L2/97-255R Aliprand, Joan (1997-12-03), "Satır İçi Notasyon için 3.D Önerisi (yakut)", Onaylanmış Dakikalar – UTC #73 & L2 #170 ortak toplantı, Palo Alto, CA – 4-5 Ağustos 1997
L2/98-055 Freytag, Asmus (1998-02-22), Satır İçi ve Satırlar Arası Açıklamaları Uygulama Desteği
L2/98-070 Aliprand, Joan; Winkler, Arnold, "3.C.5. Satır içi ve satırlar arası ek açıklamaların uygulanması için destek", Cupertino'daki toplantıdan ortak UTC ve L2 toplantısının tutanakları, 25-27 Şubat 1998
L2/98-099 N1727 Freytag, Asmus (1998-03-18), Doğu Asya Tipografisinde kullanılan Satırlararası Açıklamaları Uygulama Desteği
L2/98-158 Aliprand, Joan; Winkler, Arnold (1998-05-26), "Inline and Interlinear Annotations", Taslak Dakikalar – UTC #76 ve NCITS Alt Grup L2 #173 ortak toplantı, Tredyffrin, Pennsylvania, 20-22 Nisan 1998
L2/98-286 N1703 Umamaheswaran, VS; Ksar, Mike (1998-07-02), "8.14", Onaylanmamış Toplantı Tutanakları, WG 2 Toplantısı #34, Redmond, WA, ABD; 1998-03-16--20
L2/98-270 Hiura, Hideki; Kobayashi, Tatsuo (1998-07-29), satır içi ve satırlar arası açıklama önerisine öneri
L2/98-281R (pdf , html ) Aliprand, Joan (1998-07-31), "In-Line and Interlinear Annotation (III.C.1.c)", Onaylanmamış Dakikalar – UTC #77 & NCITS Alt Grup L2 # 174 ORTAK TOPLANTI, Redmond, WA -- Temmuz 29-31, 1998
L2/98-363 N1861 Sato, TK (1998-09-01), Yakut belirteçleri
L2/98-372 N1884R2 (pdf , belge ) Whistler, Ken; et al. (1998-09-22), UCS için Ek Karakterler
L2/98-416 N1882.zip Interlinear Annotations Uygulama Desteği , 1998-09-23
L2/98-329 N1920 ISO/IEC 10646-1/Amd için WD'de birleşik PDAM kaydı ve değerlendirme oylaması. 30, DEĞİŞİKLİK 30: Ek Latince ve diğer karakterler , 1998-10-28
L2/98-421R Suignard, Michel; Hiura, Hideki (1998-12-04), PDAM 30 satır arası açıklama karakteriyle ilgili notlar
L2/99-010 N1903 (pdf , html , belge ) Umamaheswaran, VS (1998-12-30), "8.2.15", WG 2 toplantı 35, Londra, Birleşik Krallık; 1998-09-21--25
L2/98-419 (pdf , belge ) Aliprand, Joan (1999-02-05), "Satırlar Arası Açıklama Karakterleri", Onaylanmış Dakikalar -- UTC #78 & NCITS Alt Grup L2 # 175 Ortak Toplantı, San Jose, CA -- 1-4 Aralık 1998
UTC/1999-021 Duerst, Martin; Bosak, Jon (1999-06-08), açıklama karakterleri üzerinde W3C XML CG ifadesi
L2/99-176R Moore, Lisa (1999-11-04), "Ek Açıklama Karakterleri Üzerine W3C İrtibat Beyanı", Seattle'daki ortak UTC/L2 toplantısından dakikalar, 8-10 Haziran 1999
L2/01-301 Whistler, Ken (2001-08-01), "E. Düz metin değişimi için "kesinlikle önerilmez" olarak belirtildi" , Unicode Standardında Karakter Kullanımdan Kaldırma Analizi

Ayrıca bakınız

Referanslar