Unicode uyumluluk karakterleri - Unicode compatibility characters

In Unicode ve UCS , bir uyumluluk karakter korumak için sadece kodlanmış bir karakterdir gidiş-dönüş konvertibilitesini , genellikle yaşlı, diğer standartlarla. Unicode Sözlüğü'nün dediği gibi:

Diğer standartlarla uyumluluk ve gidiş-dönüş dönüştürülebilirliği dışında kodlanmayacak bir karakter

Her ne kadar uyumluluk adlarında kullanılır, bu bir özellik olarak işaretlenmemiş. Ancak tanım, sözlüğün gösterdiğinden daha karmaşıktır. Unicode konsorsiyumu tarafından karakterlere verilen özelliklerden biri, karakterlerin ayrıştırılması veya uyumluluk ayrıştırmasıdır . Beş binden fazla karakter, bu uyumluluk karakterini bir veya daha fazla diğer UCS karakteriyle eşleştiren bir uyumluluk ayrıştırma eşlemesine sahiptir. Unicode, bir karakterin ayrıştırma özelliğini ayarlayarak bu karakteri bir uyumluluk karakteri olarak belirler. Bu uyumluluk tanımlarının nedenleri çeşitlidir ve aşağıda daha ayrıntılı olarak tartışılmaktadır. Ayrıştırma terimi bazen kafa karıştırır, çünkü bir karakterin ayrıştırılması bazı durumlarda bir tekil olabilir. Bu durumlarda, bir karakterin ayrıştırılması basitçe başka bir yaklaşık olarak (ancak kanonik olarak değil) eşdeğer karakterdir.

Uyumluluk karakter türleri ve anahtar sözcükler

5.402 Unicode uyumluluk karakterleri için uyumluluk ayrıştırma özelliği, uyumluluk karakterlerini 17 mantıksal gruba ayıran bir anahtar sözcük içerir. Uyumluluk ayrıştırması olan ancak anahtar sözcük içermeyen bu karakterler kurallı ayrıştırılabilir karakterler olarak adlandırılır ve bu karakterler uyumluluk karakterleri değildir. Uyumluluk ayrıştırılabilir karakterler için anahtar sözcükler şunları içerir: <initial>, <medial>, <final>, <isolated>, <wide>, <narrow>, <small>, <square>, <vertical>, <circle>, <noBreak> , <fraksiyon>, <alt>, <süper> ve <uyumlu>. Bu anahtar sözcükler, uyumluluk karakteri ile uyumluluk ayrıştırma karakter dizisi arasındaki ilişkinin bazı göstergelerini sağlar. Uyumluluk karakterleri üç temel kategoriye ayrılır:

Eksiksiz Unicode metin düzeni özelliklerini içermeyen yazılım ve yazı tipi uygulamalarını desteklemek için birden çok alternatif glif formuna ve önceden oluşturulmuş aksanlara karşılık gelen karakterler.
Unicode'un düz metin hedeflerinden ziyade zengin metin oluşturan diğer karakter kümelerinden dahil edilen veya UCS'ye başka bir şekilde eklenen karakterler .
Anlamsal olarak farklı, ancak görsel olarak benzer olan diğer bazı karakterler .

Bu anlamsal olarak farklı karakterler, diğer karakterlerin gliflerine benzer gliflerle görüntülenebileceğinden, metin işleme yazılımı, son kullanıcılar adına olası karışıklığı gidermeye çalışmalıdır. Metin dizelerini karşılaştırırken ve harmanlarken (sıralarken), farklı biçimler ve karakterlerin zengin metin türevleri, metin işleme sonuçlarını değiştirmemelidir. Örneğin, yazılım kullanıcıları bir sayfada büyük Latince 'I' harfi için bir arama yaparken kafaları karışabilir ve yazılım uygulamaları görsel olarak benzer Romen rakamını 'Ⅰ' bulamaz .

Uyumluluk eşleme türleri

Glif ikamesi ve bileşimi

Bazı uyumluluk karakterleri, Unicode standardına uyan metin işleme ve görüntüleme yazılımı için tamamen gereksizdir. Bunlar şunları içerir:

bitişik harfler: Latin alfabesindeki 'ffi' gibi bitişik harfler genellikle eski karakter kümelerinde ayrı bir karakter olarak kodlanmıştır. Unicode'un bitişik harflere yaklaşımı, onları zengin metin olarak ele almak ve açıksa, glif ikamesi yoluyla işlemektir.
Önceden oluşturulmuş Romen rakamları: Örneğin, Roma rakamı on iki ('Ⅻ': U+216B), bir Roma rakamı on ('Ⅹ': U+2169) ve iki Roma rakamı ('Ⅰ': U+2160) olarak ayrıştırılabilir. Önceden oluşturulmuş karakterler Sayı Formları bloğundadır.
önceden oluşturulmuş kesirler: Bu ayrıştırmada <fraction> anahtar kelimesi bulunur. Tam uyumlu bir metin işleyicisi, kaba kesiri ¼ (U+00BC) oluşan kesir 1⁄4 ile aynı şekilde göstermelidir (1 rakamı ve U+2044 kesirli rakam ve 4 rakamı). Önceden oluşturulmuş karakterler Sayı Formları bloğundadır.
Bağlamsal glifler veya formlar: Bunlar öncelikle Arap alfabesinde ortaya çıkar. OpenType ve TrueTypeGX gibi glif değiştirme özelliklerine sahip yazı tiplerini kullanan Unicode uyumlu yazılım, o karakterin bir kelimenin başında, sonunda, ortasında veya tek başına görünmesine bağlı olarak aynı karakter için uygun glifleri değiştirebilir. Bu tür glif değişimi, bazı Doğu Asya dillerinde dikey (yukarıdan aşağıya) metin düzeni için de gereklidir. Bu durumda glifler, geniş, dar, küçük ve kare glif formları için ikame edilmeli veya sentezlenmelidir. Uygun olmayan yazılım veya diğer karakter kümelerini kullanan yazılım, bunun yerine konumuna bağlı olarak aynı harf için birden çok ayrı karakter kullanır: metin işlemeyi daha da karmaşık hale getirir.

UCS, Unicode karakter özellikleri ve Unicode algoritmaları, bu karakterleri ayrıştırma eşdeğerlerinden düzgün bir şekilde görüntülemek için gereken her şeyi içeren yazılım uygulamaları sağlar. Bu nedenle, bu ayrıştırılabilir uyumluluk karakterleri gereksiz ve gereksiz hale gelir. Karakter kümesindeki mevcudiyetleri, metnin düzgün bir şekilde karşılaştırılmasını ve harmanlanmasını sağlamak için ekstra metin işleme gerektirir (bkz. Unicode normalleştirme ). Ayrıca, bu uyumluluk karakterleri hiçbir ek veya farklı anlambilim sağlamaz. Metin düzeni ve yazı tiplerinin Unicode ile uyumlu olması koşuluyla, bu karakterler görsel olarak farklı bir işleme de sağlamaz. Ayrıca, harf çevirisi, ayrıştırılmış karakterleri başka bir karakter kümesindeki önceden oluşturulmuş karşılıklara kolayca eşleyebildiğinden, diğer karakter kümelerine gidiş-dönüş dönüştürülebilirlik için bu karakterlerden hiçbiri gerekli değildir. Benzer şekilde, son bir Arap harfi gibi bağlamsal biçimler, bir sözcük içindeki konumuna göre uygun eski karakter kümesi form karakterine eşlenebilir.

Bu uyumluluk karakterlerinden kurtulmak için metin yazılımının birkaç Unicode protokolüne uyması gerekir. Yazılım şunları yapabilmelidir:

Harf karakterlerinden ve bir veya daha fazla ayrı birleştirici aksan işaretinden aksanla işaretlenmiş grafikler oluşturun.
İkame (yazarın veya okuyucunun takdirine bağlı olarak) bitişik harfler ve bağlamsal glif varyantları.
CJKV metnini dikey olarak düzenleyin (yazarın veya okuyucunun takdirine bağlı olarak), glifleri küçük, dikey, dar, geniş kare formların yerine yazı tipi verilerinden veya gerektiğinde sentezleyin.
Kesirleri ' Kesir Eğik Çizgisi ' karakterini (⁄ U+2044) ve diğer herhangi bir rastgele karakteri kullanarak birleştirin.
Bir ' Uzun Solidus Kaplamasını Birleştirme ' ( ̸ U+0338) diğer sembollerle birleştirin: örneğin ∄ veya ∄ için ∄ (U+2203).

Tamamlanmamış Unicode uygulamaları için dahil edilen bu uyumluluk karakterlerinin tümü, belirlenen 5.402 uyumluluk karakterinin toplam 3.779'u. Bunlar, <initial>, <medial>, <final>, <isolated>, <fraction>, <wide>, <narrow>, <small>, <vertical>, <square> anahtar sözcükleri ile işaretlenmiş tüm uyumluluk karakterlerini içerir. . Ayrıca, neredeyse tüm kurallı karakterleri ve <compat> anahtar sözcük uyumluluk karakterlerinin çoğunu içerir (istisnalar, içine alınmış alfanümerikler için <compat> anahtar sözcük karakterlerini, kapalı ideografları ve § Anlamsal olarak farklı karakterler içinde tartışılanları içerir ).

Zengin metin uyumluluğu karakterleri

Diğer birçok uyumluluk karakteri, Unicode'un zengin metin olarak kabul ettiği ve dolayısıyla Unicode ve UCS'nin hedeflerinin dışında kalan karakterleri oluşturur. Bir bakıma, önceki bölümde tartışılan uyumluluk karakterleri bile (eski yazılımların bitişik harfleri ve dikey metni görüntülemesine yardımcı olanlar), zengin metin protokolleri metnin şu veya bu şekilde görüntülenip görüntülenmeyeceğini belirlediğinden, bir zengin metin biçimi oluşturur. Bununla birlikte, metni bitişik harflerle veya bitişik harfler olmadan veya dikey veya yatay olarak görüntüleme seçeneklerinin ikisi de anlamsal olmayan zengin metinlerdir. Onlar sadece stil farklılıklarıdır. Bu, italikler, üst simgeler ve alt simgeler gibi diğer zengin metinlerin veya zengin metnin stilinin onunla birlikte belirli anlambilimleri ima ettiği liste işaretçilerinin aksinedir.

Düz metni karşılaştırmak, harmanlamak, işlemek ve depolamak için zengin metin varyantları anlamsal olarak gereksizdir. Örneğin, 4 rakamı için bir üst simge karakteri kullanmak, muhtemelen 4 rakamı için standart karakter kullanmaktan ve ardından onu üst simge yapmak için zengin metin protokolleri kullanmaktan ayırt edilemez. Bu tür alternatif zengin metin karakterleri, bu nedenle, zengin metin biçimlendirmesi uygulanmış düz metin karşılık karakterleriyle görsel olarak aynı göründükleri için belirsizlik yaratır. Bu zengin metin uyumluluğu karakterleri şunları içerir:

Matematiksel Alfanümerik Semboller: Bu semboller, 15 farklı yazı tipinde tekrarlanan Latin ve Yunan alfabelerinin ve Hint-Arap ondalık basamaklarının basitçe klonlarıdır. Matematiksel gösterim için keyfi bir palet olarak tasarlanmıştır. Ancak, karakterleri kodlama ile görsel glifleri kodlama arasındaki ayrımı ve Unicode'un yalnızca düz metin karakterlerini destekleme hedeflerini zayıflatma eğilimindedirler. Matematiksel bir sembol paleti için bu tür alternatif stiller, bunun yerine zengin metin protokolleri aracılığıyla kolayca oluşturulabilir.
Kapalı Alfanümerik ve ideograflar (işaretçiler): Bunlar, öncelikle liste işaretçileri için dahil edilen karakterlerdir. Düz metin karakterleri oluşturmazlar. Ayrıca, diğer zengin metin protokollerinin kullanımı, UCS'de sağlanan kapalı alfanümerik veya ideograf kümesi sınırlı olduğundan daha uygundur.
Daire içine alınmış alfanümerik ve ideograflar: Daire içine alınmış formların da işaretleyici olarak kullanılması muhtemeldir. Yine, karakter dizilerini çevrelemek için zengin metin protokolleriyle birlikte karakterleri kullanmak daha esnektir.
Değişken genişliklerde boşluklar ve kesintisiz boşluklar: Bu karakterler, çekirdek alanın (U+0020) ve Kesintisiz Boşluğun (U+00A0) zengin metin varyantlarıdır. Bunun yerine izleme, karakter aralığı veya sözcük aralığı nitelikleri gibi diğer zengin metin protokolleri kullanılmalıdır.
Bazı alt simge ve üst simge form karakterleri: Alt simge ve üst simge karakterlerinin çoğu, aslında Uluslararası Fonetik Alfabesinden ve diğer yazı sistemlerinden anlamsal olarak farklı karakterlerdir ve gerçekten zengin metin kategorisine girmezler. Ancak, diğerleri sadece diğer Yunanca, Latince ve rakam karakterlerinin zengin metin sunum biçimlerini oluşturur. Bu zengin metin üst simge ve alt simge karakterleri, bu nedenle, uygun şekilde bu zengin metin uyumluluğu karakterleri kategorisine aittir. Bunların çoğu "Üst Simgeler ve Alt Simgeler" veya "Temel Latince" bloklarındadır.

Tüm bu zengin metin uyumluluğu karakterleri için, gliflerin gösterimi tipik olarak uyumluluk ayrıştırma (ilgili) karakterlerinden farklıdır. Bununla birlikte, bunlar uyumluluk karakterleri olarak kabul edilir ve Unicode'un UCS ve ilgili protokolleriyle desteklemeye çalıştığı düz metin karakterleri olmadığı için Unicode konsorsiyumu tarafından kullanılması önerilmez. Zengin metin, HTML, CSS, RTF ve benzeri diğer protokoller gibi Unicode olmayan protokoller aracılığıyla işlenmelidir.

Zengin metin uyumluluğu karakterleri, 5.402 uyumluluk karakterinin 1.451'ini oluşturur. Bunlar, <circle> ve <font> anahtar sözcükleri ile işaretlenmiş tüm uyumluluk karakterlerini içerir (aşağıda anlamsal olarak farklı olan üç tanesi hariç); <uyumluluk> ve kurallı karakterlerden 11 boşluk varyantı; ve "Üst Simgeler ve Alt Simgeler" bloğundaki <superscript> ve <subscript> anahtar sözcüklerinden bazıları.

Anlamsal olarak farklı karakterler

Pek çok uyumluluk karakteri anlamsal olarak farklı karakterlerdir, ancak diğer karakterlerle temsili glifleri paylaşabilirler. Bu karakterlerden bazıları, bir komut dosyasına veya yazı sistemine odaklanan diğer karakter kümelerinin çoğu nedeniyle dahil edilmiş olabilir. Bu nedenle, örneğin, ISO ve diğer Latin karakter kümeleri büyük olasılıkla π (pi) için bir karakter içeriyordu, çünkü öncelikle bir yazı sistemine veya komut dosyasına odaklanıldığında, bu karakter kümelerinin aksi takdirde ortak matematiksel sembol π; için karakterlere sahip olmayacaktı. Bununla birlikte, Unicode ile matematikçiler, bir matematiksel kümeyi veya matematiksel sabiti temsil etmek için dünyadaki bilinen herhangi bir komut dosyasındaki karakterleri kullanmakta özgürdürler. Bugüne kadar, Unicode yalnızca bu tür birkaç matematiksel sabit için belirli anlamsal destek eklemiştir (örneğin, her ikisi de Unicode'un uyumluluk karakterleri olarak kabul ettiği Planck sabiti, U+210E ve Euler sabiti, U+2107). Bu nedenle, Unicode, uyumluluk karakterleri olarak Yunanca ve İbranice'den gelen harflere dayalı birkaç matematiksel sembol belirler. Bunlar şunları içerir:

İbranice harf tabanlı semboller (4): alef (ℵ U+2135), bet (ℶ U+2136), gimel (ℷ U+2137) ve dalet (ℸ U+2138)
Yunanca harf tabanlı semboller (7): beta (ϐ U+03D0), teta (ϑ U+03D1), phi (ϕ U+03D5), pi (ϖ U+03D6), kappa (ϰ U+03F0), rho ( ϱ U+03F1), büyük harf teta (ϴ U+03F4)

Bu uyumluluk karakterleri, uyumluluk ayrıştırma karakterlerinden yalnızca adlarına "sembol" kelimesinin eklenmesiyle ayırt edilirken, yazılı matematikte uzun süredir devam eden farklı anlamları temsil ederler. Bununla birlikte, tüm pratik amaçlar için, uyumluluk eşdeğerleri olan Yunanca veya İbranice harfleriyle aynı semantiği paylaşırlar. Bunlar, sınır çizgisi semantik olarak ayırt edilebilen karakterler olarak kabul edilebilir, bu nedenle toplama dahil edilmezler.

Unicode'un bu tür ölçüm birimlerini kodlama niyeti olmasa da, repertuar yazarlar tarafından kullanılmaması gereken altı (6) bu tür sembol içerir: bunun yerine karakterlerin ayrıştırmaları kullanılmalıdır.

Birim sembolleri (6): Angstrom (Å U+212B: bunun yerine U+00C5 kullanın), Ohm (Ω, U+2126: bunun yerine U+03A9 kullanın), Kelvin (K U+212A: bunun yerine U+004B kullanın), Fahrenheit (℉ U+2109: bunun yerine U+00B0 ve U+0046 kullanın), Celsius (℃ U+2103: bunun yerine U+00B0 ve U+0043 kullanın), Micro Sign (µ U+00B5: bunun yerine U+03BC kullanın)

Unicode ayrıca yirmi iki (22) diğer harf benzeri sembolleri uyumluluk karakterleri olarak belirler.

Diğer Yunanca harf tabanlı semboller (4): lunate epsilon (ϵ U+03F5), lunat sigma (ϲ U+03F2), büyük lunat sigma (Ϲ U+03F9), kancalı upsilon (ϒ U+03D2)
Matematiksel sabitler (3): Euler sabiti ( ℇ U+2107), Planck sabiti (ℎ U+210E), indirgenmiş Planck sabiti (ℏ U+210F),
Para birimi sembolleri (2): rupi işareti (₨ U+20A8), riyal işareti (﷼ U+FDFC)
Noktalama (4): bir nokta öncüsü (U+2024), aralıksız boşluk (U+00A0), bölünmez tire (U+2011), Tibet işareti sınırlayıcı tsheg bstar (U+0F0C)
Diğer harf benzeri semboller (10): bilgi kaynağı (ℹ U+2139), hesap (℀ U+2100), konuya yönelik (℁ U+2101), care of (℅ U+2105), cada una ( ℆ U+2106), numero (№ U+2116), telefon işareti (℡ U+2121), faks işareti (℻ U+213B), ticari marka (™ U+2122), hizmet markası (℠ U+2120)

Ek olarak, birkaç komut dosyası, anlambilimi ayırt etmek için üst simgeler ve alt simgeler gibi glif konumlarını kullanır. Bu durumlarda, alt simgeler ve üst simgeler yalnızca zengin metin değildir, aynı zamanda yazı sisteminde aksan ve harf arasındaki bir meleze benzer şekilde farklı bir karakter oluşturur (toplam 130).

Uluslararası Fonetik Alfabesi gibi fonetik alfabelerden soyut fonemleri temsil eden 112 karakter, anlamsal farklılıkları temsil etmek için bu tür konumsal glifleri kullanır (U+1D2C – U+1D6A, U+1D78, U+1D9B – U+1DBF, U+02B0 – U+02B8). , U+02E0 – U+02E4 )
Kanbun bloğundan 14 karakter (U+3192 – U+319F)
1 karakter Tifinag komut: Tifinag Değiştirici Letter Labialization işareti (ⵯ U +, 2D6F)
Gürcü alfabesinden 1 karakter : Değiştirici Harf Gürcü Nar (ჼ U+10FC)
Latin-1 ek bloğunda yer alan eril ( U+00BA ) ve dişil ( U+00AA ) sıralı göstergeler

Son olarak, Unicode, aynı glifleri paylaşan Latin harfleriyle uyumluluk eşdeğeri olarak Romen rakamlarını belirler.

Büyük Romen Rakamları (7): Bir (Ⅰ U+2160), Beş (Ⅴ U+2164), On (Ⅹ U+2169), Elli (Ⅼ U+216C), Yüz (Ⅽ U+216D), Beş Yüz (Ⅾ U+216E), Bin (Ⅿ U+216F)
ve küçük harf varyantları (7): Bir (ⅰ U+2170), Beş (ⅴ U+2174), On (ⅹ U+2179), Elli (ⅼ U+217C), Yüz (ⅽ U+217D), Beş Yüz (ⅾ U+217E) ve Bin (ⅿ U+217F)
Büyük ve küçük harf varyantlarında önceden oluşturulmuş 18 Romen rakamı (2–4, 6–9 ve 11–12)

Romen rakamı Bir Bin aslında aynı semantik birim için üçüncü bir formu veya glifi temsil eden üçüncü bir karaktere sahiptir: Bin CD (ↀ U+2180). Bu gliften, Latince M kullanma pratiğinin nerede ortaya çıkmış olabileceği görülebilir. Garip bir şekilde, Unicode işaret değeri Romen rakamlarını çok farklı (görsel olarak benzer olsa da) Latin harfleriyle birleştirse de, Hint Arapça basamak değeri (konumsal) ondalık basamak rakamları 24 kez tekrarlanır (10 rakam için toplam 240 kod noktası) UCS boyunca, aralarında herhangi bir ilişkisel veya ayrıştırma eşlemesi olmadan.

Ayrıştırılabilir karakterler arasında görsel olarak benzer olsa da anlamsal olarak farklı bu 167 karakterin (artı sınır çizgisi 11 İbranice ve Yunanca harf tabanlı sembol ve 6 ölçü birimi sembolü) varlığı, uyumluluk karakterleri konusunu karmaşıklaştırmaktadır. Unicode standardı, içerik yazarları tarafından uyumluluk karakterlerinin kullanılmasını önermez. Ancak, belirli özel alanlarda, bu karakterler önemlidir ve uyumluluk karakterleri arasında yer almayan diğer karakterlere oldukça benzerdir. Örneğin, bazı akademik çevrelerde, aynı glifleri paylaşan Latin harflerinden farklı olarak Romen rakamlarının kullanımı, Çivi yazısı rakamlarının veya eski Yunan rakamlarının kullanımından farklı olmayacaktır. Romen rakamlı karakterleri Latin harfli karakterlere daraltmak, anlamsal bir ayrımı ortadan kaldırır. Benzer bir durum, alt simge veya üst simge konumlu glifleri kullanan fonetik alfabe karakterleri için de mevcuttur. Fonetik alfabe kullanan uzman çevrelerde, yazarlar bunu zengin metin protokollerine başvurmadan yapabilmelidir. Başka bir örnek olarak, 'daire' uyumluluk karakterleri anahtar kelimesi genellikle Go oyununu tanımlamak için kullanılır . Bununla birlikte, uyumluluk karakterlerinin bu kullanımları, yazarın, aksi takdirde cesareti kırılan karakterleri kullanmak için özel bir nedeni olduğu durumlarda istisna teşkil eder.

Uyumluluk blokları

Birkaç Unicode karakter bloğu, ya tamamen ya da neredeyse tüm uyumluluk karakterlerini içerir (karakter olmayanlar hariç U+F900–U+FFEF). Uyumluluk blokları, yalnızca bir istisna dışında, anlamsal olarak farklı uyumluluk karakterlerinin hiçbirini içermez: Riyal para birimi sembolü (﷼ U+FDFC), bu nedenle uyumluluk bloklarındaki uyumluluk ayrıştırılabilir karakterleri, açık bir şekilde cesareti kırılmış karakterler grubuna girer. Unicode, yazarların bunun yerine düz metin uyumluluğu ayrıştırma eşdeğerlerini kullanmasını ve bu karakterleri zengin metin işaretlemesiyle tamamlamasını önerir. Bu yaklaşım, yalnızca bir örnek vermek için sonlu daire içine alınmış veya çevrelenmiş alfasayısal kümeyi kullanmaktan çok daha esnek ve açık uçludur.

Ne yazık ki, uyumluluk blokları içinde bile kendileri uyumluluk karakterleri olmayan ve bu nedenle yazarların kafasını karıştırabilecek az sayıda karakter vardır. "Eklenen CJK Harfleri ve Ayları" bloğu, tek bir uyumsuzluk karakteri içerir: 'Kore Standart Sembolü' (㉿ U+327F). Bu sembol ve diğer 12 karakter bilinmeyen nedenlerle bloklara dahil edilmiştir. "CJK Uyumluluk İdeografları" bloğu, şu uyumlu olmayan birleşik Han ideograflarını içerir:

(U+FA0E): 﨎
(U+FA0F): 﨏
(U+FA11): 﨑
(U+FA13): 﨓
(U+FA14): 﨔
(U+FA1F): 﨟
(U+FA21): 﨡
(U+FA23): 﨣
(U+FA24): 﨤
(U+FA27): 﨧
(U+FA28): 﨨
(U+FA29): 﨩

Bu on üç karakter uyumluluk karakterleri değildir ve kullanımları hiçbir şekilde önerilmez. Ancak U+27EAF 𧺯, U+FA23 﨣 ile aynı, yanlışlıkla CJK Birleşik İdeograflar Uzantısı B'de kodlanmıştır. Her durumda, normalleştirilmiş bir metin hiçbir zaman hem U+27EAF 𧺯 hem de U+FA23 﨣 içermemelidir; bu kod noktaları, iki kez kodlanmış aynı karakteri temsil eder.

Bu bloklardaki diğer birkaç karakterin uyumluluk eşlemesi yoktur, ancak açıkça eski destek için tasarlanmıştır:

Alfabetik Sunum Formları (1)

İbranice Nokta Yahudi-İspanyol Varika (U+FB1E): ﬞ. Bu İbranice Point glif varyantıdır Rafe'e (U 05BF): ֿ Unicode uyumluluk eşleme sağlar bile.

Arapça Sunum Formları (4)

"Süslü Sol Parantez" (U+FD3E): ﴾. U+0029 ')' için bir glif çeşidi
"Süslü Sağ Parantez" (U+FD3F): ﴿. U+0028 '(' için bir glif varyantı
"Ligatür Bismillah Ar-Rahman Ar-Raheem" (U+FDFD): ﷽. Bismillah Ar-Rahman Ar-Raheem , Beh (U+0628), Seen (U+0633), Miem (U+0645), Space (U+0020), Alef (U+0627), Lam (U+) için bir bitişik harftir. 0644), Lam (U+0644), Heh (U+0647), Boşluk (U+0020), Alef (U+0627), Lam (U+0644), Reh (U+0631), Hah (U+062D ), Meem (U+0645), Alef (U+0627), Noon (U+0646), Space (U+0020), Alef (U+0627), Lam (U+0644), Reh (U+0631) , Hah (U+062D), Yeh (U+064A), Meem (U+0645) yani بسم الله الرحمان الرحيم ‎ (Benzer şekilde, sırasıyla 21 ve 9 karakterlik diğer iki Arapça bitişik harf için U+FDFA ve U+FDFB kodu .)
"Arap Kuyruk Parçası" (U+FE73): ﹳ bağlamsal glif işleme olmadan metin sistemlerini desteklemek için

CJK Uyumluluk Formları (her ikisi de CJK Unified Ideograph ile ilgili: U+4E36 丶)

Susam Noktası (U+FE45): ﹅
Beyaz Susam Noktası (U+FE46): ﹆

Kapalı Alfanümerik (21 zengin metin çeşidi)

10 Negatif Daire Sayısı (0 ve 11 ila 20) (U+24FF ve U+24EB ila U+24F4): ⓫ – ⓴
11 Çift Daireli Sayı (0 ila 10) (U+24F5 ila U+24FE): ⓵ – ⓾

normalleştirme

Normalleştirme, Unicode uyumlu yazılımın karşılaştırmalar yapmadan veya metin dizelerini harmanlamadan önce uyumluluk ayrıştırmasını gerçekleştirdiği süreçtir. Bu, örneğin bir kullanıcı bir metin içinde büyük/küçük harfe duyarlı olmayan arama yaptığında ihtiyaç duyulan diğer işlemlere benzer. Bu gibi durumlarda yazılım, karakterleri eşitlemeli veya yoksaymalıdır, aksi takdirde eşitlemez veya görmezden gelmez. Tipik olarak normalleştirme, alttaki depolanan metin verilerini değiştirmeden (kayıpsız) gerçekleştirilir. Bununla birlikte, bazı yazılımlar, metin depolamadan kurallı ve hatta kurallı olmayan uyumluluk karakter farklılıklarını ortadan kaldıran metinde kalıcı değişiklikler yapabilir (kayıplı).

Referanslar

Dış bağlantılar

Normalleştirme (Çince Metin Projesi) - Normalleştirilmiş CJK kod noktalarının listesiyle klasik Çince'de Unicode normalleştirme sorunları

Languages

In other projects