当ブログには広告が含まれています。

異体字(IVS)とは

IT

異体字

あなたの環境では「ぎおん」と打つと、「ぎ」の字はどう表示されるでしょうか。

」でしょうか、「」でしょうか。

Windows環境では1つ目の文字で表示されている方が多いのではないでしょうか。
2つ目の文字は漢字変換時に「環境依存」文字であると表示されます。

環境依存文字、つまりは他の環境では文字化けするかもよ、ということで、この文字は定義がちゃんと定まっていない or 広く統一・対応されていない、ということですね。

実はこの2つの「ぎ」の文字、字の形は異なるものの意味や読みは同じであり、どちらを使うかは地域や風習、習慣等によります。

こういう文字を異体字と言い、他に有名なものとして葛飾区・葛城市の「葛󠄀」の文字や、「」があります(アイキャッチ画像にそれぞれの文字を記載しています)。

この意味や読みは同じだけど形が微妙に異なる文字ですが、文字コード的にはUTF-8ではIVS(Ideographic Variation Sequence:異体字シーケンス)という仕組みを使って表現しています。

1つの文字コードで複数の字形を登録することはできないので、ベースの文字コード(2バイト)に異体字セレクタという枝番(2バイト)を付与して4バイト文字として表現します。

異体字セレクタはue0100~ue01efが割り当てられます。

先ほどの「ぎおん」の「ぎ」の字の文字コードは以下になります。

」u7947

」u7947-ue0100

異体字の使用に関して

この異体字、対応しているアプリと対応していないアプリがまちまち(対応していないアプリの方が多い印象)で、まだ限定的にしか使えません

たとえばサクラエディタ(v2.4.2)のようなエディタソフトでさえ対応していないのです。

フォントも対応しているものは限定的であり、かつ、対応しているフォントもどの文字が対応しているかはやってみないと分からないレベルかと思います。

さらに事をややこしくしているいるのは、フォントよって同じ文字でも採用している字形が異なる場合がある、ということです。
これまで何度も登場しているu7947はUDデジタル教科書体では「」なのですが、RgPG2サンセリフでは「」になり異体字の字形が採用されているのです。そのフォントの用途により採用されている字形が異なるということなのでしょうが、狙った字形ではない場合があるというのは何ともモヤモヤするものです。

文字は生き物

言葉は生き物と言いますが、文字・字体も時代や地域で変わるのが自然であり、JISのような規格ですべての文字を定義すること自体が難しいのでしょうね。

システム屋(SE)からするとこういう曖昧さは発狂したくなりますが(笑)

コメント

タイトルとURLをコピーしました