【Unity】ひらがなに濁点、半濁点をつけたりとったり、小書きにしたり
ひらがなに濁点、半濁点つけれないとダメでしょw
そう簡単に言わないでクレメンス。
ってことで、ひらがなに濁点とか半濁点をつけれるか判定して変換するようにスクリプトを実装するハメになったので記載。
どうやってやるンゴ・・・
わからなかったので調べて考えて実装。
ちなみに今回いっぱい使う単語の「小書き」ってのはひらがなカタカナの小さい文字(ぁ、っ、ぇ等)を指し、「並字」ってのはその対義語(普通のひらがなの事)を言うらしい。
・濁点(半濁点)をつけるスクリプト
using UnityEngine;
using System.Collections;
using System;
using System.Text;
public void Conversion(){
string input = "は" ;
//UTF-8 NFDで他の文字と結合すると濁点になるもの
char dakuten = '\x3099';//UTF-8 NFDで他の文字と結合すると半濁点になるもの
char dakuten = '\x309A';
//くっつけてNFCにNormalize
string add = (input + dakuten).Normalize (NormalizationForm.FormC);
//NFCに文字がない場合、文字化けするので文字数が増える
//NFCに文字がある場合、文字数は増えないので
if (lastMoji.Length == add.Length) {
Debug.Log("add"); // "ば"になる
} else {
Debug.Log ("無理");
}
}
濁点くっつけられる文字だけ調べて配列入れて、くぁwせdrftgyふじこlp・・・
とかしなきゃいけないンゴ?
と、いろいろ調べていたら、macとwindowsのUTF-8の違いに気づく。
URF-8にはNFCとNFDってのがあるみたいで、大雑把に言うと濁点入り1文字になるか文字と濁点の2文字で表示されるかの違いがあるらしい(詳しい仕組みはわからない)
たとえばこんな感じ
・NFC ー がぎぐげご
・NFD ー か゛き゛く゛け゛こ゛
で、Normalizeってのをしてやると、それぞれに変化できるみたい。
この時にNFDで濁点がつけられない文字(たとえば「め」)をNormalizeすると文字化けが起こる。
すると文字数が増えるので、これを判定に使用すればおk。
邪道かもしれないけど、スクリプトもすっきりでいいかんじカモ。
・小書き⇔並字にするスクリプト
//小書き文字をあらかじめ用意
public string kogakiMoji;
//小書き文字にできる並字をあらかじめ用意
public string namiji;
public void Conversion(){
string input = "あ";
//inputが小書き文字かどうか
for (int i = 0; i < kogakiMoji.Length; i++) {
if (kogakiMoji [i] == input ) //一致したら{
input = namiji [i];
return;
}
}
//inputが小書き文字にできる並字かどうか
for (int i = 0; i < namiji.Length; i++) {
if (kogakiMoji [i] == input ) //一致したら
{
input = namiji [i];
return;
}
}
}
こっちは先ほどの、くぁwせdrftgyふじこlp、の部分で言いたかった実装。
あらかじめ、配列に小書き文字(「っ」とか「ぁ」など)と小書きにできる並字(「つ」とか「あ」など)を格納しといて、入力された文字をそれぞれの配列と比較して一致したら変換。みたいな。
配列用意するのがめんどいけど、こっちのほうが王道かな?
これでいいかんじに実装できるはず。
以上。