2021-10-01から1ヶ月間の記事一覧
ある文字のUnicodeコードポイントを知りたい、または逆にコードポイントから文字を調べたい....と思うことがよくあるので、irbで打ち込むいろいろな操作のメモ。 (以下の例では、Rubyの文字列リテラルのエンコーディングはUTF-8の前提。) コードポイント →…
Char filter kuromoji_iteration_mark 踊り字(々、ゝ、ゞなど)を正規化する。 normalize_kanji が true の場合、漢字の踊り字(々)を正規化、normalize_kanaがtrueの場合、かなの踊り字(ゝ、ゞ、ヽ、ヾ)を正規化する。 デフォルトは、normalize_kanji、…