STUDIO PLUS TWO ブログ

横浜のウェブエンジニアチーム、STUDIO PLUS TWO(スタジオ・プラスツー)の技術ブログです。https://studioplustwo.jp/

2021-10-01から1ヶ月間の記事一覧

UnicodeをRubyで扱うときに使用する操作いろいろ

ある文字のUnicodeコードポイントを知りたい、または逆にコードポイントから文字を調べたい....と思うことがよくあるので、irbで打ち込むいろいろな操作のメモ。 (以下の例では、Rubyの文字列リテラルのエンコーディングはUTF-8の前提。) コードポイント →…

Elasticsearch の kuromoji-analysis plugin に含まれる filter について淡々と説明

Char filter kuromoji_iteration_mark 踊り字(々、ゝ、ゞなど)を正規化する。 normalize_kanji が true の場合、漢字の踊り字(々)を正規化、normalize_kanaがtrueの場合、かなの踊り字(ゝ、ゞ、ヽ、ヾ)を正規化する。 デフォルトは、normalize_kanji、…