Unicodeのメモ
目次
はじめに
氏名の比較をしたくなるケースがあります。
ですが、ユーザが自由に記入できるようなサイトの場合、記号が入力されてしまうようなケースがあります。
今回は、アルファベット、ひらがな、カタカナ、漢字以外を排除する方法をメモします。
Unicodeを用いて実現していきます。
Unicodeとは
Unicode(ユニコード)とは、文字コードの標準規格です。
Unicodeに収録されている文字は、こちらを参照してください。
基本的な文字コードは下記のようになるようです。
- アルファベット
- U+0041 - U+005A
- U+0061 - U+007A
- ひらがな
- U+3041 - U+3096
- カタカナ
- U+30A1 - U+30FA
- 漢字
- U+4E00 - U+9FA5
判定方法
判定方法はとてもシンプルで、文字列から1文字ずつ上記で記載したコードの範囲に一致するかを確認するだけです。
「あかさたな」は「U+3042U+304BU+3055U+3066U+306A」で表現できるので、すべてひらがなの範囲に収まっていることがわかります。
JavaやGoなどのプログラミング言語は、Unicodeを扱うライブラリが標準でありますので、それらを利用した判定ができます。
ユーザごとにUnicodeグループを作成できるので独自のグループ判定も可能になります。