Goのrune
Jay Singh
2023年1月30日
Go では、ルーンは int32 データ型のエイリアスであり、Unicode コードポイントを表します。Unicode 文字に割り当てられた数値を指します。
数年前、大文字や数値などを含む 182 文字を表すために 7 ビットを使用する ASCII 文字セットを使用しました。対照的に、ASCII 文字セットは世界の膨大な数を処理できないことが判明しました。言語と記号の。
Unicode 文字エンコードは、この問題を克服するために作成されました。これは ASCII 文字エンコードのスーパーセットであり、最大 1114112 の Unicode コードポイントがあります。
理解を深めるために、いくつかの例を見てみましょう。
Go でruneを使用する例
package main
import (
"fmt"
"reflect"
"unsafe"
)
func main() {
r := 'b'
fmt.Printf("Size: %d\n", unsafe.Sizeof(r))
fmt.Printf("Type: %s\n", reflect.TypeOf(r))
fmt.Printf("Unicode CodePoint: %U\n", r)
fmt.Printf("Character: %c\n", r)
s := "Jay Singh"
fmt.Printf("%U\n", []rune(s))
fmt.Println([]rune(s))
}
出力:
Size: 4
Type: int32
Unicode CodePoint: U+0062
Character: b
[U+004A U+0061 U+0079 U+0020 U+0053 U+0069 U+006E U+0067 U+0068]
[74 97 121 32 83 105 110 103 104]
Go でバックスラッシュ付きのルーン文字\
を使用する
バックスラッシュで始まるすべてのシーケンスは、ルーンリテラルでは禁止されています。
package main
import (
"fmt"
"reflect"
)
func main() {
rune1 := 'J'
rune2 := 'c'
rune3 := '\\'
fmt.Printf("Rune 1: %c; Unicode: %U; Type: %s", rune1,
rune1, reflect.TypeOf(rune1))
fmt.Printf("\nRune 2: %c; Unicode: %U; Type: %s", rune2,
rune2, reflect.TypeOf(rune2))
fmt.Printf("\nRune 3: Unicode: %U; Type: %s", rune3,
rune3, reflect.TypeOf(rune3))
}
出力:
Rune 1: J; Unicode: U+004A; Type: int32
Rune 2: c; Unicode: U+0063; Type: int32
Rune 3: Unicode: U+005C; Type: %!s(int32=92)%!(EXTRA *reflect.rtype=int32)
Go で byte()
と rune()
を比較する
この例では、非 ASCII 文字を含む文字列のバイト配列とルーン文字を出力してみましょう。特別な Unicode 文字のルーン値は 214 です。ただし、エンコードには 2 バイトかかります。
package main
import (
"fmt"
)
func main() {
s := "GÖ"
s_rune := []rune(s)
s_byte := []byte(s)
fmt.Println(s_rune)
fmt.Println(s_byte)
}
出力:
[71 214]
[71 195 150]