R の区切り文字で文字列を分割する
胡金庫
2023年1月30日
この記事では、R で文字列を区切り文字で分割する方法について説明します。
R の区切り文字で strsplit
を使用して文字列を分割する
strsplit
は R ベースライブラリで提供されており、追加のパッケージなしでほとんどのインストールで利用できるはずです。strsplit
は、指定された区切り文字によって文字ベクトルをサブ文字列に分割します。区切り文字には、文字ベクトルも含まれています。関数の最初の引数は、分割される文字ベクトルです。この場合、与えられた文の各単語を区切るためにスペース文字を指定します。出力は文字ベクトルのリストとして提供されることに注意してください。
library(dplyr)
library(stringr)
str <- "Lorem Ipsum is simply dummied text of the printing and typesetting industry."
strsplit(str, " ")
出力:
> strsplit(str, " ")
[[1]]
[1] "Lorem" "Ipsum" "is" "simply" "dummied" "text"
[7] "of" "the" "printing" "and" "typesetting" "industry."
R の区切り文字で str_split
を使用して文字列を分割する
または、str_split
関数を使用して文字列を区切り文字で分割することもできます。str_split
は stringr
パッケージの一部です。str_split
もパターンとして正規表現を使用することを除いて、strsplit
とほぼ同じように機能します。次の例では、一致する固定文字列のみを渡します。関数はオプションで、返すサブストリングの数を示す 3 番目の引数を取ることができることに注意してください。
library(dplyr)
library(stringr)
str <- "Lorem Ipsum is simply dummied text of the printing and typesetting industry."
str_split(str, " ")
出力:
> str_split(str, " ")
[[1]]
[1] "Lorem" "Ipsum" "is" "simply" "dummied" "text"
[7] "of" "the" "printing" "and" "typesetting" "industry."
str_split
関数のもう 1つのオプションのパラメーターは、4 番目にある simplify
です。このパラメーターのデフォルト値は FALSE
であり、これにより、関数は文字ベクトルのリストとしてサブ文字列を返すように強制されます。指定された引数に TRUE
を割り当てると、str_split
は文字行列を返します。
library(dplyr)
library(stringr)
fruits <- c(
"apples and oranges and pears and bananas",
"pineapples and mangos and raspberries"
)
str_split(fruits, " and ")
str_split(fruits, " and ", simplify = TRUE)
出力:
> str_split(fruits, " and ")
[[1]]
[1] "apples" "oranges" "pears" "bananas"
[[2]]
[1] "pineapples" "mangos" "raspberries"
> str_split(fruits, " and ", simplify = TRUE)
[,1] [,2] [,3] [,4]
[1,] "apples" "oranges" "pears" "bananas"
[2,] "pineapples" "mangos" "raspberries" ""
著者: 胡金庫