Finding alphanumeric in R

Question

I have character vector in russian language. See the sample vector below -

x = "nНозологические единицы  \r\n В20 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде  \r\nинфекционных и паразитарных болезней \r\n В21 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде \r\nзлокачественных новообразований \r\n В22 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде \r\nдругих уточненных болезней \r\n В78.1 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде \r\nдругих состояний \r\n В24 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], неуточненная \r\n Z21 Бессимптомный инфекционный статус, вызванный вирусом иммунодефицита человека"

I want to extract these values - B20, B21, B22, B78.1, B24, Z21. I am using the code below -

gsub("[^0-9A-Za-z///' ]", "", x)

But it is returning the wrong result.

[1] "n    20     21     22   781      24         Z21       "

do you want all the substring which are in format of ASCII aphanumeric? — Sujeet Jaiswal, Oct 07 '17 at 12:13
yes, i want all the substring which are in format of ASCII aphanumeric — john, Oct 07 '17 at 12:17

score 1 · Answer 1 · answered Oct 07 '17 at 12:21

Here is a base R method using gregexpr to return positions and regmatches to extract matching portions of text.

unlist(regmatches(x, gregexpr("[ВZ][27][[:digit:].]+", x)))
[1] "В20"   "В21"   "В22"   "В78.1" "В24"   "Z21"

Note that the "B" is not the standard ascii "B". I copied and pasted one from the vector to get this to work. You can see this using utfToInt:

ascii "B":

utf8ToInt("B")
[1] 66

The "B" in x

utf8ToInt("В")
[1] 1042

score 1 · Accepted Answer · answered Oct 07 '17 at 12:32

Using stringr, you can use str_extract_all with this regex

x = "nНозологические единицы  \r\n В20 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде  \r\nинфекционных и паразитарных болезней \r\n В21 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде \r\nзлокачественных новообразований \r\n В22 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде \r\nдругих уточненных болезней \r\n В78.1 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде \r\nдругих состояний \r\n В24 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], неуточненная \r\n Z21 Бессимптомный инфекционный статус, вызванный вирусом иммунодефицита человека"

stringr::str_extract_all(x, "[:alpha:][[:digit:]\\.]+")
#> [[1]]
#> [1] "В20"   "В21"   "В22"   "В78.1" "В24"   "Z21"

About the regex:

[:alpha:] means any letter character
[[:digit:]\\.] followed by any numeric or . character
+ the previous one or more time

Change the regex when what you want to extract changes

Finding alphanumeric in R

2 Answers2