Let's have a .doc file (DOC not DOCX!!!) containing following sentence in Polish:
" Na każde 40 mg% powyżej 100 mg% dodać 1j NovoRapidu, przy glikemii poniżej 100 mg% odjąć 1j NovoRapidu od dawki wyliczonej na WW w posiłku głównym. Przekąski liczyć 1j/ 1WW. W przypadku hiperglikemii przed snem, tj. ok. godz. 22.00, proszę liczyć na zbicie 1j NovoRapidu na każde 50 mg% powyżej 150 mg%. "
You may also download the doc file (my_doc.doc) from HERE
I want to upload this character vector into R by code:
library(readtext)
path <- "path of the my_doc.doc"
Sys.setlocale("LC_CTYPE", "polish")
i <- readtext(path,encoding = "UTF-8")
#or
i <- readtext(path)
i$text
#[1] "Na ka?de 40 mg% powy?ej 100 mg% doda? 1j NovoRapidu, przy glikemii #poni?ej\r\n100 mg% odj?? 1j NovoRapidu od dawki wyliczonej na WW w posi?#ku g?ównym.\r\nPrzek?ski liczy? 1j/ 1WW. W przypadku hiperglikemii przed #snem, tj. ok.\r\ngodz. 22.00, prosz? liczy? na zbicie 1j NovoRapidu na ka?#de 50 mg% powy?ej\r\n150 mg%."
The code gives the same output independently from the used encoding. I want to obtain the same text in both .doc file and R. I use Windows. How shall I edit my code?