Decoded text of huggingface Unigram tokenizer has extra spaces

Asked Jun 16 '23 at 17:37

Active Jun 16 '23 at 17:37

Viewed 35 times

decoded should be equal to text but:

import tokenizers

text = "Hello World!"
tokenizer  = tokenizers.Tokenizer(tokenizers.models.Unigram())
tokenizer.train_from_iterator(text)
encoded = tokenizer.encode(text)
decoded = tokenizer.decode(encoded.ids)
print(decoded)
# 'H e l l o   W o r l d !'

how can i change the tokenizer to reflect the desired output?

asked Jun 16 '23 at 17:37

Yorai Levi

Decoded text of huggingface Unigram tokenizer has extra spaces

0 Answers0