In which form should be dataset in NLP model?

Question

I try to make fine-tuning of model tinkoff-ai/ruDialoGPT-medium. In which form should be my dataset? The base generation is in form:

@@ПЕРВЫЙ@@ привет @@ВТОРОЙ@@ привет @@ПЕРВЫЙ@@ как дела? @@ВТОРОЙ@@

Where @@ПЕРВЫЙ@@ is the first person, @@ВТОРОЙ@@ - the second person of dialogue.

I try to make fine-tuning with json like:

    {"sample": [" Я ищу бесплатные онлайн-курсы по бухгалтерскому учету.", " В сети есть ряд бесплатных онлайн-курсов по бухгалтерскому учету, таких как Coursera и edX. Эти курсы предлагают вводные занятия по бухгалтерскому учету продвинутого уровня, которые могут помочь вам изучить основы бухгалтерского учета и финансового управления. Вы также можете заглянуть в местные общественные колледжи или центры обучения взрослых в вашем районе для получения более специализированных курсов по бухгалтерскому учету."]},

But the generation of answers is very bad

In which form should be dataset in NLP model?

0 Answers0