I would like to split the following record (the line of keywords is in one column of a database table) into logical terms for building a facet search:
Ballett, Fernsehen, Film, Sachbücher/Musik, Film, Theater/Theater, Ballett/Allgemeines, Nachschlagewerke, Theater, Bühnenbildner (Einz.), Deutsches Theatermuseum München, München; Museen, Stepanek, Siegfried, Deutsches Theatermuseum; Kategorien - Lexika & Nachschlagen - Brockhaus, Kinder- & Jugendbücher, Jugendbücher
The result should be:
Ballett
Fernsehen
Film
Sachbücher/Musik
Film
Theater/Theater
Ballett/Allgemeines
Nachschlagewerke
Theater
Bühnenbildner (Einz.)
Deutsches Theatermuseum München
München
Museen
Stepanek
Siegfried
Deutsches Theatermuseum
Kategorien
Lexika & Nachschlagen
Brockhaus
Kinder- & Jugendbücher
Jugendbücher
I've tried different things, but I did not find a solution how to split the long record on tokenization correctly. Is it possible with the Pattern Tokenizer?
Thanks for hints