I used Scipy to create the following dendrogram:
I used the Levenshtein distance to create a distance matrix with scipy.spatial.distance.pdist
, which I then used for clustering using scipy.cluster.hierarchy.ward
. This was the output I got after I used scipy.cluster.hierarchy.dendrogram
.
The sample of words I used is:
'bistum osnabrück intranet', 'fernbusse kaiserslautern', 'abfalleimer gelber sack', 'crazy factory app', 'angel schwerin', 'mietspiegel oberstaufen', 'sata jet nr 95', 'haare schneiden schere', 'magix deluxe 2013', 'coach bus', 'zwergobst', '+ischia +sorriso', '+sägeblatt +schärfdienst', '+av +receiver +onkyo +tx +nr646', 'treppenbau aachen', 'ivb nummer', 'elektro hoen saarlouis', 'disponent ausbildung', '+schokolade +werkzeug', 'bildungsurlaub englisch', 'deutsche lernen b1', 'mietewohnung', 'anwendung von roundup', 'rente nachzahlung', 'klinik am zauberwald', 'beton schutting prijzen', '+vergewaltigung +afrikaner', 'sandstein bremen', 'straubing landshuter hof', 'brandenburgviewer', 'gebetskleidung frauen', 'keepass 2 deutsch', 'emp versand', 'einrichtungshaus münchen', '+bmw +dachgepäckträger +e91', 'blokker gartenmöbel', 'konto sparkasse kosten', 'navis fürs fahrrad', '+buffalo +steakhaus', 'autogalerie köhler siegen', 'rennie nebenwirkungen', 'geräte schutzbrief', 'sozialberatung leipzig', 'bomann gspe 649 anleitung', 'klimaschutz bilder', 'maggi zwiebelsuppe', 'zitat für hochzeitskarte', 'kreul schablonen'
Why are 4
(abfalleimer gelber sack), 37
(blokker gartenmöbel), 41
(autogalerie köhler siegen), 44
(sozialberatung leipzig) omitted?