Clustering code edited

06747cb1 · IT18396164-Silva K.K.S · ee477dd0 · 06747cb1
Commit 06747cb1 authored Nov 25, 2021 by IT18396164-Silva K.K.S
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 27 deletions

cgp1/CgpApp/topicclustering.py cgp1/CgpApp/topicclustering.py +2 -27

No files found.
--- a/cgp1/CgpApp/topicclustering.py
+++ b/cgp1/CgpApp/topicclustering.py
@@ -24,27 +24,7 @@ import json
 class TopicCluster:

    def cluster():
-        texts = [
-            "Registrar of Births Deaths and MarriagesAdditional Marriages Kandyan",
-            "Registrar of Muslim Marriages -Gampaha",
-            "Registrar of Births Deaths and Marriages",
-            "Registrar of Muslim Marriages -Ratnapura",
-            "Registrar of Births Deaths and MarriagesAdditional Marriages Kandyan",
-            "Teacher Services 2021 for sinhala,Tamil and English-Kaluthara District",
-            "Teacher Services 2021 for sinhala,Tamil and English-Galle District",
-            "Teacher Services for sinhala-Ratnapura District",
-            "Medical officer preliminary grade i",
-            "medical consultant",
-            "medical officer grade i",
-            "medical officer grade ii",
-            "Medical officer preliminary grade ii",
-            "Community Development Assistant",
-            "Data Processing Assistant -colombo",
-            "Community Development Assistant",
-            "Data Processing Assistant -ratnapura",
-            "Social Development Assistant",
-        ]
-
+        #clustering with k-means
        count_vectorizer = CountVectorizer()

        # .fit_transfer TOKENIZES and COUNTS
@@ -109,12 +89,7 @@ class TopicCluster:
        l2_df = pd.DataFrame(
            X.toarray(), columns=l2_vectorizer.get_feature_names())
        # l2_df
-
-        # Initialize a vectorizer
-        vectorizer = TfidfVectorizer(
-            use_idf=True, tokenizer=stemming_tokenizer, stop_words='english')
-        X = vectorizer.fit_transform(texts)
-
+#removing unwanted file
        # distortions = []
        # K = range(1, 8)
        # for k in K: