Upload New File

194cab30 · Tharushika P.R · d7cf97d3 · 194cab30
Commit 194cab30 authored Oct 08, 2022 by Tharushika P.R
Hide whitespace changes
Inline Side-by-side

Showing with 57 additions and 0 deletions

impact_of_news/news_classification.py impact_of_news/news_classification.py +57 -0

No files found.
--- a/impact_of_news/news_classification.py
+++ b/impact_of_news/news_classification.py
+import pandas as pd
+import numpy as np
+
+# import seaborn as sns
+import matplotlib.pyplot as plt
+
+# for text pre-processing
+import re, string
+import nltk
+from nltk.tokenize import word_tokenize
+from nltk.corpus import stopwords
+from nltk.tokenize import word_tokenize
+from nltk.stem import SnowballStemmer
+from nltk.corpus import wordnet
+from nltk.stem import WordNetLemmatizer
+#
+# nltk.download('punkt')
+# nltk.download('averaged_perceptron_tagger')
+# nltk.download('wordnet')
+
+# for model-building
+from sklearn.model_selection import train_test_split
+from sklearn.linear_model import LogisticRegression
+from sklearn.linear_model import SGDClassifier
+from sklearn.naive_bayes import MultinomialNB
+from sklearn.metrics import classification_report, f1_score, accuracy_score, confusion_matrix
+from sklearn.metrics import roc_curve, auc, roc_auc_score
+
+# bag of words
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.feature_extraction.text import CountVectorizer
+
+# for word embedding
+# import gensim
+# from gensim.models import Word2Vec  # Word2Vec is mostly used for huge datasets
+
+import os
+import csv
+
+os.chdir('../impact_of_news')
+df_train = pd.read_csv('data/train.csv')
+
+import csv
+
+with open("data/train.csv") as f:
+    reader = csv.reader(f)
+    for row in reader:
+        print(" ".join(row))
+
+print(df_train.shape)
+# print(df_train)
+#
+# x = df_train['target'].value_counts()
+# print(x)
+# sns.barplot(x.index, x)
+#
+# df_train.isna().sum()