Commit f4881287 authored by W.G.G.A. Supun Sameera's avatar W.G.G.A. Supun Sameera

Merge branch 'IT20227586' into 'master'

It20227586

See merge request !81
parents 899d1618 eed0d4bd
......@@ -135,6 +135,7 @@ class SinhalaStemmer:
for word in x:
word = word.strip()
step1_out = self.step_one(text=word)
print(step1_out)
if step1_out == word:
step2_out = self.step_two(text=step1_out)
step3_out = self.step_three(text=step2_out)
......@@ -148,9 +149,11 @@ if __name__ == "__main__":
obj = SinhalaStemmer()
input_word = "විදුලි බිල හා ජල බිල තුන් හතර ගුණයකින් වැඩිවී, වැඩි කලක් යන්නට මත්තෙන් නැවත විදුලි අර්බුදයක හා ජල අර්බුදයක බර ජනතාවගේ"
input_sentence = "සන්නිවේදනයේ මෙවලමක් ලෙස භාෂාවේ වටිනාකම වර්ධනය වූයේ මිනිසුන් වැඩි වැඩියෙන් පැතිරීමට හා අන්තර් ක්‍රියා කිරීමට පටන් ගැනීමත් සමඟ ය"
print(input_sentence)
input_sentence2 = 'විදුලිඅර්බුද'
#print(input_sentence2)
# input_list = ["මිනිසකු"]
out1 = obj.stemmer(input_sentence)
print(out1)
out1 = obj.stemmer(input_sentence2)
#print(out1)
# out2 = obj.stemmer(input_list)
විදුලිඅර්බුද විදුලි
අංකද අංක
අංකය අංක
අංකයක් අංක
......@@ -57,7 +58,7 @@
අක්කරයකට අක්කරයක
අක්කරයක් අක්කරයක
අක්කරෙයිපත්තුව අක්කරෙයිපත්තු
අක්කරෙයිපත්තුවට අක්කරෙයිපත්තු
අක්කරෙයිපත්තුවට අක්කරෙයිපත්තු
අක්කරෙයිපත්තුවේ අක්කරෙයිපත්තු
අක්කරේපත්තුව අක්කරේපත්තු
අක්කරේපත්තුවේ අක්කරේපත්තු
......@@ -7312,7 +7313,7 @@
ගැටඵව ගැටඵ
ගැටයක් ගැටය
ගැටයේ ගැටය
ගැටලුවකට ගැටලුවක
ගැටලුවකට ගැටලු
ගැටලුවකින් ගැටලුවකි
ගැටළුන්ගෙන් ගැටළුන්
ගැටළුන්ට ගැටළුන්
......@@ -126,7 +126,6 @@
ම්වලට
ම්වලින්
ම්වා
යක
යකගෙන්
යකගේ
......@@ -186,7 +185,6 @@
වක
වකගෙන්
වකගේ
වකට
වකටම
වකම
වකමත්
......
{
"cells": [
{
"cell_type": "code",
"execution_count": 19,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": [
"from sinhala_data_processor.preprocessor.stemmer import SinhalaStemmer\n",
"from sinhala_data_processor.preprocessor import SinhalaTokenizer\n",
"from sinhala_data_processor.preprocessor.stop_word_remover import StopWordRemover"
]
},
{
"cell_type": "code",
"execution_count": 21,
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"['විදුලිඅර්බ']\n"
]
}
],
"source": [
"stemmer_obj = SinhalaStemmer()\n",
"\n",
"input = 'විදුලි බිල හා ජල බිල තුන් හතර ගුණයකින් වැඩිවී, වැඩි කලක් යන්නට මත්තෙන් නැවත විදුලි අර්බුදයක හා ජල අර්බුදයක බර ජනතාවගේ හිස මත කඩා වැටී ඇත. විදුලිඅර්බුද මේ ඊයේ පෙරේදා දෙවනවරටත් ජල ගාස්තු සියයට 50 කට වැඩි ගණනකින් වැඩිකර ඇත. එසේම, නුදුරු අනාගතයේම විදුලි කප්පාදුවකට රජය අර අඳින බව පෙනෙන්නට තිබේ. අමාත්‍ය කංචන විජේසේකරගේ කතා බහෙන්ද ඒ බව ඉඟි කෙරේ. මීට හේතුව රටට බලපා ඇති දැඩි නියං තත්ත්වයයි. මේ නිසා ජල සහ විදුලි කප්පාදුවක් ළඟ ළඟම එන බව අප සියල්ලෝම තේරුම් ගත යුතුව ඇත. ජල සම්පාදන මණ්ඩලය ජලය කපා නොදමනවා කිව්වත් ඇත්ත නම්, පවතින නියඟය තව තව උග්‍ර වුවහොත්, ජල සම්පාදන හා පිරිපහදු මධ්‍යස්ථානවලට පානීය ජලය ලබාගැනීමේ දැඩි ගැටලුවකට මුහුණ දෙන්නට සිදුවීමයි. මෙනිසා ජලය, විදුලිය දැන් සිටම අරපිරිමැස්මෙන් භාවිත කිරීම අප කාගේත් යුතුකම වන අතර, උඩවලවේ අර්බුදය මෙන් විදුලි හා කෘෂිකර්ම ඇමැතිවරු කා කොටා නොගෙන පවතින ජලය කළමනාකරණය කර ගැනීම රජයේ වගකීම ය.' # your sentence\n",
"input2 = 'විදුලිඅර්බුද'\n",
"output = stemmer_obj.stemmer(input2)\n",
"\n",
"print(output)"
],
"metadata": {
"collapsed": false
}
},
{
"cell_type": "code",
"execution_count": 11,
"outputs": [],
"source": [
"tokenizer = SinhalaTokenizer()\n",
"remover = StopWordRemover()"
],
"metadata": {
"collapsed": false
}
},
{
"cell_type": "code",
"execution_count": 12,
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"විදුලි බිල ජල බිල තුන් හතර ගුණයකින් වැඩිවී, කලක් යන්නට මත්තෙන් නැවත විදුලි අර්බුදයක ජල අර්බුදයක බර ජනතාවගේ හිස කඩා වැටී ඇත. ඊයේ පෙරේදා දෙවනවරටත් ජල ගාස්තු සියයට 50 කට ගණනකින් වැඩිකර ඇත. එසේම, නුදුරු අනාගතයේම විදුලි කප්පාදුවකට රජය අර අඳින පෙනෙන්නට තිබේ. අමාත්‍ය කංචන විජේසේකරගේ කතා බහෙන්ද ඉඟි කෙරේ. මීට හේතුව රටට බලපා දැඩි නියං තත්ත්වයයි. ජල විදුලි කප්පාදුවක් ළඟ ළඟම එන අප සියල්ලෝම තේරුම් ගත යුතුව ඇත. ජල සම්පාදන මණ්ඩලය ජලය කපා නොදමනවා කිව්වත් ඇත්ත නම්, පවතින නියඟය උග්‍ර වුවහොත්, ජල සම්පාදන පිරිපහදු මධ්‍යස්ථානවලට පානීය ජලය ලබාගැනීමේ දැඩි ගැටලුවකට මුහුණ දෙන්නට සිදුවීමයි. මෙනිසා ජලය, විදුලිය සිටම අරපිරිමැස්මෙන් භාවිත කිරීම අප කාගේත් යුතුකම අතර, උඩවලවේ අර්බුදය විදුලි කෘෂිකර්ම ඇමැතිවරු කා කොටා නොගෙන පවතින ජලය කළමනාකරණය කර ගැනීම රජයේ වගකීම ය.\n"
]
}
],
"source": [
"remaining_words = remover.remove_stop_words(input)\n",
"print(remaining_words)"
],
"metadata": {
"collapsed": false
}
},
{
"cell_type": "code",
"execution_count": 13,
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"['විදුලි', 'බිල', 'හා', 'ජල', 'බිල', 'තුන්', 'හතර', 'ගුණයකින්', 'වැඩිවී', ',', 'වැඩි', 'කලක්', 'යන්නට', 'මත්තෙන්', 'නැවත', 'විදුලි', 'අර්බුදයක', 'හා', 'ජල', 'අර්බුදයක', 'බර', 'ජනතාවගේ', 'හිස', 'මත', 'කඩා', 'වැටී', 'ඇත', '.', 'මේ', 'ඊයේ', 'පෙරේදා', 'දෙවනවරටත්', 'ජල', 'ගාස්තු', 'සියයට', '50', 'කට', 'වැඩි', 'ගණනකින්', 'වැඩිකර', 'ඇත', '.', 'එසේම', ',', 'නුදුරු', 'අනාගතයේම', 'විදුලි', 'කප්පාදුවකට', 'රජය', 'අර', 'අඳින', 'බව', 'පෙනෙන්නට', 'තිබේ', '.', 'අමාත්\\u200dය', 'කංචන', 'විජේසේකරගේ', 'කතා', 'බහෙන්ද', 'ඒ', 'බව', 'ඉඟි', 'කෙරේ', '.', 'මීට', 'හේතුව', 'රටට', 'බලපා', 'ඇති', 'දැඩි', 'නියං', 'තත්ත්වයයි', '.', 'මේ', 'නිසා', 'ජල', 'සහ', 'විදුලි', 'කප්පාදුවක්', 'ළඟ', 'ළඟම', 'එන', 'බව', 'අප', 'සියල්ලෝම', 'තේරුම්', 'ගත', 'යුතුව', 'ඇත', '.', 'ජල', 'සම්පාදන', 'මණ්ඩලය', 'ජලය', 'කපා', 'නොදමනවා', 'කිව්වත්', 'ඇත්ත', 'නම්', ',', 'පවතින', 'නියඟය', 'තව', 'තව', 'උග්\\u200dර', 'වුවහොත්', ',', 'ජල', 'සම්පාදන', 'හා', 'පිරිපහදු', 'මධ්\\u200dයස්ථානවලට', 'පානීය', 'ජලය', 'ලබාගැනීමේ', 'දැඩි', 'ගැටලුවකට', 'මුහුණ', 'දෙන්නට', 'සිදුවීමයි', '.', 'මෙනිසා', 'ජලය', ',', 'විදුලිය', 'දැන්', 'සිටම', 'අරපිරිමැස්මෙන්', 'භාවිත', 'කිරීම', 'අප', 'කාගේත්', 'යුතුකම', 'වන', 'අතර', ',', 'උඩවලවේ', 'අර්බුදය', 'මෙන්', 'විදුලි', 'හා', 'කෘෂිකර්ම', 'ඇමැතිවරු', 'කා', 'කොටා', 'නොගෙන', 'පවතින', 'ජලය', 'කළමනාකරණය', 'කර', 'ගැනීම', 'රජයේ', 'වගකීම', 'ය', '.']\n"
]
}
],
"source": [
"t = tokenizer.tokenize(input)\n",
"print(t)"
],
"metadata": {
"collapsed": false
}
},
{
"cell_type": "code",
"execution_count": null,
"outputs": [],
"source": [],
"metadata": {
"collapsed": false,
"pycharm": {
"is_executing": true
}
}
},
{
"cell_type": "code",
"execution_count": 13,
"outputs": [],
"source": [],
"metadata": {
"collapsed": false
}
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 2
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython2",
"version": "2.7.6"
}
},
"nbformat": 4,
"nbformat_minor": 0
}
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment