Han Sann

ဟန်ဆန်း | စာပေနှင့် အနုပညာ

Menu
  • Home | အဖွင့်
  • Literature | စာပေ
  • Film | ရုပ်ရှင်
  • Art | အနုပညာ
  • Book | စာအုပ်
  • Tech | နည်းပညာ
  • Media | မီဒီယာ
  • Me | ကျွန်ုပ်
Menu

ယူနီကုတ် ၁ဝ၁ နှင့် ဘာသာစကား၊ ဘာသာဗေဒအရင်းအမြစ်ကိစ္စ

Posted on January 13, 2016 by Han Sann

၂ဝ၁ဝ ပြည့်နှစ် ဩဂုတ်လ ၁ ရက်‌နေ့က Machine Translation and Natural Language Processing, 2010 အမည်နဲ့ အလုပ်ရုံ‌ဆွေး‌နွေးပွဲတစ်ခုကို ရန်ကုန်မြို့၊ လှိုင်မြို့နယ်ရှိ မြန်မာအင်ဖိုတက်ခ်၊ ပင်မအ‌ဆောက်အအုံမှာ မနက် ၉ နာရီက‌နေ ည‌နေ ၅ နာရီအထိ ကျင်းပခဲ့ပါတယ်။ အဆိုပါအလုပ်ရုံ‌ဆွေး‌နွေးပွဲကို E-National Taskforce က ဦးစီးကျင်းပ‌ပေးခဲ့တာဖြစ်ပြီး Myanmar Unicode and NLP Research Center, UCSY-NLP Lab, MyMyanmar နဲ့ အိုင်စီတီပညာရှင်များ ဖြစ်ကြတဲ့ ကို‌ငွေထွန်း၊ ကိုညီလင်းဆက်၊ ကိုရဲမြတ်သူ၊ ကိုရာဗီတို့က တက်‌ရောက်‌ဆွေး‌နွေးကြပါတယ်။ ထို့အပြင် ဘာသာ‌ဗေဒဆိုင်ရာပညာရှင်များဖြစ်ကြတဲ့ စာ‌ရေးဆရာ‌မောင်သာနိုးနဲ့ စာ‌ရေးဆရာ‌မောင်ခင်မင်(ဓနုဖြူ)တို့လည်း တက်‌ရောက်သည်ကို ‌တွေ့ရပါတယ်။ ယင်းအလုပ်ရုံ‌ဆွေး‌နွေးပွဲဟာ Myanmar NLP နဲ့ပတ် သက်ပြီး ပထမဆုံးအကြိမ်ကျင်းပတဲ့ အလုပ်ရုံ‌ဆွေး‌နွေးပွဲလည်း ဖြစ်ပါတယ်။

သရုပ်ပြရှင်းလင်းမှုများ

အဆိုပါ အလုပ်ရုံ‌ဆွေး‌နွေးပွဲမှာ University of Computer Studies, Yangon ရဲ့ Machine Translation Research မှ ‌ဒေါက်တာ‌ဒေါ်ဝင်းပပက Natural Language Processing from the perceptive of  Myanmar Langauge ‌ခေါင်းစဉ်နဲ့‌ဆွေး‌နွေးခဲ့တယ်။ Myanmar NLP Research Center အ‌နေနဲ့ Phrase Break System using CRF++tool ‌ခေါင်းစဉ်ကို ‌ဆွေး‌နွေးခဲ့ပြီး ကိုထူးမြင့်‌နောင်က MyMyanmar Projects(Insides Out)‌ခေါင်းစဉ်ကို ‌ဆွေး‌နွေးခဲ့ပါတယ်။ ထို့အပြင် စာ‌ရေးဆရာ ‌မောင်သာနိုးက ဘာသာပြန်ခြင်းနဲ့ပတ်သက်ပြီး ‌ဆွေး‌နွေးခဲ့ခါ ကို‌ငွေထွန်းက Unicode 101 ဆိုတဲ့ ‌ခေါင်းစဉ်နဲ့ ‌ဆွေး‌နွေးခဲ့ပါတယ်။ ထို့‌နောက် Machine Translation ကို ဦး‌ဆောင်လုပ်ကိုင်‌နေတဲ့ ကို‌ကျော်‌ကျော်ဇင်က Statistical Machine Translation(SMT)အ‌ကြောင်းကို ‌ဆွေး‌နွေးခဲ့ပြီး ကိုရာဗီက State of Text on Android ‌ခေါင်းစဉ်ကို ‌ဆွေး‌နွေးခဲ့ပါတယ်။

ဆရာမောင်သာနိုး
ဆရာမောင်သာနိုး
ဆရာမောင်ခင်မင်(ဓနုဖြူ)
ဆရာမောင်ခင်မင်(ဓနုဖြူ)

 

 

 

 

 

 

 

 

ယခုကဲ့သို့ တင်ပြ‌ဆွေး‌နွေးခဲ့ကြတဲ့ အ‌ကြောင်းအရာများအထဲမှ ကို‌ငွေထွန်းရဲ့ တင်ပြ‌ဆွေး‌နွေးမှု တစ်ချို့ကို ‌ကောက်နုတ်တင်ပြလိုပါတယ်။ကို‌ငွေထွန်းက ယူနီကုဒ်မတိုင်မီကာလ လွန်ခဲ့တဲ့ ငါးနှစ်ကာလကို စတင်‌ဆွေး‌နွေးပါတယ်။

ကို‌ငွေထွန်းရဲ့ ယူနီကုဒ် ၁ဝ၁

ယူနီကုဒ်မတိုင်ခင်ကာလမှာ ကွန်ပျူတာတိုင်းဟာ ထုတ်တဲ့နိုင်ငံအလိုက် ထိုင်းဆိုရင် ထိုင်း၊ ဗီယက်နမ်ဆိုရင် ဗီယက်နမ်၊ ဂျပန်ဆိုရင် ဂျပန်ဆိုသလို သူတို့ Character ‌တွေကို တစ်ခုစီ သိမ်းပါတယ်။ ထိုင်းမှာထုတ်တဲ့ ကွန်ပျူတာထဲမှာ Thai Character Set ပါတယ်။ Character Enconding ပါတယ်။ အဲဒီ Character Enconding က ဂျပန်စာနဲ့ တွဲသုံးရင် အဆင်မ‌ပြေပါဘူး။ အင်္ဂလိပ်သုံးမယ်ဆိုတဲ့ ကွန်ပျူတာတစ်လုံးက ဗီယက်နမ်လို သုံးမယ်ဆိုရင် ပြဿနာရှိနိုင်ပါတယ်။ ထိုင်းလို ကွန်ပျူတာတစ်လုံးကလည်း တစ်ခြား‌သော ဘာသာစကားတစ်ခုနဲ့ ထုတ်လုပ်ထားတဲ့ ကွန်ပျူတာတစ်လုံးနဲ့ ချိတ်ဆက်အသုံးပြုဖို့ အဆင်မ‌ပြေပါဘူး။

ကိုငွေထွန်း
ကိုငွေထွန်း

ဒီလိုအချိန်‌တွေမှာ ယူနီကုဒ်လိုလာပါတယ်။ Pre Unicode  အ‌နေအ‌ခြေမှာ Language အများကြီးနဲ့ Multi Language လုပ်လို့ရဖို့ အ‌ခြေအ‌နေမရှိပါဘူး။ ယူနီကုဒ် ကာလ‌ရောက်လာတဲ့အခါမှာ Character ‌တွေကို ၂၅၆ ကွက်ထဲပါတဲ့ Enconding တစ်ခုထဲမှာ သိမ်း‌တော့တာ မဟုတ်‌တော့ပဲ။ Character ‌တွေအများကြီးကို သိမ်းနိုင်တဲ့ အ‌နေအထားတစ်ခုကို လုပ်ပါတယ်။ အပြင်မှာ မြင်‌နေရတဲ့ ကကြီး ခ‌ခွေး ဝလုံး တို့ကို မြင်‌နေရတဲ့ အတိုင်းသိမ်းတာမဟုတ်ပဲနဲ့ ကွန်ပျူတာထဲမှာ Number ‌တွေ အ‌နေနဲ့ သိမ်းပါတယ်။

ယူနီကုဒ်ကို သုံးပြီးဆိုရင် Character တစ်ခုအတိုင်းအတွက် နံပါတ်တစ်ခုလိုပါတယ်။ ကျွန်‌တော်တို့နိုင်ငံမှာ ယူနီကုဒ်စ‌ပေါ်တဲ့ အချိန်မှာ Enconding စနစ်ဆိုတာ မရှိပါဘူး။ Myanmar Font ‌တွေက တစ်ခုကို ပုံစံတစ်မျိုးစီ။ သိမ်းပုံကလည်း ပုံစံတစ်မျိုးစီ ဖြစ်‌နေပါတယ်။ ယူနီကုဒ်စလုပ်တဲ့အချိန်မှာ ယူနီကုဒ်စနစ်ထဲကိုဝင်ဖို့ ပြန်ပြီး‌တော့ ကြိုးစားရပါတယ်။

ယူနီကုဒ်က ဘာလဲလို့ ‌ပြောရရင်။ ယူနီကုုဒ်ဆိုတာ Unicode is worldwide character-encoding standard, published by the Unicode Consortium. ပါ။ တစ်‌ယောက်နှစ်‌ယောက်နဲ့လုပ်ထားတာ မဟုတ်ပါဘူး။ တစ်ကမ္ဘာလုံးက အဲဒီ Character Set ကို ဒီအတိုင်းပဲ သုံးကြမယ်ဆိုပြီးသုံးတဲ့ စံသတ်မှတ်ချက်တစ်ခု ဖြစ်ပါတယ်။ အဲဒီစံသတ်မှတ်ချက်ကို အ‌မေရိကန်နိုင်ငံမှာရှိတဲ့ Unicode Consortium ဆိုတဲ့ NGO တစ်ခုက စံ သတ်မှတ်‌ပေးပါတယ်။

ယူနီကုဒ်နဲ့တာ Data ‌တွေကို သိမ်းလိုက်မယ်ဆိုရင် ပျက်စီးခြင်း၊ ‌ပျောက်ဆုံးခြင်း မရှိပါဘူး။ Pre Unicode ကာလက ထိုင်းလို ရိုက်ထားတဲ့ Character တစ်ခုကို ဗီယက်နမ်ဘာသာစကားရှိတဲ့ ကွန်ပျူတာမှာ သွားကြည့်ရင် အားလုံးပျက်စီးကုန်ပါမယ်။ ဝင်းနဲ့ ရိုက်ထားတဲ့ စာတစ်ခုကို ဝင်း(Win Font)မရှိတဲ့ ‌နေရာတစ်ခုမှာ သွားကြည့်ရင် အင်္ဂလိပ်စာလုံး‌တွေကိုပဲ မြင်ရမှာပါ။ ယူနီကုဒ်မှာ ဒီလိုမဖြစ်ပါဘူး။ ယူနီကုဒ်ကို တစ်‌နေရာက‌နေ တစ်‌နေရာသို့ Data Change ဖို့အတွက် အကျိုးရှိရှိ အသုံးချနိုင်ပါတယ်။ Enconding System ရှိပါတယ်။ Enconding System ကို အတိအကျလိုက်နာထားမယ်ဆိုရင် ယူနီကုဒ်ကို ‌နေရာတိုင်း အမှား အယွင်းမရှိ အသုံးချနိုင်ပါတယ်။

ယူနီကုဒ်နဲ့ ယူနီကုဒ်စံသတ်မှတ်ချက်ဆိုတာ ကွဲပါတယ်။ ယူနီကုဒ်ဆိုတာက‌တော့ Character ‌တွေကို သတ်မှတ်‌ပေးလိုက်တယ်။ ယူနီကုဒ်စံသတ်မှတ်ချက်ဆိုတာ က Character ‌တွေကို သတ်မှတ်ရုံတင်မကဘူး။ ဘယ်လိုအကျိုးရှိရှိ အသုံးချမယ်ဆိုတဲ့ စံသတ်မှတ်ချက် အစုအ‌ဝေးကြီးကို ‌ခေါ်တာဖြစ်တယ်။

ယူနီကုဒ်လို့ ‌ပြောလိုက်ရင် ISO ရဲ့ 10646 ကို လိုက်နာပြီး ဖြစ်ပါတယ်။ ISO လို့ ‌ပြောလိုက်တာနဲ့ ISO မှာရှိတဲ့ တစ်ခြား စံသတ်မှတ်ချက်‌တွေဟာလည်း ချိန်ညှိပြီးသားဖြစ်တယ်။ ယူနီကုဒ်စံသတ်မှတ်ချက်ဆိုတာ Platform တစ်ခုပါ။ ယူနီကုဒ်ဆိုတာ ဘယ် Platform မှာပဲ ရမယ်ဆိုတာ မဖြစ်သင့်ပါဘူး။ ဘယ်ပရိုဂရမ်မှာပဲ သုံးလို့ရမယ်ဆိုတာ မဖြစ်သင့်ပါဘူး။ ဘာသာစကားတစ်ခုကို လူမျိုးစုတစ်ခုတည်းက သုံးတာမဟုတ်ပါဘူး။ ဒါ‌ကြောင့် မြန်မာစာတစ်ခု တည်းအတွက် ရရမယ်ဆိုတာ မဖြစ်သင့်ပါဘူး။ Enconding ကို အတိအကျ မလုပ်ထားဘူး။ Graphic Font ‌တွေကိုပဲ ဆက်သုံး‌နေမယ်ဆိုရင် Language Processing ကို ဘယ်လိုမှ လုပ်နိုင်မှာ မဟုတ်ပါဘူး။ Characters Sequence ကို အတိအကျ မလိုက်နာဘူး။ သိမ်းချင်ရာနဲ့ သိမ်းမယ်။ လက်‌တွေ့မှာ ဘာက ပိုအဆင်‌ပြေသလဲ။ အဲဒါနဲ့ပဲသုံးမယ်ဆိုရင် ယူနီကုဒ်စံလို့ ဘယ်လိုမှ မ‌ပြောနိုင်ဘူး။ Characters Sequence ‌တွေကို လိုက်နာဖို့ အခက်အခဲရှိပါတယ်။ Device တိုင်းမှာ အဆင်‌ပြေဖို့ မလွယ်ပါဘူး။ မြန်မာဘာသာစကားရဲ့ သဘာဝ‌ကြောင့်လည်း ဖြစ်ပါတယ်။ ဒါ‌ပေမယ့် မလိုက်နာဘူးဆိုရင် ISO ကို မလိုက်နာဘူး ဖြစ်ပါမယ်။

ယူနီကုဒ်လို့‌ပြောရင်

  • Unicode encodes plain text,
  • Unification,
  • Characters, not glyphs,
  • Characters, not graphemes,
  • Dynamic composition,
  • Logical order

ဆိုတဲ့ Desing Pattern ‌ခြောက်ခုနဲ့ ညီဖို့လိုပါတယ်။

ကိုရဲမြတ်သူ
ကိုရဲမြတ်သူ

ယူနီကုဒ်လို့‌ပြောရင် သ‌ဝေထိုးကိစ္စကို အငြင်းအခုန်များပါတယ်။ သ‌ဝေထိုးကို ဘာဖြစ်လို့ ‌ရှေ့မှာ မထားသလဲ။ ရရစ်ကို ဘာဖြစ်လို့ ‌ရှေ့မှာ မထားသလဲ။ ယူနီကုဒ်ကိုလုပ်ရင် ယူနီကုဒ်က ‌ပေးတဲ့ Rule ‌တွေအတိုင်းလုပ်ရပါတယ်။ Logical order ကိုသာ သိမ်း‌ပေးတဲ့အတွက် Visual order ကို လုပ်လို့ မရနိုင်ပါဘူး။

မြန်မာယူနီကုဒ်အဆင်သင့်ဖြစ်ပြီးလားလို့ ‌မေးခွန်းထွက်လာတဲ့အခါ အပိုင်းနှစ်ပိုင်း မြင်မိပါတယ်။ တစ်ခုက မူဝါဒပိုင်းပါ။ တစ်ခုက နည်းပညာအပိုင်းပါ။ Official Standards for Keyboard ‌လော‌လောဆယ်မရှိပါဘူး။ နိုင်ငံတကာကို သွားတဲ့အခါမှာ မင်းတို့မှာ Official Keyboard မရှိဘူးလို့ ‌ပြောဆိုခံရပါတယ်။

ရရစ်ဆိုတာ‌လေးက ကကြီးနဲ့‌တွေ့ရင် ကြီးသွားပြီး၊ ခ‌ခွေးနဲ့ ‌တွေ့ရင် ‌သေးသွား‌ပေးနိုင်တဲ့ Official Shaper(Rendering Engine) မရှိပါ‌သေးဘူး။ ဖြစ်နိုင်‌ချေ အရှိဆုံးနည်းလမ်းက‌နေ လုပ်ထားတာပဲ ရှိပါတယ်။ Official Locale Setting မရှိပါ‌သေးဘူး။ CultureInfo Standards မရှိ‌သေးပါဘူး။ Font ‌တွေ ပြီးသွားတာ မှန်ပါတယ်။ သို့‌သော်လည်း မြန်မာစာ‌တွေရဲ့ အလယ်မှာ ထိုင်းစာ‌သော်လည်း‌ကောင်း၊ ရုရှားစာ‌သော်လည်း‌ကောင်း သွားထည့်ဖို့ မလွယ်ပါဘူး။ အဲဒီအတွက် Fallback Rendering မဖြစ်‌သေးပါဘူး။ လို‌နေပါ‌သေးတယ်။

ယူနီကုဒ်နဲ့ပတ်သက်ပြီး လက်ရှိမှာ Encoding Standards  ‌တွေ ပြီးပါပြီ။ Font ပြီးပါပြီ။ Myanmar3 ကို Official Standards အ‌နေနဲ့ ရုံး‌တွေမှာ သုံးလာကြပါပြီ။ Keyboards နဲ့ IME  ပြီးပါပြီ။ Language Enabling လို့‌ခေါ်တဲ့ စာရိုက်တဲ့ အဆင့်၊ Print ထုတ်လို့ ရတဲ့အဆင့် ပြီးပါပြီ။ Text Processing ‌တွေဖြစ်တဲ့ Sorting, Searching, Indexing, Segmentation ‌တွေကို လုပ်နိုင်ဖို့ စတင်လုပ်ကိုင်‌နေပါပြီ။

Myanmar NLP Lab အ‌နေနဲ့ Converter ပြီးပါပြီ။ Syllable Segmentation သုံးလို့ ရပါပြီ။ Sorting နဲ့ Searching ကို Microsoft Office အ‌ပေါ်မှာ လုပ်လို့ ရပါပြီ။ Transliteration ပြီးပါပြီ။ MUI(Multi User Interface)သုံးလို့ရ‌အောင် စလုပ်‌နေပါပြီ။ Dictionary အ‌နေနဲ့လည်း သုံးလို့ရတဲ့ အ‌နေအထားရှိ‌နေပါပြီ။

တစ်ခြား‌သော ဘာသာစကား‌တွေမှာ Line Breaking အလုပ်လုပ်ပါတယ်။ မြန်မာဘာသာစကားမှာ အလုပ်မလုပ်‌သေးပါဘူး။ Fallback Rendering အလုပ်မလုပ် ‌သေးပါဘူး။ Spelling Checking မရှိ‌သေးပါဘူး။ Official Language Pack မရှိ‌သေးပါဘူး။ Official Language Pack မရှိတဲ့အတွက် OS ‌တွေမှာ သုံးတဲ့အခါ အခက်အခဲရှိပါတယ်။

Myanmar Language Pack ကို လုပ်တဲ့ Software Vendor မရှိ‌သေးပါဘူး။ Opentype, AAT တို့ကို Official Standards လုပ်တဲ့သူ မရှိ‌သေးပါဘူး။ Programming Language နဲ့ Operating System ‌တွေအတွက် Locale Standards ‌တွေ မရှိ‌သေးပါဘူး။

Nyi Lynn Sett & Htoo Myint Naung
ကိုညီလင်းဆက်နှင့်ကိုထူးမြင့်နောင်

လွန်ခဲ့တဲ့ ငါးနှစ်က Myanmar NLP Lab ကို စခဲ့တယ်။ အခုအချိန်မှာ အ‌ခြေအ‌နေတစ်ခု ဖြစ်‌နေပါပြီ။ Microsoft Windows, Linux နဲ့ Mac တို့ သုံးလို့ ရနိုင်တဲ့ အ‌ခြေအ‌နေတစ်ခုဖြစ်‌နေပါပြီ။ OpenOffice Project ကို‌တော့ မြန်မာစာနဲ့ အသုံးပြုနိုင်ဖို့ ခွင့်ပြုပါတယ်။ Programming Languages ‌တွေ၊ Browser ‌တွေနဲ့ Software ‌တွေမှာ မြန်မာယူနီကုဒ် သုံးလို့ရ‌အောင် Support လုပ်ပါတယ်။ Windows Mobile Phone မှာ သုံးလို့ရ‌နေပြီလို့ သိရပါတယ်။ Open Source Localization မှာလည်း ယူနီကုဒ်ကို သုံးလာကြပါပြီ။

ဘယ်အရာမှ တစ်ခါတည်းနဲ့ အကုန်ရတယ်ဆိုတာ မဖြစ်နိုင်ပါဘူး။ အကြမ်းဖျည်းအားဖြင့် ယူနီကုဒ်ဆိုတာ စံသတ်မှတ်ချက်တစ်ခုပါပဲ။ Font တို့ Software တို့ကို ယူနီကုဒ်လို့ ‌ပြောတာမဟုတ်ပါဘူး။ ယူနီကုဒ်ဆိုတာ ကိုးဆယ့်‌ခြောက်ပါး‌ပျောက်တဲ့‌ဆေး မဟုတ်ပါဘူး။ တစ်ချို့က ယူနီကုဒ်ထည့်လိုက်ရင် အကုန်လုံး ပြီးသွားမယ်လို့ ထင်‌နေကြပါတယ်။ Language Resources ‌တွေ လုပ်မယ်။ Processing ‌တွေ လုပ်မယ်ဆိုရင် စံသတ်မှတ်ချက်‌တွေကို လိုက်နာသင့်ပါတယ်။ Developer ‌တွေအ‌နေနဲ့ Internationalization, Localization ‌တွေကို ပိုမိုထိ ‌ရောက်‌အောင် ‌လေ့လာသင့်ပါတယ်။

ကို‌ငွေထွန်းရဲ့ ‌ဆွေး‌နွေးမှုများ ပြီးစီးတဲ့ ‌နောက်ပိုင်းမှာ အလုပ်ရုံ‌ဆွေး‌နွေးပွဲသို့ တက်‌ရောက်လာသူ တစ်ချို့သည် မြန်မာယူနီကုဒ်နဲ့ပတ်သက်ပြီး ‌မေးမြန်း‌ဆွေး‌နွေး ကြပါတယ်။ ထိုသို့ ‌ဆွေး‌နွေး‌မေးမြန်းမှုများနဲ့ပတ်သက်ပြီး ဆရာမ‌ဒေါက်တာ‌ဒေါ်မြင့်မြင့်သန်းကလည်း ပါဝင်‌ဆွေး‌နွေး‌ပေးခဲ့ပါတယ်။ ယင်းသို့ ‌ဆွေး‌နွေးခဲ့တဲ့ ‌ဆွေး‌နွေးချက်များမှ ဆရာမ ‌ဒေါက်တာ‌ဒေါ်မြင့်မြင့်သန်းရဲ့ ‌ဆွေး‌နွေးချက်တစ်ချို့ကို ‌ကောက်နုတ်တင်ပြလိုပါတယ်။

ဆရာမ ‌ဒေါက်တာ‌ဒေါ်မြင့်မြင့်သန်းရဲ့ ‌ဆွေး‌နွေးချက်

ယူနီကုဒ် ၃.ဝ မှာ မြန်မာစာအတွက် Code Set ရလာတဲ့ ‌နောက်ပိုင်းမှာ Gap ‌တော်‌တော်‌လေးဖြစ်‌နေပါတယ်။ ၂ဝဝ၃ ခုနှစ်ခန့်မှာ ပညာရှင်အ‌နေနဲ့ ကို‌ငွေထွန်း ရယ် ကို‌ဇော်ထွဋ်ရယ်ပဲ ရှိပါတယ်။ ပြီးတဲ့အခါကျ‌တော့မှ ပရိုဂရမ်မာ‌တွေကို ဆက်ပြီး ‌ခေါ်ရပါတယ်။ အဲဒီအချိန်မှာ စံသတ်မှတ်ချက်ဟာ မငြိမ်‌သေးဘူး။ Myanmar Character Set ပဲ ရ‌သေးတယ်။ ရပင့် ရ ရစ် ဝဆွဲ ဟထိုးဆိုတဲ့ Code ‌လေးခု‌တောင် အဲဒီအချိန်မှာ မရ‌သေးပါဘူး။

စံသတ်မှတ်ချက်ကို ပိုပြီး‌တော့ ပြည့်ဝ‌စေချင်တဲ့အတွက်‌ကြောင့် စံသတ်မှတ်ချက်ကို အရင်ဆုံးလုပ်ရပါတယ်။ စံသတ်မှတ်ချက်ရပြီးတဲ့ ‌နောက်မှာလည်း ‌ခေါ်လိုက်တဲ့ ပရိုဂရမ်မာတိုင်းကို သင်တန်း‌ပေးပါတယ်။ လိုအပ်တဲ့ စာ‌တွေကို ဖတ်ခိုင်းတယ်။ အများပြည်သူကိုလည်း ‌ပြောပါတယ်။ ဒါ‌ပေမယ့် စိတ်ဝင်စား မှု ကွာခြား‌နေတယ်လို့ ထင်ပါတယ်။

ဒေါက်တာဒေါ်မြင့်မြင့်သန်း
ဒေါက်တာဒေါ်မြင့်မြင့်သန်း

အထူးသဖြင့် Application ကို Myanmar3 ယူနီကုဒ်နဲ့‌ရေးပါဆိုရင်မရဘူးလို့ အရင်ဆုံးထ‌အော်တဲ့ လူ‌တွေက များများပါ။ ယူနီကုဒ်သုံးလို့ရှိရင် Programming Language ရဲ့ ဘယ်အပိုင်းမှာ ဘာ‌တွေကို Declare လုပ်ရမယ်ဆိုတာကို ဖတ်တဲ့အားနည်းပါတယ်။ ယူနီကုဒ်နဲ့ Application ‌ရေးလို့ မရဘူးဆိုပြီး‌ပြောတဲ့ ကုမ္ဋဏီက များပါတယ်။ တစ်ပတ်တစ်ခါ‌လောက် Developer  ‌တွေနဲ့ ကုမ္ဋဏီ‌တွေကို ‌ခေါ်‌တွေ့ခဲ့ဖူးပါတယ်။ ‌ဖြေရှင်းသင့်တာ‌တွေကို ‌ဖြေရှင်း‌ပေးခဲ့တယ်။ ဒီလိုလုပ်‌ပေးခဲ့တာကို အများက သိပ်မသိဘူးလို့ ထင်ပါတယ်။ အများအားဖြင့် ကုမ္ဋဏီ‌တွေကိုပဲ ‌ကြေညာလိုက်တယ်။ အများပြည်သူကို မ‌ကြေညာထားဘူး ဖြစ်‌နေတာကိုး။ ယူနီကုဒ်ရဲ့ပတ်သက်ပြီး ကြုံတဲ့‌ဟော‌ပြောပွဲတိုင်းမှာ အနည်းဆုံး‌ခေါင်းစဉ်တစ်ခုအ‌နေနဲ့ ‌ပြော‌ပေးပါတယ်။ ၂ဝဝ၅ ခုနှစ်က ICT Week မှာဆိုရင် Language Processing နဲ့ပတ်သက်တဲ့‌ဟော‌ပြောပွဲကို တစ်ရက်လုံးလုံး လုပ်‌ပေးခဲ့တယ်။  အတတ်နိုင်ဆုံး များများပြန့်ပွား‌စေချင်ပါတယ်။ ဘာ‌ကြောင့်လဲဆို ‌တော့ နိုင်ငံတကာမှာ အားလုံးက ကိုယ့်မိခင်ဘာသာစကားနဲ့သုံးလာတဲ့ အချိန်မှာ စက်ရုပ်‌တွေကို ခိုင်းနိုင်တဲ့အထိ မစဉ်းစား‌တောင်မှ အနည်းဆုံးမြန်မာစာနဲ့ Application ‌တွေ Processing ‌တွေကို ‌ချော‌ချော‌မွေ့‌မွေ့လုပ်လို့ရတဲ့ အဆင့်အထိကို အမြဲတမ်း ‌ရှေ့ရှု‌နေပါတယ်။ ဒါ‌ေြကာင့် အားလုံးဟာ စံသတ်မှတ်ချက်ကို တစ်ညီတစ်ညွတ်တည်း လိုက်နာပြီး‌တော့ သွားမယ်ဆိုရင် ပိုပြီး‌တော့ မြန်လိမ့်မယ်လို့ ‌မျှော်လင့်ပါတယ်။

နိုင်ငံတကာမှာ နည်းပညာ‌တွေ ဘယ်‌လောက်အထိကျယ်ပြန့်ပြီး‌တော့ တိုးတက်‌ပြောင်းလဲ‌နေတယ်ဆိုတာ အားလုံးအသိပါပဲ။ နိုင်ငံတကာမှာ NLP(Natural Language Processing) လုပ်‌နေတဲ့ အဖွဲ့‌တွေနဲ့လည်း ပူး‌ပေါင်းထားပါတယ်။ သူတို့က Technology is nothing. လို့ ‌ပြောပါတယ်။ အဓိကတည်‌ဆောက်ရမှာက ဘာသာစကားအရင်းအမြစ်(Language Resource)ပါ။ ဒါ‌ကြောင့် Multilingualization ကိုလည်း ချဉ်းကပ်ပါတယ်။ WordNet ‌ထောက်‌နေတယ်လို့‌ပြောတဲ့ဆီမှာ လည်း Word Net ဆိုတာ Word Set အ‌ပေါ်မှာ မူတည်ပြီး ‌ထောက်တာပါ။ Go တစ်လုံးရဲ့ Word Set ‌ပေါင်း သုံးဆယ်‌ကျော် ရှိပါတယ်။

နည်းပညာက တီထွင်ထားပြီးဖြစ်တဲ့အတွက် Technology Transfer ဆိုတာ ခဏ‌လေးနဲ့ ရရှိနိုင်ပါတယ်။ Launguage Resource ကို အဓိကလုပ်ဖို့ပဲ သူတို့က ‌ပြောပါတယ်။ နည်းပညာကို လွယ်လွယ်ကူကူနဲ့ ရနိုင်တယ်။ ‌နောက်ကျ ကျန်စရာမရှိဘူး။ ဒါ‌ကြောင့် Language Resource ကို အဓိကတည်‌ဆောင်‌နေတာပါ။

နည်းပညာကို သူတို့က ‌ပေးလို့ရတယ်။ မြန်မာဘာသာပြန် ‌ပေးရမယ့်အခါ သူတို့ဟာ မြန်မာစာမတတ်တဲ့အတွက်‌ကြောင့် ဘာမှလုပ်လို့ မရဘူး။ Language Resource ကို ယူခဲ့ရင် နည်းပညာအကုန်လုံးကို‌ပေးမယ်ဆိုတဲ့ အဖွဲ့အစည်း‌တွေ အများကြီးရှိတယ်။

အားနည်းချက်‌လေး‌တွေ ရှိ‌နေတယ်

ယင်းသို့ ကျင်းပခဲ့တဲ့ အလုပ်ရုံ‌ဆွေး‌နွေးပွဲနဲ့ပတ်သက်ပြီး Machine Translation ကို လုပ်ကိုင်‌နေတဲ့ ကို‌ကျော်‌ကျော်ဇင်က ‘‘ကိုပွဲကို လူ ၈ဝ ခန့် တက်‌ရောက်ကြ တယ်။ အတိုင်းအတာတစ်ခုအထိ ‌အောင်မြင်တယ်လို့ ‌ပြောနိုင်တယ်။ ဒါ‌ပေမယ့်လည်း အားနည်းချက်‌လေး‌တွေ ရှိ‌နေပါ‌သေးတယ်။ ကျွန်‌တော်တို့ ပွဲစီစဉ်တဲ့ သူ‌တွေရဲ့ အားနည်းချက်လည်း ရှိပါတယ်။ ပွဲကို အရမ်းအချိန်ကပ်ပြီး ‌ကြေညာလိုက်‌တော့ တစ်ချို့လာချင်‌ပေမယ့် မလာနိုင်တာ‌တွေ၊ မသိလိုက်လို့ မလာနိုင် တာ‌တွေ ရှိခဲ့ပါတယ်။ NLP လုပ်တဲ့ အဖွဲ့‌တွေ စုံသ‌လောက်ရှိ‌ပေမယ့် Participate လုပ်တာ၊ ဝင်‌ရောက်‌ဆွေး‌နွေးတာ အားနည်း‌နေသလိုပဲ၊ NLP အ‌ကြောင်းကို သိပ်စိတ်မဝင်စားကြ‌သေးလို့လား။ Presentation လုပ်တဲ့သူ‌တွေ ‌ပြောတာပဲ နားလည်ပြီးသား‌တွေ ဖြစ်လို့လား။ နားပဲမလည်ကြလို့လား မသိပါ။ Motivation ‌တော်‌တော်‌လေးလို‌နေ‌သေးတယ် ထင်ပါတယ်။ ‌နောက်တစ်ချက်က Sharing ‌တွေ လုပ်ဖို့လည်း လက်တွန့်‌နေပါတယ်။ တစ်ချို့က Policy ‌ကြောင့်၊ တစ်ချို့က Copy Right ‌ကြောင့် အဲလိုအ‌ကြောင်းအမျိုးမျိုး‌တွေ‌ကြောင့် ဖြစ်မယ်ထင်ပါတယ်။

MyMyanmar က ကိုထူးမြင့်‌နောက်က MyInput ကို Open Source ‌ပေးမယ် ‌ပြောပါတယ်။ ကိုရာဗီးကလည်း Android နဲ့ ပတ်သက်ပြီး Share Source ‌ပေးမယ်‌ပြောပါတယ်။ ကျန်တဲ့သူ‌တွေက‌တော့ Sharing ကို ဘာမှမ‌ပြောကြပါဘူး။ ဘာပဲ‌ပြော‌ပြော ဒီပွဲရဲ့ရည်ရွယ်ချက်ကို အတိုင်းအတာတစ်ခု အထိ ‌အောင်မြင်‌အောင် ကျင်းပနိုင်ခဲ့တယ်လို့ ယူဆပါတယ်။ ‌နောက်ထပ်ပွဲ‌တွေ ထပ်ပြီးကျင်းပပါအုံးမယ်။ ခု‌တွေ့မြင်‌နေရတဲ့ အားနည်းချက်‌တွေလည်း ‌နောက်ဆို ပိုလို့ နည်းပါးသွားမှာပါ။’’ လို့ myanmarITpor အွန်လိုင်းစာမျက်နှာတွင် ‌ရေးသားတင်ပြထားပါတယ်။ ထို့အပြင် ယခုကျင်းပခဲ့တဲ့ အလုပ်ရုံ‌ဆွေး‌နွေးပွဲကို NLP အ‌ကောင်အထည်‌ဖော်‌နေကြတဲ့ အဖွဲ့‌တွေ အားလုံးစုရုံးပြီး ‌တွေ့နိုင်‌အောင်၊ Knowledge, Resources ‌တွေကို Sharing လုပ်နိုင်‌အောင်ဆိုပြီး ကျင်းပပါတယ်လို့ ကို‌ကျော်‌ကျော်ဇင်က myanmarITpro မှာ ဆက်လက်‌ဖော်ပြထားပါတယ်။

၂ဝ၁ဝ ပြည့်နှစ် ဩဂုတ်လ ၁ ရက်‌နေ့က ကျင်းပခဲ့တဲ့ Machine Translation and Natural Language Processing, 2010 အလုပ်ရုံ‌ဆွေး‌နွေးပွဲမှာ ဆရာမ‌ဒေါက်တာ ‌ဒေါ်မြင့်မြင့်သန်းက နိဂုံးချုပ်အမှာစကား‌ပြောကြားခဲ့ပါတယ်။ ဆရာမ‌ဒေါက်တာ ‌ဒေါ်မြင့်မြင့်သန်းရဲ့ အမှာစကားတချို့ကိုလည်း ‌အောက်ပါအတိုင်း ‌ကောက်နုတ်တင်ပြလိုက်ပါတယ်။

ပူး‌ပေါင်း‌ဆောင်ရွက်ဖို့ ဖိတ်‌ခေါ်ပါတယ်

ယခုကဲ့သို့ အလုပ်ရုံ‌ဆွေး‌ေနွးပွဲ ပြုလုပ်ခြင်းဟာ တစ်ဦးနဲ့တစ်ဦးလုပ်ကိုင်‌နေတဲ့ လုပ်ငန်း‌တွေကို သိရှိရ‌အောင် ပြုလုပ်ခြင်း ဖြစ်တယ်။ ဒီလုပ်ငန်းစဉ်ဟာ မပြီးဆုံးနိုင်တဲ့ သု‌တေသနလုပ်ငန်းမျိုးဖြစ်တယ်။ ထုတ်ကုန်တစ်ခုအ‌နေနဲ့ ထွက်လာနိုင်သလို သု‌တေသနရလာဒ်တစ်ခုဟာ ထုတ်ကုန်တစ်ခုဖြစ်ချင်မှလည်း ဖြစ်မယ်။ သု‌တေသနလုပ်တဲ့အခါ ဆက်လက်မလုပ်နိုင်ဘူးဆိုတဲ့ အ‌ဖြေလည်း ထွက်လာနိုင်တယ်။ ထုတ်ကုန်တစ်ခုထွက်ရမယ်ဆိုတာထက် သီအိုရီအရ ဘာလုပ်နိုင်သလဲဆိုတဲ့ ‌ကောက်ချက်ချနိုင်ဖို့က ပိုအ‌ရေးကြီးတယ်လို့ ထင်တယ်။

ယခုလိုအချိန်မှာ တစ်ဦးနဲ့တစ်ဦးဖလှယ်နိုင်လျှင် အတည်ပြုချက်‌တွေဟာ အမြန်ဆုံးရရှိနိုင်တယ်။ ‌လျှောက်လို့မရနိုင်တဲ့ လမ်းကို အချိန်ကုန်ခံပြီး ‌လျှောက် ‌နေမယ့်အစား မဖြစ်နိုင်ဘူးလို့ ‌သေချာလျှင် တစ်‌နေရာတွင်ရပ်ပြီး ဖြစ်နိုင်‌ချေရှိတဲ့ လုပ်ငန်းကို ဆက်လုပ်‌ပေးလျှင် တိုးတက်မှုပိုမိုမြန်ဆန်လာနိုင်တယ်။

အခုအလုပ်ရုံ‌ဆွေး‌နွေးပွဲမှာ ပူး‌ပေါင်းပါဝင်ကြသလို ဆက်လက်လုပ်ကိုင်ဖို့လည်း လိုအပ်ပါတယ်။ မျှ‌ဝေ‌ပေးနိုင်သမျှကို  မျှ‌ဝေ‌ပေးပြီး အပြန်အလှန် လုပ်‌ဆောင် ကြမယ်ဆိုရင် ပိုပြီး‌အောင်မြင်လာမယ်လို့ ‌မျှော်လင့်တယ်။ အခုလုပ်‌နေတဲ့ လုပ်ငန်းစဉ်‌တွေဟာ ဘယ်သူမှ မလုပ်ဖူးခဲ့တဲ့ လုပ်ငန်း‌တွေကို လုပ်ကိုင်‌နေကြတာ ဖြစ်တယ်။ ဒါ‌ကြောင့် လမ်းတည့်တည့်‌ရောက်ချင်လည်း ‌ရောက်မယ်။ ‌ေကွ့ပတ်ပြီး သွား‌နေတာလဲ ဖြစ်နိုင်တယ်။ ဒီ‌နေ့အလုပ်ရုံ‌ဆွေး‌နွေးပွဲရလာဒ်ကို ကြည့်မယ် ဆိုရင် ဒီအချက်‌တွေဟာ ထင်ရှား‌နေပါတယ်။ Language Resource အပိုင်းကို မြန်မြန်အ‌ကောင်အထည်‌ဖော်နိုင်ရင် လိုအပ်တဲ့စနစ်‌တွေ အကုန်လုံးဟာ အဆင့်သင့်‌ရောက်လာမှာ ဖြစ်တယ်။ အလုပ်ရုံ‌ဆွေး‌နွေးပွဲ ပြီးတဲ့အခါ ပြီးပြီဆိုပြီး မထားခဲ့ပဲ ဆက်လက်၍ပူး‌ပေါင်း‌ဆောင်ရွက်ဖို့ ဖိတ်‌ခေါ်ပါတယ်။

ဟန်‌ဇော်

ပါစင်နယ်ကွန်ပျူတာမဂ္ဂဇင်း

၂ဝ၁ဝ ပြည့်နှစ်၊ စက်တင်ဘာလ

Category: Book
  • မြန်မာ၀တ္ထုတို ရာပြည့်နှစ်
  • မြန်မာဝတ္ထုတို မျိုးဆက်သစ်
  • ဟန်ဆန်းအကြောင်း

Recent Posts

  • အိုဘယ့်… အို…တေးမြုံငှက်
  • သုံးဆယ့်တစ်ဘုံသား ကဗျာဖတ်သူ (သောက်ခဲ့သော) ဘလက်ကော်ဖီ
  • စံ(Standard)တစ်ခုပဲ ရှိပါတယ်
  • ၀ဿန်ချိန်ခါ
  • သည်းခံနိုင်၏ သည်းမခံနိုင်၏
© 2025 Han Sann | Powered by Minimalist Blog WordPress Theme