၂ဝ၁ဝ ပြည့်နှစ် ဩဂုတ်လ ၁ ရက်နေ့က Machine Translation and Natural Language Processing, 2010 အမည်နဲ့ အလုပ်ရုံဆွေးနွေးပွဲတစ်ခုကို ရန်ကုန်မြို့၊ လှိုင်မြို့နယ်ရှိ မြန်မာအင်ဖိုတက်ခ်၊ ပင်မအဆောက်အအုံမှာ မနက် ၉ နာရီကနေ ညနေ ၅ နာရီအထိ ကျင်းပခဲ့ပါတယ်။ အဆိုပါအလုပ်ရုံဆွေးနွေးပွဲကို E-National Taskforce က ဦးစီးကျင်းပပေးခဲ့တာဖြစ်ပြီး Myanmar Unicode and NLP Research Center, UCSY-NLP Lab, MyMyanmar နဲ့ အိုင်စီတီပညာရှင်များ ဖြစ်ကြတဲ့ ကိုငွေထွန်း၊ ကိုညီလင်းဆက်၊ ကိုရဲမြတ်သူ၊ ကိုရာဗီတို့က တက်ရောက်ဆွေးနွေးကြပါတယ်။ ထို့အပြင် ဘာသာဗေဒဆိုင်ရာပညာရှင်များဖြစ်ကြတဲ့ စာရေးဆရာမောင်သာနိုးနဲ့ စာရေးဆရာမောင်ခင်မင်(ဓနုဖြူ)တို့လည်း တက်ရောက်သည်ကို တွေ့ရပါတယ်။ ယင်းအလုပ်ရုံဆွေးနွေးပွဲဟာ Myanmar NLP နဲ့ပတ် သက်ပြီး ပထမဆုံးအကြိမ်ကျင်းပတဲ့ အလုပ်ရုံဆွေးနွေးပွဲလည်း ဖြစ်ပါတယ်။
သရုပ်ပြရှင်းလင်းမှုများ
အဆိုပါ အလုပ်ရုံဆွေးနွေးပွဲမှာ University of Computer Studies, Yangon ရဲ့ Machine Translation Research မှ ဒေါက်တာဒေါ်ဝင်းပပက Natural Language Processing from the perceptive of Myanmar Langauge ခေါင်းစဉ်နဲ့ဆွေးနွေးခဲ့တယ်။ Myanmar NLP Research Center အနေနဲ့ Phrase Break System using CRF++tool ခေါင်းစဉ်ကို ဆွေးနွေးခဲ့ပြီး ကိုထူးမြင့်နောင်က MyMyanmar Projects(Insides Out)ခေါင်းစဉ်ကို ဆွေးနွေးခဲ့ပါတယ်။ ထို့အပြင် စာရေးဆရာ မောင်သာနိုးက ဘာသာပြန်ခြင်းနဲ့ပတ်သက်ပြီး ဆွေးနွေးခဲ့ခါ ကိုငွေထွန်းက Unicode 101 ဆိုတဲ့ ခေါင်းစဉ်နဲ့ ဆွေးနွေးခဲ့ပါတယ်။ ထို့နောက် Machine Translation ကို ဦးဆောင်လုပ်ကိုင်နေတဲ့ ကိုကျော်ကျော်ဇင်က Statistical Machine Translation(SMT)အကြောင်းကို ဆွေးနွေးခဲ့ပြီး ကိုရာဗီက State of Text on Android ခေါင်းစဉ်ကို ဆွေးနွေးခဲ့ပါတယ်။
ယခုကဲ့သို့ တင်ပြဆွေးနွေးခဲ့ကြတဲ့ အကြောင်းအရာများအထဲမှ ကိုငွေထွန်းရဲ့ တင်ပြဆွေးနွေးမှု တစ်ချို့ကို ကောက်နုတ်တင်ပြလိုပါတယ်။ကိုငွေထွန်းက ယူနီကုဒ်မတိုင်မီကာလ လွန်ခဲ့တဲ့ ငါးနှစ်ကာလကို စတင်ဆွေးနွေးပါတယ်။
ကိုငွေထွန်းရဲ့ ယူနီကုဒ် ၁ဝ၁
ယူနီကုဒ်မတိုင်ခင်ကာလမှာ ကွန်ပျူတာတိုင်းဟာ ထုတ်တဲ့နိုင်ငံအလိုက် ထိုင်းဆိုရင် ထိုင်း၊ ဗီယက်နမ်ဆိုရင် ဗီယက်နမ်၊ ဂျပန်ဆိုရင် ဂျပန်ဆိုသလို သူတို့ Character တွေကို တစ်ခုစီ သိမ်းပါတယ်။ ထိုင်းမှာထုတ်တဲ့ ကွန်ပျူတာထဲမှာ Thai Character Set ပါတယ်။ Character Enconding ပါတယ်။ အဲဒီ Character Enconding က ဂျပန်စာနဲ့ တွဲသုံးရင် အဆင်မပြေပါဘူး။ အင်္ဂလိပ်သုံးမယ်ဆိုတဲ့ ကွန်ပျူတာတစ်လုံးက ဗီယက်နမ်လို သုံးမယ်ဆိုရင် ပြဿနာရှိနိုင်ပါတယ်။ ထိုင်းလို ကွန်ပျူတာတစ်လုံးကလည်း တစ်ခြားသော ဘာသာစကားတစ်ခုနဲ့ ထုတ်လုပ်ထားတဲ့ ကွန်ပျူတာတစ်လုံးနဲ့ ချိတ်ဆက်အသုံးပြုဖို့ အဆင်မပြေပါဘူး။
ဒီလိုအချိန်တွေမှာ ယူနီကုဒ်လိုလာပါတယ်။ Pre Unicode အနေအခြေမှာ Language အများကြီးနဲ့ Multi Language လုပ်လို့ရဖို့ အခြေအနေမရှိပါဘူး။ ယူနီကုဒ် ကာလရောက်လာတဲ့အခါမှာ Character တွေကို ၂၅၆ ကွက်ထဲပါတဲ့ Enconding တစ်ခုထဲမှာ သိမ်းတော့တာ မဟုတ်တော့ပဲ။ Character တွေအများကြီးကို သိမ်းနိုင်တဲ့ အနေအထားတစ်ခုကို လုပ်ပါတယ်။ အပြင်မှာ မြင်နေရတဲ့ ကကြီး ခခွေး ဝလုံး တို့ကို မြင်နေရတဲ့ အတိုင်းသိမ်းတာမဟုတ်ပဲနဲ့ ကွန်ပျူတာထဲမှာ Number တွေ အနေနဲ့ သိမ်းပါတယ်။
ယူနီကုဒ်ကို သုံးပြီးဆိုရင် Character တစ်ခုအတိုင်းအတွက် နံပါတ်တစ်ခုလိုပါတယ်။ ကျွန်တော်တို့နိုင်ငံမှာ ယူနီကုဒ်စပေါ်တဲ့ အချိန်မှာ Enconding စနစ်ဆိုတာ မရှိပါဘူး။ Myanmar Font တွေက တစ်ခုကို ပုံစံတစ်မျိုးစီ။ သိမ်းပုံကလည်း ပုံစံတစ်မျိုးစီ ဖြစ်နေပါတယ်။ ယူနီကုဒ်စလုပ်တဲ့အချိန်မှာ ယူနီကုဒ်စနစ်ထဲကိုဝင်ဖို့ ပြန်ပြီးတော့ ကြိုးစားရပါတယ်။
ယူနီကုဒ်က ဘာလဲလို့ ပြောရရင်။ ယူနီကုုဒ်ဆိုတာ Unicode is worldwide character-encoding standard, published by the Unicode Consortium. ပါ။ တစ်ယောက်နှစ်ယောက်နဲ့လုပ်ထားတာ မဟုတ်ပါဘူး။ တစ်ကမ္ဘာလုံးက အဲဒီ Character Set ကို ဒီအတိုင်းပဲ သုံးကြမယ်ဆိုပြီးသုံးတဲ့ စံသတ်မှတ်ချက်တစ်ခု ဖြစ်ပါတယ်။ အဲဒီစံသတ်မှတ်ချက်ကို အမေရိကန်နိုင်ငံမှာရှိတဲ့ Unicode Consortium ဆိုတဲ့ NGO တစ်ခုက စံ သတ်မှတ်ပေးပါတယ်။
ယူနီကုဒ်နဲ့တာ Data တွေကို သိမ်းလိုက်မယ်ဆိုရင် ပျက်စီးခြင်း၊ ပျောက်ဆုံးခြင်း မရှိပါဘူး။ Pre Unicode ကာလက ထိုင်းလို ရိုက်ထားတဲ့ Character တစ်ခုကို ဗီယက်နမ်ဘာသာစကားရှိတဲ့ ကွန်ပျူတာမှာ သွားကြည့်ရင် အားလုံးပျက်စီးကုန်ပါမယ်။ ဝင်းနဲ့ ရိုက်ထားတဲ့ စာတစ်ခုကို ဝင်း(Win Font)မရှိတဲ့ နေရာတစ်ခုမှာ သွားကြည့်ရင် အင်္ဂလိပ်စာလုံးတွေကိုပဲ မြင်ရမှာပါ။ ယူနီကုဒ်မှာ ဒီလိုမဖြစ်ပါဘူး။ ယူနီကုဒ်ကို တစ်နေရာကနေ တစ်နေရာသို့ Data Change ဖို့အတွက် အကျိုးရှိရှိ အသုံးချနိုင်ပါတယ်။ Enconding System ရှိပါတယ်။ Enconding System ကို အတိအကျလိုက်နာထားမယ်ဆိုရင် ယူနီကုဒ်ကို နေရာတိုင်း အမှား အယွင်းမရှိ အသုံးချနိုင်ပါတယ်။
ယူနီကုဒ်နဲ့ ယူနီကုဒ်စံသတ်မှတ်ချက်ဆိုတာ ကွဲပါတယ်။ ယူနီကုဒ်ဆိုတာကတော့ Character တွေကို သတ်မှတ်ပေးလိုက်တယ်။ ယူနီကုဒ်စံသတ်မှတ်ချက်ဆိုတာ က Character တွေကို သတ်မှတ်ရုံတင်မကဘူး။ ဘယ်လိုအကျိုးရှိရှိ အသုံးချမယ်ဆိုတဲ့ စံသတ်မှတ်ချက် အစုအဝေးကြီးကို ခေါ်တာဖြစ်တယ်။
ယူနီကုဒ်လို့ ပြောလိုက်ရင် ISO ရဲ့ 10646 ကို လိုက်နာပြီး ဖြစ်ပါတယ်။ ISO လို့ ပြောလိုက်တာနဲ့ ISO မှာရှိတဲ့ တစ်ခြား စံသတ်မှတ်ချက်တွေဟာလည်း ချိန်ညှိပြီးသားဖြစ်တယ်။ ယူနီကုဒ်စံသတ်မှတ်ချက်ဆိုတာ Platform တစ်ခုပါ။ ယူနီကုဒ်ဆိုတာ ဘယ် Platform မှာပဲ ရမယ်ဆိုတာ မဖြစ်သင့်ပါဘူး။ ဘယ်ပရိုဂရမ်မှာပဲ သုံးလို့ရမယ်ဆိုတာ မဖြစ်သင့်ပါဘူး။ ဘာသာစကားတစ်ခုကို လူမျိုးစုတစ်ခုတည်းက သုံးတာမဟုတ်ပါဘူး။ ဒါကြောင့် မြန်မာစာတစ်ခု တည်းအတွက် ရရမယ်ဆိုတာ မဖြစ်သင့်ပါဘူး။ Enconding ကို အတိအကျ မလုပ်ထားဘူး။ Graphic Font တွေကိုပဲ ဆက်သုံးနေမယ်ဆိုရင် Language Processing ကို ဘယ်လိုမှ လုပ်နိုင်မှာ မဟုတ်ပါဘူး။ Characters Sequence ကို အတိအကျ မလိုက်နာဘူး။ သိမ်းချင်ရာနဲ့ သိမ်းမယ်။ လက်တွေ့မှာ ဘာက ပိုအဆင်ပြေသလဲ။ အဲဒါနဲ့ပဲသုံးမယ်ဆိုရင် ယူနီကုဒ်စံလို့ ဘယ်လိုမှ မပြောနိုင်ဘူး။ Characters Sequence တွေကို လိုက်နာဖို့ အခက်အခဲရှိပါတယ်။ Device တိုင်းမှာ အဆင်ပြေဖို့ မလွယ်ပါဘူး။ မြန်မာဘာသာစကားရဲ့ သဘာဝကြောင့်လည်း ဖြစ်ပါတယ်။ ဒါပေမယ့် မလိုက်နာဘူးဆိုရင် ISO ကို မလိုက်နာဘူး ဖြစ်ပါမယ်။
ယူနီကုဒ်လို့ပြောရင်
- Unicode encodes plain text,
- Unification,
- Characters, not glyphs,
- Characters, not graphemes,
- Dynamic composition,
- Logical order
ဆိုတဲ့ Desing Pattern ခြောက်ခုနဲ့ ညီဖို့လိုပါတယ်။
ယူနီကုဒ်လို့ပြောရင် သဝေထိုးကိစ္စကို အငြင်းအခုန်များပါတယ်။ သဝေထိုးကို ဘာဖြစ်လို့ ရှေ့မှာ မထားသလဲ။ ရရစ်ကို ဘာဖြစ်လို့ ရှေ့မှာ မထားသလဲ။ ယူနီကုဒ်ကိုလုပ်ရင် ယူနီကုဒ်က ပေးတဲ့ Rule တွေအတိုင်းလုပ်ရပါတယ်။ Logical order ကိုသာ သိမ်းပေးတဲ့အတွက် Visual order ကို လုပ်လို့ မရနိုင်ပါဘူး။
မြန်မာယူနီကုဒ်အဆင်သင့်ဖြစ်ပြီးလားလို့ မေးခွန်းထွက်လာတဲ့အခါ အပိုင်းနှစ်ပိုင်း မြင်မိပါတယ်။ တစ်ခုက မူဝါဒပိုင်းပါ။ တစ်ခုက နည်းပညာအပိုင်းပါ။ Official Standards for Keyboard လောလောဆယ်မရှိပါဘူး။ နိုင်ငံတကာကို သွားတဲ့အခါမှာ မင်းတို့မှာ Official Keyboard မရှိဘူးလို့ ပြောဆိုခံရပါတယ်။
ရရစ်ဆိုတာလေးက ကကြီးနဲ့တွေ့ရင် ကြီးသွားပြီး၊ ခခွေးနဲ့ တွေ့ရင် သေးသွားပေးနိုင်တဲ့ Official Shaper(Rendering Engine) မရှိပါသေးဘူး။ ဖြစ်နိုင်ချေ အရှိဆုံးနည်းလမ်းကနေ လုပ်ထားတာပဲ ရှိပါတယ်။ Official Locale Setting မရှိပါသေးဘူး။ CultureInfo Standards မရှိသေးပါဘူး။ Font တွေ ပြီးသွားတာ မှန်ပါတယ်။ သို့သော်လည်း မြန်မာစာတွေရဲ့ အလယ်မှာ ထိုင်းစာသော်လည်းကောင်း၊ ရုရှားစာသော်လည်းကောင်း သွားထည့်ဖို့ မလွယ်ပါဘူး။ အဲဒီအတွက် Fallback Rendering မဖြစ်သေးပါဘူး။ လိုနေပါသေးတယ်။
ယူနီကုဒ်နဲ့ပတ်သက်ပြီး လက်ရှိမှာ Encoding Standards တွေ ပြီးပါပြီ။ Font ပြီးပါပြီ။ Myanmar3 ကို Official Standards အနေနဲ့ ရုံးတွေမှာ သုံးလာကြပါပြီ။ Keyboards နဲ့ IME ပြီးပါပြီ။ Language Enabling လို့ခေါ်တဲ့ စာရိုက်တဲ့ အဆင့်၊ Print ထုတ်လို့ ရတဲ့အဆင့် ပြီးပါပြီ။ Text Processing တွေဖြစ်တဲ့ Sorting, Searching, Indexing, Segmentation တွေကို လုပ်နိုင်ဖို့ စတင်လုပ်ကိုင်နေပါပြီ။
Myanmar NLP Lab အနေနဲ့ Converter ပြီးပါပြီ။ Syllable Segmentation သုံးလို့ ရပါပြီ။ Sorting နဲ့ Searching ကို Microsoft Office အပေါ်မှာ လုပ်လို့ ရပါပြီ။ Transliteration ပြီးပါပြီ။ MUI(Multi User Interface)သုံးလို့ရအောင် စလုပ်နေပါပြီ။ Dictionary အနေနဲ့လည်း သုံးလို့ရတဲ့ အနေအထားရှိနေပါပြီ။
တစ်ခြားသော ဘာသာစကားတွေမှာ Line Breaking အလုပ်လုပ်ပါတယ်။ မြန်မာဘာသာစကားမှာ အလုပ်မလုပ်သေးပါဘူး။ Fallback Rendering အလုပ်မလုပ် သေးပါဘူး။ Spelling Checking မရှိသေးပါဘူး။ Official Language Pack မရှိသေးပါဘူး။ Official Language Pack မရှိတဲ့အတွက် OS တွေမှာ သုံးတဲ့အခါ အခက်အခဲရှိပါတယ်။
Myanmar Language Pack ကို လုပ်တဲ့ Software Vendor မရှိသေးပါဘူး။ Opentype, AAT တို့ကို Official Standards လုပ်တဲ့သူ မရှိသေးပါဘူး။ Programming Language နဲ့ Operating System တွေအတွက် Locale Standards တွေ မရှိသေးပါဘူး။
လွန်ခဲ့တဲ့ ငါးနှစ်က Myanmar NLP Lab ကို စခဲ့တယ်။ အခုအချိန်မှာ အခြေအနေတစ်ခု ဖြစ်နေပါပြီ။ Microsoft Windows, Linux နဲ့ Mac တို့ သုံးလို့ ရနိုင်တဲ့ အခြေအနေတစ်ခုဖြစ်နေပါပြီ။ OpenOffice Project ကိုတော့ မြန်မာစာနဲ့ အသုံးပြုနိုင်ဖို့ ခွင့်ပြုပါတယ်။ Programming Languages တွေ၊ Browser တွေနဲ့ Software တွေမှာ မြန်မာယူနီကုဒ် သုံးလို့ရအောင် Support လုပ်ပါတယ်။ Windows Mobile Phone မှာ သုံးလို့ရနေပြီလို့ သိရပါတယ်။ Open Source Localization မှာလည်း ယူနီကုဒ်ကို သုံးလာကြပါပြီ။
ဘယ်အရာမှ တစ်ခါတည်းနဲ့ အကုန်ရတယ်ဆိုတာ မဖြစ်နိုင်ပါဘူး။ အကြမ်းဖျည်းအားဖြင့် ယူနီကုဒ်ဆိုတာ စံသတ်မှတ်ချက်တစ်ခုပါပဲ။ Font တို့ Software တို့ကို ယူနီကုဒ်လို့ ပြောတာမဟုတ်ပါဘူး။ ယူနီကုဒ်ဆိုတာ ကိုးဆယ့်ခြောက်ပါးပျောက်တဲ့ဆေး မဟုတ်ပါဘူး။ တစ်ချို့က ယူနီကုဒ်ထည့်လိုက်ရင် အကုန်လုံး ပြီးသွားမယ်လို့ ထင်နေကြပါတယ်။ Language Resources တွေ လုပ်မယ်။ Processing တွေ လုပ်မယ်ဆိုရင် စံသတ်မှတ်ချက်တွေကို လိုက်နာသင့်ပါတယ်။ Developer တွေအနေနဲ့ Internationalization, Localization တွေကို ပိုမိုထိ ရောက်အောင် လေ့လာသင့်ပါတယ်။
ကိုငွေထွန်းရဲ့ ဆွေးနွေးမှုများ ပြီးစီးတဲ့ နောက်ပိုင်းမှာ အလုပ်ရုံဆွေးနွေးပွဲသို့ တက်ရောက်လာသူ တစ်ချို့သည် မြန်မာယူနီကုဒ်နဲ့ပတ်သက်ပြီး မေးမြန်းဆွေးနွေး ကြပါတယ်။ ထိုသို့ ဆွေးနွေးမေးမြန်းမှုများနဲ့ပတ်သက်ပြီး ဆရာမဒေါက်တာဒေါ်မြင့်မြင့်သန်းကလည်း ပါဝင်ဆွေးနွေးပေးခဲ့ပါတယ်။ ယင်းသို့ ဆွေးနွေးခဲ့တဲ့ ဆွေးနွေးချက်များမှ ဆရာမ ဒေါက်တာဒေါ်မြင့်မြင့်သန်းရဲ့ ဆွေးနွေးချက်တစ်ချို့ကို ကောက်နုတ်တင်ပြလိုပါတယ်။
ဆရာမ ဒေါက်တာဒေါ်မြင့်မြင့်သန်းရဲ့ ဆွေးနွေးချက်
ယူနီကုဒ် ၃.ဝ မှာ မြန်မာစာအတွက် Code Set ရလာတဲ့ နောက်ပိုင်းမှာ Gap တော်တော်လေးဖြစ်နေပါတယ်။ ၂ဝဝ၃ ခုနှစ်ခန့်မှာ ပညာရှင်အနေနဲ့ ကိုငွေထွန်း ရယ် ကိုဇော်ထွဋ်ရယ်ပဲ ရှိပါတယ်။ ပြီးတဲ့အခါကျတော့မှ ပရိုဂရမ်မာတွေကို ဆက်ပြီး ခေါ်ရပါတယ်။ အဲဒီအချိန်မှာ စံသတ်မှတ်ချက်ဟာ မငြိမ်သေးဘူး။ Myanmar Character Set ပဲ ရသေးတယ်။ ရပင့် ရ ရစ် ဝဆွဲ ဟထိုးဆိုတဲ့ Code လေးခုတောင် အဲဒီအချိန်မှာ မရသေးပါဘူး။
စံသတ်မှတ်ချက်ကို ပိုပြီးတော့ ပြည့်ဝစေချင်တဲ့အတွက်ကြောင့် စံသတ်မှတ်ချက်ကို အရင်ဆုံးလုပ်ရပါတယ်။ စံသတ်မှတ်ချက်ရပြီးတဲ့ နောက်မှာလည်း ခေါ်လိုက်တဲ့ ပရိုဂရမ်မာတိုင်းကို သင်တန်းပေးပါတယ်။ လိုအပ်တဲ့ စာတွေကို ဖတ်ခိုင်းတယ်။ အများပြည်သူကိုလည်း ပြောပါတယ်။ ဒါပေမယ့် စိတ်ဝင်စား မှု ကွာခြားနေတယ်လို့ ထင်ပါတယ်။
အထူးသဖြင့် Application ကို Myanmar3 ယူနီကုဒ်နဲ့ရေးပါဆိုရင်မရဘူးလို့ အရင်ဆုံးထအော်တဲ့ လူတွေက များများပါ။ ယူနီကုဒ်သုံးလို့ရှိရင် Programming Language ရဲ့ ဘယ်အပိုင်းမှာ ဘာတွေကို Declare လုပ်ရမယ်ဆိုတာကို ဖတ်တဲ့အားနည်းပါတယ်။ ယူနီကုဒ်နဲ့ Application ရေးလို့ မရဘူးဆိုပြီးပြောတဲ့ ကုမ္ဋဏီက များပါတယ်။ တစ်ပတ်တစ်ခါလောက် Developer တွေနဲ့ ကုမ္ဋဏီတွေကို ခေါ်တွေ့ခဲ့ဖူးပါတယ်။ ဖြေရှင်းသင့်တာတွေကို ဖြေရှင်းပေးခဲ့တယ်။ ဒီလိုလုပ်ပေးခဲ့တာကို အများက သိပ်မသိဘူးလို့ ထင်ပါတယ်။ အများအားဖြင့် ကုမ္ဋဏီတွေကိုပဲ ကြေညာလိုက်တယ်။ အများပြည်သူကို မကြေညာထားဘူး ဖြစ်နေတာကိုး။ ယူနီကုဒ်ရဲ့ပတ်သက်ပြီး ကြုံတဲ့ဟောပြောပွဲတိုင်းမှာ အနည်းဆုံးခေါင်းစဉ်တစ်ခုအနေနဲ့ ပြောပေးပါတယ်။ ၂ဝဝ၅ ခုနှစ်က ICT Week မှာဆိုရင် Language Processing နဲ့ပတ်သက်တဲ့ဟောပြောပွဲကို တစ်ရက်လုံးလုံး လုပ်ပေးခဲ့တယ်။ အတတ်နိုင်ဆုံး များများပြန့်ပွားစေချင်ပါတယ်။ ဘာကြောင့်လဲဆို တော့ နိုင်ငံတကာမှာ အားလုံးက ကိုယ့်မိခင်ဘာသာစကားနဲ့သုံးလာတဲ့ အချိန်မှာ စက်ရုပ်တွေကို ခိုင်းနိုင်တဲ့အထိ မစဉ်းစားတောင်မှ အနည်းဆုံးမြန်မာစာနဲ့ Application တွေ Processing တွေကို ချောချောမွေ့မွေ့လုပ်လို့ရတဲ့ အဆင့်အထိကို အမြဲတမ်း ရှေ့ရှုနေပါတယ်။ ဒါေြကာင့် အားလုံးဟာ စံသတ်မှတ်ချက်ကို တစ်ညီတစ်ညွတ်တည်း လိုက်နာပြီးတော့ သွားမယ်ဆိုရင် ပိုပြီးတော့ မြန်လိမ့်မယ်လို့ မျှော်လင့်ပါတယ်။
နိုင်ငံတကာမှာ နည်းပညာတွေ ဘယ်လောက်အထိကျယ်ပြန့်ပြီးတော့ တိုးတက်ပြောင်းလဲနေတယ်ဆိုတာ အားလုံးအသိပါပဲ။ နိုင်ငံတကာမှာ NLP(Natural Language Processing) လုပ်နေတဲ့ အဖွဲ့တွေနဲ့လည်း ပူးပေါင်းထားပါတယ်။ သူတို့က Technology is nothing. လို့ ပြောပါတယ်။ အဓိကတည်ဆောက်ရမှာက ဘာသာစကားအရင်းအမြစ်(Language Resource)ပါ။ ဒါကြောင့် Multilingualization ကိုလည်း ချဉ်းကပ်ပါတယ်။ WordNet ထောက်နေတယ်လို့ပြောတဲ့ဆီမှာ လည်း Word Net ဆိုတာ Word Set အပေါ်မှာ မူတည်ပြီး ထောက်တာပါ။ Go တစ်လုံးရဲ့ Word Set ပေါင်း သုံးဆယ်ကျော် ရှိပါတယ်။
နည်းပညာက တီထွင်ထားပြီးဖြစ်တဲ့အတွက် Technology Transfer ဆိုတာ ခဏလေးနဲ့ ရရှိနိုင်ပါတယ်။ Launguage Resource ကို အဓိကလုပ်ဖို့ပဲ သူတို့က ပြောပါတယ်။ နည်းပညာကို လွယ်လွယ်ကူကူနဲ့ ရနိုင်တယ်။ နောက်ကျ ကျန်စရာမရှိဘူး။ ဒါကြောင့် Language Resource ကို အဓိကတည်ဆောင်နေတာပါ။
နည်းပညာကို သူတို့က ပေးလို့ရတယ်။ မြန်မာဘာသာပြန် ပေးရမယ့်အခါ သူတို့ဟာ မြန်မာစာမတတ်တဲ့အတွက်ကြောင့် ဘာမှလုပ်လို့ မရဘူး။ Language Resource ကို ယူခဲ့ရင် နည်းပညာအကုန်လုံးကိုပေးမယ်ဆိုတဲ့ အဖွဲ့အစည်းတွေ အများကြီးရှိတယ်။
အားနည်းချက်လေးတွေ ရှိနေတယ်
ယင်းသို့ ကျင်းပခဲ့တဲ့ အလုပ်ရုံဆွေးနွေးပွဲနဲ့ပတ်သက်ပြီး Machine Translation ကို လုပ်ကိုင်နေတဲ့ ကိုကျော်ကျော်ဇင်က ‘‘ကိုပွဲကို လူ ၈ဝ ခန့် တက်ရောက်ကြ တယ်။ အတိုင်းအတာတစ်ခုအထိ အောင်မြင်တယ်လို့ ပြောနိုင်တယ်။ ဒါပေမယ့်လည်း အားနည်းချက်လေးတွေ ရှိနေပါသေးတယ်။ ကျွန်တော်တို့ ပွဲစီစဉ်တဲ့ သူတွေရဲ့ အားနည်းချက်လည်း ရှိပါတယ်။ ပွဲကို အရမ်းအချိန်ကပ်ပြီး ကြေညာလိုက်တော့ တစ်ချို့လာချင်ပေမယ့် မလာနိုင်တာတွေ၊ မသိလိုက်လို့ မလာနိုင် တာတွေ ရှိခဲ့ပါတယ်။ NLP လုပ်တဲ့ အဖွဲ့တွေ စုံသလောက်ရှိပေမယ့် Participate လုပ်တာ၊ ဝင်ရောက်ဆွေးနွေးတာ အားနည်းနေသလိုပဲ၊ NLP အကြောင်းကို သိပ်စိတ်မဝင်စားကြသေးလို့လား။ Presentation လုပ်တဲ့သူတွေ ပြောတာပဲ နားလည်ပြီးသားတွေ ဖြစ်လို့လား။ နားပဲမလည်ကြလို့လား မသိပါ။ Motivation တော်တော်လေးလိုနေသေးတယ် ထင်ပါတယ်။ နောက်တစ်ချက်က Sharing တွေ လုပ်ဖို့လည်း လက်တွန့်နေပါတယ်။ တစ်ချို့က Policy ကြောင့်၊ တစ်ချို့က Copy Right ကြောင့် အဲလိုအကြောင်းအမျိုးမျိုးတွေကြောင့် ဖြစ်မယ်ထင်ပါတယ်။
MyMyanmar က ကိုထူးမြင့်နောက်က MyInput ကို Open Source ပေးမယ် ပြောပါတယ်။ ကိုရာဗီးကလည်း Android နဲ့ ပတ်သက်ပြီး Share Source ပေးမယ်ပြောပါတယ်။ ကျန်တဲ့သူတွေကတော့ Sharing ကို ဘာမှမပြောကြပါဘူး။ ဘာပဲပြောပြော ဒီပွဲရဲ့ရည်ရွယ်ချက်ကို အတိုင်းအတာတစ်ခု အထိ အောင်မြင်အောင် ကျင်းပနိုင်ခဲ့တယ်လို့ ယူဆပါတယ်။ နောက်ထပ်ပွဲတွေ ထပ်ပြီးကျင်းပပါအုံးမယ်။ ခုတွေ့မြင်နေရတဲ့ အားနည်းချက်တွေလည်း နောက်ဆို ပိုလို့ နည်းပါးသွားမှာပါ။’’ လို့ myanmarITpor အွန်လိုင်းစာမျက်နှာတွင် ရေးသားတင်ပြထားပါတယ်။ ထို့အပြင် ယခုကျင်းပခဲ့တဲ့ အလုပ်ရုံဆွေးနွေးပွဲကို NLP အကောင်အထည်ဖော်နေကြတဲ့ အဖွဲ့တွေ အားလုံးစုရုံးပြီး တွေ့နိုင်အောင်၊ Knowledge, Resources တွေကို Sharing လုပ်နိုင်အောင်ဆိုပြီး ကျင်းပပါတယ်လို့ ကိုကျော်ကျော်ဇင်က myanmarITpro မှာ ဆက်လက်ဖော်ပြထားပါတယ်။
၂ဝ၁ဝ ပြည့်နှစ် ဩဂုတ်လ ၁ ရက်နေ့က ကျင်းပခဲ့တဲ့ Machine Translation and Natural Language Processing, 2010 အလုပ်ရုံဆွေးနွေးပွဲမှာ ဆရာမဒေါက်တာ ဒေါ်မြင့်မြင့်သန်းက နိဂုံးချုပ်အမှာစကားပြောကြားခဲ့ပါတယ်။ ဆရာမဒေါက်တာ ဒေါ်မြင့်မြင့်သန်းရဲ့ အမှာစကားတချို့ကိုလည်း အောက်ပါအတိုင်း ကောက်နုတ်တင်ပြလိုက်ပါတယ်။
ပူးပေါင်းဆောင်ရွက်ဖို့ ဖိတ်ခေါ်ပါတယ်
ယခုကဲ့သို့ အလုပ်ရုံဆွေးေနွးပွဲ ပြုလုပ်ခြင်းဟာ တစ်ဦးနဲ့တစ်ဦးလုပ်ကိုင်နေတဲ့ လုပ်ငန်းတွေကို သိရှိရအောင် ပြုလုပ်ခြင်း ဖြစ်တယ်။ ဒီလုပ်ငန်းစဉ်ဟာ မပြီးဆုံးနိုင်တဲ့ သုတေသနလုပ်ငန်းမျိုးဖြစ်တယ်။ ထုတ်ကုန်တစ်ခုအနေနဲ့ ထွက်လာနိုင်သလို သုတေသနရလာဒ်တစ်ခုဟာ ထုတ်ကုန်တစ်ခုဖြစ်ချင်မှလည်း ဖြစ်မယ်။ သုတေသနလုပ်တဲ့အခါ ဆက်လက်မလုပ်နိုင်ဘူးဆိုတဲ့ အဖြေလည်း ထွက်လာနိုင်တယ်။ ထုတ်ကုန်တစ်ခုထွက်ရမယ်ဆိုတာထက် သီအိုရီအရ ဘာလုပ်နိုင်သလဲဆိုတဲ့ ကောက်ချက်ချနိုင်ဖို့က ပိုအရေးကြီးတယ်လို့ ထင်တယ်။
ယခုလိုအချိန်မှာ တစ်ဦးနဲ့တစ်ဦးဖလှယ်နိုင်လျှင် အတည်ပြုချက်တွေဟာ အမြန်ဆုံးရရှိနိုင်တယ်။ လျှောက်လို့မရနိုင်တဲ့ လမ်းကို အချိန်ကုန်ခံပြီး လျှောက် နေမယ့်အစား မဖြစ်နိုင်ဘူးလို့ သေချာလျှင် တစ်နေရာတွင်ရပ်ပြီး ဖြစ်နိုင်ချေရှိတဲ့ လုပ်ငန်းကို ဆက်လုပ်ပေးလျှင် တိုးတက်မှုပိုမိုမြန်ဆန်လာနိုင်တယ်။
အခုအလုပ်ရုံဆွေးနွေးပွဲမှာ ပူးပေါင်းပါဝင်ကြသလို ဆက်လက်လုပ်ကိုင်ဖို့လည်း လိုအပ်ပါတယ်။ မျှဝေပေးနိုင်သမျှကို မျှဝေပေးပြီး အပြန်အလှန် လုပ်ဆောင် ကြမယ်ဆိုရင် ပိုပြီးအောင်မြင်လာမယ်လို့ မျှော်လင့်တယ်။ အခုလုပ်နေတဲ့ လုပ်ငန်းစဉ်တွေဟာ ဘယ်သူမှ မလုပ်ဖူးခဲ့တဲ့ လုပ်ငန်းတွေကို လုပ်ကိုင်နေကြတာ ဖြစ်တယ်။ ဒါကြောင့် လမ်းတည့်တည့်ရောက်ချင်လည်း ရောက်မယ်။ ေကွ့ပတ်ပြီး သွားနေတာလဲ ဖြစ်နိုင်တယ်။ ဒီနေ့အလုပ်ရုံဆွေးနွေးပွဲရလာဒ်ကို ကြည့်မယ် ဆိုရင် ဒီအချက်တွေဟာ ထင်ရှားနေပါတယ်။ Language Resource အပိုင်းကို မြန်မြန်အကောင်အထည်ဖော်နိုင်ရင် လိုအပ်တဲ့စနစ်တွေ အကုန်လုံးဟာ အဆင့်သင့်ရောက်လာမှာ ဖြစ်တယ်။ အလုပ်ရုံဆွေးနွေးပွဲ ပြီးတဲ့အခါ ပြီးပြီဆိုပြီး မထားခဲ့ပဲ ဆက်လက်၍ပူးပေါင်းဆောင်ရွက်ဖို့ ဖိတ်ခေါ်ပါတယ်။
ဟန်ဇော်
ပါစင်နယ်ကွန်ပျူတာမဂ္ဂဇင်း
၂ဝ၁ဝ ပြည့်နှစ်၊ စက်တင်ဘာလ