ترجمه ماشینی آماری
ترجمهٔ ماشینی آماری یکی از روشهای ترجمهٔ ماشینی است که در آن فرایند ترجمه با مدلهای آماری انجام میشود. این مدلهای آماری با کمک تحلیل عبارات متنی دوزبانه است. روش آماری با روش ترجمه بر پایه دستور و ترجمه بر پایه نمونه در تضاد است.
نخستین ایدهٔ ترجمهٔ ماشینی آماری را وارن ویور در سال ۱۹۴۹ ارائه کرد که در آن نظریه اطلاعات کلود شانون را به کار بست. در سال ۱۹۹۱ این ایده توسط پژوهشگران شرکت آیبیام در مرکز پژوهشی جی واتسون بازتعریف شد و سبب محبوبیت ترجمه ماشینی در سالهای اخیر شدهاست. امروزه این روش بهترین و گستردهترین روش ترجمهٔ ماشینی است.
اصول
ویرایشایده ترجمه ماشینی از نظریه اطلاعات سر برآورده است. سند (متن خواهان ترجمه) بر پایه احتمال ترجمه میشود که رشتهٔ e در زبان مبدأ (برای نمونه انگلیسی) ترجمهٔ رشتهٔ f در زبان مقصد (برای نمونه فرانسوی) است. معمولاً، این احتمالات با استفاده از تکنیکهای برآورد پارامتر برآورد میشوند.
مسئله مدل کردن توزیع احتمال به روشهای مختلف بررسی شدهاست. یکی از روشهای که به خوبی در پیادهسازیهای کامپیوتری مورد استفاده قرار میگیرد به کار بردن قضیه بیز میباشد. در این قضیه عبارت است از ، که در آن مدل ترجمه ، بیان کننده میزان احتمال اینکه عبارت مبدأ ترجمه عبارت مقصد باشد و مدل زبانی ، بیان کننده احتمال اینکه این عبارت در زبان مقصد دیده شود. این تجزیه از این جهت جالب توجه است که مسئله را به دو مسئله کوچکتر میشکند. به این ترتیب، بهترین ترجمه ترجمه ای است که بیشترین احتمال را در عبارت زیر بدست میدهد:
- .
در ابتدا مدلهای ترجمه آماری واژه-مبنا بودند (مدلهای ۱–۵ آیبیام مدل پنهان مارکوف از استفان ووگل[۱] و مدل ۶ از فرانس آوخ[۲])، اما با معرفی مدلهای عبارت-مبنا پیشرفت چشمگیری در ترجمه آماری ماشین به وجود آمد.[۳] در تحقیقات اخیر از ساختارهای نحویی نیز در ترجمه آماری ماشین استفاده میشود.[۴]
مزیتها
ویرایشمهمترین مزیتهای ترجمهٔ ماشینی آماری در برابر روشهای سنتی عبارتند از:
- بهرهگیری بهتر از منابع
- حجم بسیاری از قالب ماشین خوان که در زبان طبیعی گفته میشود وجود دارد.
- معمولاً سامانههای ترجمه آماری مختص جفت زبان خاصی نیستند و بر هر جفت زبانی سازگارند.
- سامانههای ترجمه بر پایه دستور نیازمند توسعه دستی دستورهای زبانشناسی است که میتواند پرهزینه باشد و اغلب بر دیگر زبانها سازگار نیست.
- ترجمه طبیعیتر (روانتر و نزدیکتر به گفتار)
کاستیها
ویرایش- ساحتن پیکرهها میتواند هزینهبر باشد.
- خطاهای به خصوصی، سخت پیدا و برطرف میشوند.
- شایستگی ظاهری نتایج ممکن است ایرادهای ترجمه را بپوشاند.[۵]
نمونههای عملیاتی
ویرایش- مترجم گوگل[۶] هرچند به صورت رسمی اعلام نشدهاست اما گوگل یکی از اولین سرویسهای برخطی بوده که از تکنیک ترجمه ماشینی آماری استفاده کردهاست.
- ترگمان[۷] اولین سایت ترجمه ماشینی آماری ایرانی که قابلیت ترجمه دو زبانه فارسی - انگلیسی را دارا میباشد.
- فرازین [۸] کاملترین سایت ترجمه دوسویه فارسی_انگلیسی ایرانی است که با استفاده از هوش مصنوعی قابلیت ترجمه انواع فایل متنی مانند مقاله، کتاب، سایت، بروشور، زیرنویس فیلم و غیره را دارد و فرمتهای مختلف متنی را مانند: word، pdf، powerpoint و... پشتیبانی میکند.
منابع
ویرایش- ↑ S. Vogel, H. Ney and C. Tillmann. 1996. HMM-based Word Alignment in StatisticalTranslation. In COLING ’96: The 16th International Conference on Computational Linguistics, pp. 836-841, Copenhagen, Denmark.
- ↑ F. Och and H. Ney. (2003). A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1):19-51
- ↑ P. Koehn, F.J. Och, and D. Marcu (2003). Statistical phrase based translation. In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL).
- ↑ D. Chiang (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05).
- ↑ Zhou Sharon (July 25, 2018). "Has AI surpassed humans at translation? Not even close!". Skynet Today (به انگلیسی). Retrieved 2 August 2018.
- ↑ Google Translate: http://translate.google.com
- ↑ Targoman: http://targoman.com
- ↑ faraazin: http://faraazin.ir