یادگیری ماشینی توانایی رونویسی گفتار عربی را بهبود می بخشد

به لطف پیشرفت در پردازش گفتار و زبان طبیعی، امید است که روزی بتوانید از دستیار مجازی خود بپرسید که بهترین مواد برای سالاد چیست. در حال حاضر، این امکان وجود دارد که از گجت خانگی خود بخواهید موسیقی پخش کند یا آن را با دستورات صوتی باز کند، این ویژگی قبلاً در بسیاری از دستگاه ها یافت شده است.

اگر به لهجه های مراکشی، الجزایری، مصری، سودانی یا هر یک از لهجه های عربی دیگر صحبت می کنید که در برخی مناطق که برخی از آنها همدیگر را نمی فهمند بسیار متنوع هستند، موضوع متفاوت است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که از این زبان کنار گذاشته شده‌اید.

این ساخت و سازهای پیچیده احمدعلی را مشتاق یافتن راه حلی کرد. او مهندس پیشرو در گروه فناوری زبان عربی در مؤسسه تحقیقات محاسباتی قطر (QCRI) است – بخشی از دانشگاه حمد بن خلیفه بنیاد قطر و بنیانگذار گفتار عربی، جامعه ای که به نفع علم گفتار و گفتار عربی وجود دارد. فن آوری.

علی چندین سال پیش در IBM مجذوب ایده صحبت کردن با ماشین‌ها، لوازم خانگی و وسایل بود. آیا می‌توانیم ماشین‌هایی بسازیم که قادر به درک لهجه‌های مختلف باشند، مانند پزشکان اطفال مصری برای خودکار کردن نسخه‌ها، یک معلم سوری که بخش اصلی درس را به بچه‌ها بدهد، یا سرآشپزهای مراکشی بهترین دستور العمل‌های کوسکوس را توصیف می‌کنند؟» او می گوید. با این حال، الگوریتم‌هایی که این دستگاه‌ها را نیرو می‌دهند، نمی‌توانند تقریباً در 30 نوع از زبان عربی اجرا شوند. امروزه اکثر ابزارهای تشخیص تلفظ فقط به زبان انگلیسی و تعداد انگشت شماری از زبان های دیگر کار می کنند.

Coronavirus (اپیدمی) در سراسر کشور (یا قاره) بیماری (اپیدمی) در سراسر کشور (یا در سراسر قاره) در حال حاضر اتکای رو به رشدی به فناوری صدا وجود دارد، جایی که فناوری پردازش زبان طبیعی به افراد اجازه می‌دهد دستورالعمل‌های خانه و فاصله فیزیکی را دنبال کنند. کمک کرده است. با این حال، از آنجایی که ما از دستورات صوتی برای کمک به خریدهای تجارت الکترونیک و مدیریت خانواده خود استفاده می کنیم، برنامه های کاربردی بیشتری در آینده وجود خواهد داشت.

میلیون‌ها نفر در سراسر جهان از دوره گسترده آنلاین باز (MOOC) برای دسترسی آزاد و مشارکت نامحدود آن استفاده می‌کنند. تشخیص گفتار یکی از ویژگی‌های اصلی MOOC است که در آن دانش‌آموزان می‌توانند بخش‌های خاصی از برنامه درسی گفتاری را جستجو کنند و ترجمه را از طریق زیرنویس‌ها فعال کنند. فن آوری گفتار دیجیتالی کردن سخنرانی ها را برای نمایش کلمات گفتاری به عنوان متن در کلاس های درس دانشگاه امکان پذیر می کند.

بر اساس مقاله اخیر در مجله فناوری گفتار، پیش بینی می شود که بازار تشخیص صدا و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیون ها مصرف کننده و شرکت در سراسر جهان برای برقراری ارتباط با تجهیزات یا اتومبیل خود تنها به ربات های صوتی متکی هستند. بهبود خدمات به مشتریان، هدایت نوآوری در مراقبت های بهداشتی و بهبود دسترسی و فراگیری برای افرادی که دارای اختلالات شنوایی، گفتاری یا حرکتی هستند.

در یک نظرسنجی در سال 2019، Capgemini پیش بینی کرد که تا سال 2022، بیش از دو نفر از هر سه مصرف کننده به جای مراجعه به فروشگاه ها یا شعب بانک ها، دستیار صوتی را انتخاب خواهند کرد. پیش‌بینی می‌شود زندگی‌ها و مشاغل و مشاغل دور از خانه مستقر در خانه که بیش از یک سال و نیم تحت تأثیر این بیماری همه‌گیر قرار گرفته‌اند، به طور تصاعدی رشد کنند.

با این حال، داشتن یکی از آنها هنوز از توان یک فرد معمولی خارج است. برای آن 30 نوع عرب و میلیون ها نفر، این فرصت مهمی است که از دست رفته است.

یادگیری ماشینی توانایی رونویسی گفتار عربی را بهبود می بخشد

عربی برای ماشین

ربات های صوتی انگلیسی یا فرانسوی زبان کامل نیستند. با این حال، آموزش ماشین‌ها برای درک زبان عربی به دلایلی دشوار است. در اینجا سه چالش رایج وجود دارد:

عدم وجود نشانه ها. لهجه های عربی عمدتاً زبان های گفتاری هستند. بیشتر متن موجود رمزگشایی نشده است، به این معنی که حاوی لهجه هایی مانند (´) یا انتقادی () نیست که مقادیر صوتی حروف را نشان می دهد. بنابراین تعیین اینکه حروف صدادار کجا می روند دشوار است.
کمبود منابع. فقدان اطلاعات برچسب گذاری شده برای لهجه های مختلف عربی. در مجموع، آنها فاقد قوانین املایی استاندارد شده ای هستند که نحوه نوشتن یک زبان را تعیین می کند، از جمله هنجارها یا املا، خط فاصله، حجم کلمه، و تاکید. این واقعیت که این منابع برای آموزش مدل های کامپیوتری مهم هستند و تعداد بسیار کمی از آنها وجود دارد، مانع توسعه تشخیص تلفظ عربی شده است.
پیچیدگی مورفولوژیکی بسیاری از عربی زبانان در تغییر کد نقش دارند. به عنوان مثال، گویش‌های فرانسوی-شمال آفریقا، مراکش، الجزایر و مناطق پرجمعیت تونس حاوی کلمات فرانسوی زیادی هستند. در نتیجه تعداد کلماتی که به آنها کلمات غیر واژگانی گفته می شود زیاد است که با تکنولوژی تشخیص تلفظ قابل درک نیست زیرا این کلمات عربی نیستند.

علی می گوید: «اما مزرعه با سرعت برق در حال حرکت است. این تلاش مشترک بسیاری از محققان برای حرکت سریعتر آن است. آزمایشگاه فناوری زبان عربی علی رهبری پروژه گفتار عربی را بر عهده دارد که ترجمه های عربی را با گویش اصلی هر منطقه گرد هم می آورد. به عنوان مثال، گویش عربی را می توان به چهار گویش منطقه ای تقسیم کرد: آفریقای شمالی، مصری، خلیجی و شامی. با این حال، با توجه به اینکه لهجه ها به مرزها پایبند نیستند، می تواند به زیبایی یک گویش هر شهر باشد. به عنوان مثال، یک زبان مادری مصری می تواند گویش اسکندریه خود را از همشهریان خود در اسوان متمایز کند (فاصله 1000 کیلومتری روی نقشه).

ایجاد آینده ای با فناوری برای همه

در این مرحله، ماشین‌ها به لطف پیشرفت‌های شبکه‌های عصبی عمیق، زیرشاخه‌ای از یادگیری ماشینی هوش مصنوعی که بر الگوریتم‌هایی الهام‌گرفته از نحوه عملکرد بیولوژیکی و عملکردی مغز انسان متکی است، به اندازه رونویس‌کنندگان انسان دقیق هستند. با این حال، تا همین اواخر، تشخیص گفتار تا حدودی هک شده بود. این فناوری سابقه تکیه بر ماژول های مختلف برای مدل سازی آکوستیک، ایجاد واژگان و مدل سازی زبان دارد. همه ماژول هایی که نیاز به آموزش جداگانه دارند. اخیراً، محققان مدل‌هایی را آموزش می‌دهند که ویژگی‌های صوتی را به رونویسی مستقیم متن تبدیل می‌کنند و احتمالاً همه قسمت‌ها را برای کار نهایی بهینه می‌کنند.

با این پیشرفت، علی هنوز نمی تواند به اکثر دستگاه ها به زبان عربی بومی خود دستورات صوتی بدهد. او می‌گوید: «سال 2021 است و من هنوز نمی‌توانم با بسیاری از دستگاه‌های لهجه‌ام صحبت کنم. منظورم این است که من اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما دستگاه چندگویش زبان عربی هنوز شناسایی نشده است.

این محور کار علی است که در اولین ترانسفورماتور برای شناخت تلفظ عربی و لهجه های آن شکست خورده است. که تاکنون کارهای بی نظیری انجام داده است. این فناوری که سیستم رونویسی پیشرفته QCRI نام دارد، در حال حاضر توسط شبکه های تلویزیونی الجزیره، DW و بی بی سی برای ترجمه آنلاین محتوا استفاده می شود.

دلایل مختلفی وجود دارد که علی و تیمش اکنون قادر به ساخت این موتور گفتار هستند. او در درجه اول می گوید: «همه لهجه ها باید منابع داشته باشند. ما باید منابعی بسازیم تا بتوانیم الگو را آموزش دهیم. پیشرفت در پردازش کامپیوتری به این معناست که یادگیری ماشین فشرده کامپیوتری اکنون در واحد پردازش گرافیکی انجام می شود که می تواند به سرعت گرافیک های پیچیده را پردازش و نمایش دهد. همانطور که علی گفت: “ما معماری عالی داریم، ماژول های خوبی داریم و داده های واقعی داریم.”

محققان QCRI و Kanari AI اخیراً مدل‌هایی را ایجاد کرده‌اند که می‌توانند به شباهت‌های انسانی در اخبار پخش عربی دست یابند. سیستم الجزیره تأثیر زیرنویس گزارش های روزانه را نشان می دهد. در حالی که میزان خطای انسانی انگلیسی (HER) حدود 5.6 درصد است، تحقیقات نشان داده است که HER عربی به طور قابل توجهی بالاتر است و به دلیل پیچیدگی صرفی زبان و فقدان قوانین املایی استاندارد در گویش عربی، می تواند تا 10 درصد برسد. به لطف یادگیری عمیق و پیشرفت‌های اخیر در معماری سرتاسر، موتور تشخیص گفتار عربی در اخبار پخش بهتر از سخنرانان محلی پیشی می‌گیرد.

در حالی که به نظر می رسد تشخیص گفتار استاندارد عربی مدرن به خوبی کار می کند، محققان QCRI و Kanari AI مشغول بررسی مرزهای فرآیند دیالکتیکی و دستیابی به نتایج عالی هستند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، دستیاران صوتی ما باید به گویش توجه کنند تا ما را قادر به درک آن کنند.

این مقاله توسط موسسه تحقیقات محاسبات قطر، دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر نوشته شده است. این توسط تحریریه MIT Technology Review نوشته نشده است.

ساناز قربانی‌زاده

چرا fastesco.ir اینقدر دیر به دیر محتوا می‌ذاره؟ 😊

مسئول fastesco.ir

معذرت از تأخیر، همراه گرامی! داریم روی مطالب بدیع کار می‌کنیم. 😊

فرزاد خدابنده

fastesco.ir محتوای نابی داره، فرزاد خدابنده می‌گه کاش یه محدود ارزون‌تر بود 😏

مسئول fastesco.ir

نظرت مهمه، فرزاد خدابنده هم‌راه! تعادل رو نگه می‌داریم، دمت دوستانه 😎

فرناز کوهی

یادگیری ماشینی توانایی رونویسی گفتار عربی را بهبود می بخشد خیلی پیچیده بود، فرناز کوهی می‌گه کاش ساده‌تر بود!

مسئول fastesco.ir

حق با شماست، فرناز کوهی عزیز! بعدی‌ها رو ساده‌تر می‌کنیم.

حسن‌علی محمد

Admin، حسن‌علی محمد می‌گه خیلی جذاب بود، کی قسمت بعدی میاد؟

مسئول fastesco.ir

خوشحالیم که خوشت اومده، حسن‌علی محمد عزیز جان! به‌زودی مطالب جدید میاد.

شبنم قادری

این مقاله خیلی بی‌ربط بود، اصلاً به موضوع ربطی نداشت! 🎈

مسئول fastesco.ir

معذرت می‌خواهیم، سعی می‌کنیم مرتبط‌تر بنویسیم! 🎈

کازی ملکی

کازی ملکی فکر می‌کنه یه کوچک زیاده‌روی شده، بعضی جاها غیرضروری بود.

مسئول fastesco.ir

نظرت مهمه، کازی ملکی رفیق! سعی می‌کنیم متعادل‌تر بنویسیم.

زینب حسینی

کاش fastesco.ir یه mobile app بی‌خطا کنه، زینب حسینی می‌گه خیلی awesome می‌شه!

مسئول fastesco.ir

ایده‌ی جذابی بود، زینب حسینی رفیق! حتماً بررسی می‌کنیم.

حسین‌آقا امینی‌فر

کاش fastesco.ir پادکست بی‌خطا کنه، حسین‌آقا امینی‌فر می‌گه خیلی باحال می‌شه!

مسئول fastesco.ir

ایده‌ی جذابی بود، حسین‌آقا امینی‌فر دوست من! حتماً بررسی می‌کنیم.

ترانه زارع‌نژاد

چرا fastesco.ir محدود content درباره این موضوعات داره، ترانه زارع‌نژاد طرفدارشه! 🍰

مسئول fastesco.ir

قول می‌دیم بیشتر سراغش بریم، ترانه زارع‌نژاد عزیز! 🍰

ممد دانایی

چرا fastesco.ir کوچک محتوا داره، ممد دانایی می‌گه خیلی طرفدارشم!

مسئول fastesco.ir

قول می‌دیم بیشتر محتوا بذاریم، ممد دانایی دوست من!

شبناز احمد

بی‌نظیر بود، مخصوصاً بخش مربوط به مثال‌ها!

مسئول fastesco.ir

خوشحالیم که مثال‌ها براتون سودمند بود، ممنون!

یادگیری ماشینی توانایی رونویسی گفتار عربی را بهبود می بخشد

عربی برای ماشین

ایجاد آینده ای با فناوری برای همه

Aron Trujillo

مطالب مرتبط:

مهندس سهيل ذوالفقاريه

سازمان جهانی بهداشت از ساخت واکسن ایرانی کرونا استقبال می کند.

قیمت امروز گوشی های سامسونگ و شیائومی و آیفون 22 آذر 1400