شبکه های مولد تخاصمی (GAN) به طرز قابل ملاحظهای پیشرفت کرده است؛ از جمله قابلیتهای پیشرفتۀ آن میتوان به ترکیب و شبیه سازی فوقالعاده دقیق چهره انسان، بازیابی رنگ و کیفیت ویدئوهای قدیمی و ساخت ویدئوهای دیپ فیک واقعگرایانه اشاره کرد. شبکه های مولد تخاصمی عمدتاً بر تولید نمونه تمرکز دارد. پیکرۀ اصلیِ شبکه مولد تخاصمی از تولید کننده و تفکیک کننده تشکیل یافته است. تولیدکننده به ساخت نمونههایی میپردازد که معمولاً از دادههای آموزشی نشات میگیرند، اما تفکیک کننده به قضاوت درباره نمونههایِ ساخته شده میپردازد تا واقعی یا جعلی بودن آنها مشخص شود. مثال: فرد جاعلی که در تلاش است پولی چاپ کند که قابل تشخیص از پول اصلی باشد، اما پلیس در تلاش است تا پول جعلی را تشخیص دهد. اگرچه GAN عمدتاً در زمینه ترکیب و شبیهسازی عکس به موفقیتهای چشمگیری دست یافته است، اما آیا امکانِ استفاده از GAN در حوزههای دیگر نیز وجود دارد؟
تبدیل عکس به عکس
ترجمه ماشین این قابلیت را دارد که با یادگیری نگاشتهای جفت جمله یا عبارت، از زبان مبداء به زبان مقصد ترجمه کند؛ به همین ترتیب، ترجمه عکس به عکس نیز به یادگیریِ نگاشت میان عکس ورودی و جفت عکس خروجی میپردازد.
بر اساس مطالعهای که در دانشگاه برکلی انجام شد، الگوریتمی ارائه شد که یاد میگیرد از عکسی به عکس دیگر ترجمه کند. مثلاً از گورخر به اسب، یا از تابستان به زمستان. محققانِ این دانشگاه در مطالعه خود روشی برای یادگیری در صورت نبودِ مثالهای جفتی ارائه کردند. این روش که از زبان تخاصمی استفاده میکند، میتواند مرزهای یادگیری بدون نظارت را جابجا کند. شما میتوانید با مراجعه وبسایتِ ما با کاربردهایِ خلاقانۀ این روش آشنا شوید.
تولید متن
ماهیتِ متن، کار را برای GAN در تولید زنجیرههایی از توکنهای گسسته دشوار میکند. خروجیهای گسسته، انتقالِ آپدیت گرادیان از مدل تفکیک کننده به مدل تولیدکننده را به امری سخت و دشوار بدل کرده است. با این حال، آقای «یو» و همکارانش، SeqGAN را برای سرودن شعر چینی پیشنهاد دادند. SeqGAN با استفاده از ابزار BLEU score که در ارزیابی کیفیت متن کاربرد دارد، به سرودن اشعاری میپردازد که با نمونههای سروده شده توسط انسان توان رقابت دارد. افزون بر این، محققان اشعار چینیِ اصیل و تولید شده با این ابزار را ادغام نموده و از کارشناسان چینی در حوزه شعر دعوت به عمل آوردند تا دیدگاه خود را درباره اشعار اصیل و اشعار سروده شده توسط ماشین را اعلام کنند. در کمال تعجب، این کارشناسان نتوانستند اشعار اصیل را از اشعار ماشینی تشخیص دهند!
تولید گراف شبکه
قابلیت تولید گرافهای ترکیبی اما واقعگرایانه از اهمیت بسزایی در تشخیص نابهنجاری برخوردار است؛ به طوری که تفکیک میان شبکههای غیرعادی و شبکههای عادی به آسانی صورت میگیرد. بوچفسکی و همکارانش، NetGAN را پیشنهاد دادند. NetGAN گرافهایی تولید میکند که الگوهای مشهور شبکه را با استفاده از Wasserstein GAN نمایش میدهد. تولیدکننده NetGAN یاد میگیرد که گامهای تصادفی در گراف واقعی ایجاد کند، اما تفکیک کننده این گراف را از گرافهای اصلی تمییز میدهد.
ترکیب یا سنتز صدا
سنتز صدا در طراحیِ خلاقانۀ صدا در موسیقی و فیلم به کار برده شده است. این کلیپهای صوتی در پایگاههای داده بزرگی از افکتهای صوتی ذخیره میشوند، اما شاید افکت صوتی ایدهآلی در کتابخانه وجود نداشته باشد. آیا این امکان وجود دارد که با تنظیم چند پارامتر ورودی، افکتهای صوتیِ مربوط به حرکت روی مسیرهای سنگریزهدار یا مسیرهای شِنی را تولید کنیم؟ محققان دانشگاه کالیفرنیا به ارائۀ WaveGAN پرداختند. این ابزار یاد میگیرد تا صدا را برای تولید افکتهای صوتی سنتز یا ترکیب کند. این ابزار در تولید افکتهای صوتیِ نواخته شدن طبل عملکرد خوبی داشته است. WaveGAN میتواند صدای انواع گوناگونی از پرندگان را نیز تولید کند. این ابزار برای تولید صداهای پیانو از طیف وسیعی از الگوهای ریتمیک استفاده میکند. نمونه صداهای مربوط به آزمایش در این لینک گنجانده شده است.
یو و همکارانش از SeqGAN با آموزش مجموعهای قطعات موسیقی محلی به تولید آثار موسیقیایی پرداختند. این محققان در کارهای تحقیقاتیشان، فایلهای midi را به زنجیرهای از اعداد (۱ تا ۸۸) تبدیل کردند تا ۸۸ صدای مختلف کلیدهای پیانو را پوشش دهند. روش آنان عملکردی بهتر از الگوریتمهای موجود داشت، اما کارشناسان در خصوص قطعات موسیقیِ تولید شده اظهار نظر نکردهاند.
منبع: hooshio.com
محققان یک مدل یادگیری ماشین را آموزش می دهند تا بتواند عملکردی هم سطح انسان در شناخت مفاهیم انتزاعی موجود در فیلم ها داشته باشد.
توانایی استدلال انتزاعی درباره وقایع لحظهای یکی از شاخصهای تعیینکننده هوش انسانی است. ما بهطور غریزی میدانیم که گریه کردن و نوشتن، ابزارهایی برای برقراری ارتباط هستند و پاندایی که از روی درخت سقوط میکند و هواپیمایی که فرود میآید نشانگر کم شدن شاخص ارتفاع است. کامپیوترها از عهده دستهبندی جهان در طبقات انتزاعی بر نمیآیند اما در سالهای اخیر محققان با آموزش مدلهای یادگیری به این هدف نزدیکتر شدهاند. این مدلها در مورد کار روی کلمات و تصاویری که با اطلاعات دنیای پیرامونمان ترکیب شدهاند و چگونگی ارتباط اشیاء، حیوانات و کنشها و رفتارهای ما است.
در یک مطالعه جدید که در کنفرانس اروپایی بینایی ماشین در ماه گذشته برگزار شد ، محققان از یک مدل ترکیبی از بینایی ماشین و پردازش زبان طبیعی رونمایی کردند که میتواند مجموعهای از رویدادهای پویای ضبط شده در فیلم را با هم مقایسه کند یا تضاد بین آنها را نشان دهد تا به مفاهیم سطح بالایی که آنها را به هم متصل میکند، پی برد. مدل آنها در دو نوع استدلال بصری، یا به خوبی انسان عمل کرده یا بهتر از انسانها بوده است؛ انتخاب ویدئویی که بهطور مفهومی به بهترین شکل مجموعه را کامل میکند و انتخاب ویدئویی که مناسب نیست.
به عنوان مثال فیلمهایی از پارس کردن یک سگ و زوزه کشیدن یک مرد در کنار سگ خود را به سیستم نشان دادند و مدل برای کامل کردن این مجموعه از تصاویر از بین ۵ کلیپ، ویدیوی مربوط به گریه کردن یک کودک را انتخاب کرد. محققان نتایج خود را در دو دیتاست برای آموزش سیستمهای هوش مصنوعی در تشخیص عمل تکرار کردند: MIT’s Multi-Moments in Time و Deep Mind’s Kinetics.
آود اولیوا نویسنده ارشد این مقاله که دانشمند ارشد تحقیقات در MIT است دراینباره میگوید: “ما نشان دادیم که شما میتوانید توانایی درک مفاهیم انتزاعی را در سیستمهای هوش مصنوعی ایجاد کنید تا بتوانند کارهای مربوط به استدلال بصری را در سطحی نزدیک به سطح انسانها انجام دهند. مدیر آزمایشگاه هوش مصنوعی MIT-IBM Watson نیز میگوید “مدلی که بتواند وقایع و مفاهیم انتزاعی را تشخیص دهد پیشبینیهای منطقی و دقیقتری را ارائه میدهد و برای تصمیمگیری مفیدتر است.”
همزمان که شبکههای عصبی عمیق در تشخیص اشیاء و کنشهای موجود در عکسها و فیلمها توانمندتر میشوند، محققان در حال کار روی نقطه عطف بعدی هستند؛ یعنی انتزاع و آموزش مدلها برای آنکه بتوانند درباره آنچه میبینند استدلال کنند. در یک رویکرد، محققان قدرت تطبیق الگوهای شبکههای عمیق را با منطق برنامههای نمادین تلفیق کردهاند تا یک مدل آموزش دهند که بتواند روابط پیچیده اشیا را در یک صحنه تفسیر کند. رویکرد دیگر این است که محققان از روابط موجود در معنای کلمات بهره ببرند تا به مدل خود قدرت استدلال بصری دهند.
ماتیو مونفورت یکی از نویسندگان این مقاله که از محققان آزمایشگاه علوم رایانهای و هوش مصنوعی MIT است میگوید: “بازنماییهای زبانی به ما امکان میدهد تا اطلاعات متنی آموختهشده از پایگاه دادههای متنی را در مدلهای تصویری خود ادغام کنیم. کلماتی مانند دویدن، بلندکردن و بوکس دارای برخی از ویژگیهای مشترک هستند که باعث میشود آنها را بیشتر به مفهوم ورزش نزدیک کند تا رانندگی.
محققان با استفاده از WordNet که یک پایگاه دادهای از معانی کلمات است، رابطه هربرچسب موجود در دو دیتاست Moments و Kinetics را با سایر برچسبهای هر دو دیتاست ترسیم کردند. بهعنوانمثال کلماتی مانند مجسمهسازی، کندهکاری و برش به مفاهیم سطح بالاتری همچون صنایعدستی، هنر و آشپزی مرتبط شدند. ازاین پس هرگاه مدل فعالیتی مانند مجسمهسازی را تشخیص دهد، میتواند فعالیتهای مشابه مفهومی را در دیتاست انتخاب کند.
این گراف وابستگی مربوط به طبقههای انتزاعی برای آموزش مدل به منظور انجام دو کار اساسی استفاده میشود. با توجه به مجموعهای از ویدئوها، مدل به هر ویدیو عددی اختصاص میدهد که با همان کلماتی که بیانگر اقدامات نشان دادهشده در ویدئو است همسو هستند. سپس یک ماژول انتزاعی با عدد اختصاص دادهشده به هر ویدئو در مجموعه ترکیب میشود تا شماره اختصاصی مجموعه جدید ایجاد شود. به این ترتیب از این میتوان برای شناسایی دیگر مفاهیم انتزاعی به اشتراک گذاشتهشده از طریق همه فیلمهای مجموعه استفاده شود.
محققان برای سنجش نحوه عملکرد این مدل در مقایسه با انسانها، از افراد خواستند که همان مجموعه وظایف استدلال بصری را که مدل انجام داده بهصورت آنلاین انجام دهند. در کمال تعجب، این مدل در بسیاری از سناریوها عملکردی بهخوبی برخی از انسانها داشت و حتی گاهی اوقات نتایج غیرمنتظره بود. در یک سنجش دیگر، به مدل ویدیویی از فردی که در حال کادو کردن است نشان دادند سپس مدل ویدیویی را از فردی در ساحل نشان میدهد که در حال ریختن ماسه بر روی شخص دیگری است. کامیلو فوسکو، دانشجوی دکترای MIT که نویسنده اول این مقاله است میگوید: این مفهوم پوشاندن را بهخوبی نشان میدهد.
تمایل به تأکید بیش از حد روی برخی از ویژگیها از معایب و محدودیتهای این مدل است. بهطور مثال در یک مورد مدل پیشنهاد داد مجموعهای از فیلمهای ورزشی را میتوان با یک فیلم از یک کودک و یک توپ تکمیل کند که نشان میدهد مدل، توپها را همواره با ورزش و رقابت همراه میکند.
محققان میگویند یک مدل یادگیری عمیق که میتواند برای “فکر کردن” بهصورت انتزاعی آموزش ببیند ممکن است بتواند با دادههای کمتری نیز قابلیت یادگیری را داشته باشد. بهطورکلی انتزاع راه را برای استدلالهای سطح بالاتر و انسانیتر باز میکند.
اولیوا میگوید: یکی از ویژگیهای بارز شناخت انسان این است که میتواند چیزهای مختلف را در رابطه باهم توصیف و مقایسه کند یا تضاد بین آنها را مشخص نماید. این یک روش غنی و کارآمد برای یادگیری است که درنهایت میتواند به انواع مدل یادگیری ماشین آموزش داده شود تا قیاسها را درک کنند و ازنظر هوشمندی بسیار به ما نزدیکتر هستند.
منبع: hooshio.com
هوش مصنوعی بدون شک داستان فناوری دهه گذشته بوده است و به نظر نمیرسد با طلوع دهه جدید از تبوتاب آن کاسته شود. سالها بعد از دهه ۲۰۱۰ به عنوان زمانی یاد میشود که ماشینهایی که واقعاً میتوان آنها را “هوشمند” تصور کرد – یعنی مانند انسانها توانایی تفکر و یادگیری پیدا کردند – از داستانهای علمی تخیلی بیرون آمدند و وارد دنیای واقعی شدند.
اگرچه هنوز هیچ موتور پیشبینیای ساخته نشده است که بتواند روند برتر هوش مصنوعی را در دهه آینده ترسیم کند، اما میتوانیم با اطمینان بالایی از آنچه ممکن است در سالهای آینده اتفاق بیفتد حرف بزنیم. هزینههای تحقیق، توسعه و استقرار همچنان رو به افزایش است و بحث در مورد پیامدهای اجتماعی هوش مصنوعی به طور گستردهای ادامه دارد. در همین حال، انگیزهی کسانی که میخواهند نوآوریهای مبتنی بر هوش مصنوعی را در زمینههای جدید صنعت، حوزههای علمی و زندگی روزمره ما ایجاد کنند بیشتر میشود.
در ادامه درباره موضوعاتی که احتمالاً شاهد ادامه پیشرفت یا ظهور آنها در سال ۲۰۲۰ هستیم، می خوانید.
۱-هوش مصنوعی به طور فزایندهای فرآیندهای تجاری را رصد و اصلاح میکند
در حالی که اولین روباتها عمدتا در خطوط تولید و برای انجام کارهای دستی خودکار به کار گرفته میشدند، رباتهای مبتنی بر نرمافزار، کارهای تکراری اما ضروری را که ما با رایانه انجام میدهیم بر عهده خواهند گرفت. کارهایی همچون پر کردن فرمها، تولید گزارشها، نمودارها و تولید اسناد و دستورالعمل ها از جمله وظایفی هستند که میتوانند توسط ماشینهایی انجام شود که با مشاهده و تقلید رفتارهای ما یاد میگیرند تا آن کارها را برای ما سریعتر و سادهتر انجام دهند. این اتوماسیون- که به عنوان اتوماسیون فرآیند رباتیک شناخته میشود – ما را از شر کارهای اداری وقتگیر اما ضروری خلاص میکند و باعث میشود ما وقت بیشتری برای کارهای پیچیده، استراتژیک، خلاقانه و بینفردی اختصاص دهیم.
۲- به مرور شخصی سازی بیشتری انجام میشود
روند شخصیسازی باوجود غولهای اینترنتی مانند آمازون، علی بابا و گوگل و توانایی آنها در ارائه تجارب و توصیههای شخصی با موفقیت پیش میرود. هوش مصنوعی به ارائهدهندگان کالا و خدمات این امکان را میدهد تا با تعامل از طریق درگاههای آنلاین و برنامههای تلفن همراه دقت دید بالایی از مشتری را ارائه دهند و به این ترتیب پیشبینیهای هوش مصنوعی با دقت بالایی متناسب با خواستهها و نیازهای ما خواهد بود.
هم اکنون شرکتهای تحویل دهنده پیتزا همچون Dominos با کمک هوش مصنوعی می دانند چه زمانی ما به احتمال زیاد پیتزا میخواهیم و دکمه “اکنون سفارش دهید” را در یک زمان مناسب پیش روی ما قرار میدهند. این روند در صنایع دیگر نیز اتفاق میافتد و آنها راهحلهایی برای ارائه تجارب شخصی مشتری ارائه میدهند.
۳- با دقیقتر شدن دادهها و و امکان دسترسی بیشتر به آنها هوش مصنوعی نیز به طور فزایندهای مفید میشود.
یکی از موانع موجود بر سر راه مشاغل و سازمانهایی که می خواهند به سمت تصمیمگیری خودکار مبتنی بر هوش مصنوعی حرکت کنند کیفیت اطلاعات موجود است. در سالهای اخیر با پیشرفت فناوری و روشهای شبیهسازی فرایندها و سازوکارهای موجود در دنیای واقعی در حوزه دیجیتال، دادههای دقیق به طور فزایندهای در دسترس قرار گرفتهاند. به طور مثال شبیهسازی به مرحلهای رسیده است که تولیدکنندگان و سایر افرادی که در زمینه تولید وسایل نقلیه خودران کار میکنند میتوانند هزاران ساعت داده مربوط به رانندگی بدون وسایل نقلیه به دست آورند که این خود منجر به کاهش چشمگیر هزینه و همچنین افزایش کیفیت دادههایی میشود که میتوانند جمع شوند. اکنون که کامپیوترها به اندازه کافی قدرتمند هستند و کاملاً دقیق آموزش دیدهاند تا بتوانند همه دادهها را در دنیای دیجیتال شبیهسازی کنند چرا باید هزینهی بالا و خطر آزمایش سیستمهای هوش مصنوعی ر را در دنیای واقعی به جان بخریم؟ سال ۲۰۲۰ شاهد افزایش دقت و در دسترس بودن شبیه سازیهای واقعی خواهیم بود که به نوبه خود منجر به هوش مصنوعی قدرتمندتر و دقیقتری میشود.
۴-دستگاههای بیشتری از فناوری مبتنی بر هوش مصنوعی استفاده خواهند کرد
همزمان که سختافزار و تخصص مورد نیاز برای بهکارگیری هوش مصنوعی ارزانتر میشود و بیشتر در دسترس قرار میگیرد، ما شاهد استفاده از این فناوری نوین در تعداد بیشتری از ابزارها، گجتها و دستگاهها خواهیم بود. در سال ۲۰۱۹ ما از برنامههایی استفاده کردیم که با استفاده از هوش مصنوعی در رایانهها، تلفنها و ساعتها پیشبینیها را در اختیار ما قرار میدادند. با واردشدن به دهه جدید و کاهش هزینههای سختافزاری و نرمافزاری، ابزارهای هوش مصنوعی به طور فزایندهای در وسایل نقلیه، لوازم خانگی و ابزارهای کار ما به کار گرفته میشوند. با استفاده از قدرت هوش مصنوعی در نمایشگرهای واقعیت مجازی و واقعیت افزوده و پارادایمهایی مانند ابر و اینترنت اشیا، در سالهای آینده دستگاههای بیشتری در شکل و اندازههای مختلف شروع به فکر کردن و یادگیری میکنند.
۵-همکاری انسان و هوش مصنوعی افزایش مییابد
در آینده بسیاری از انسانها در زندگی روزمره خود به کار در کنار ابزارها و رباتهای مجهز به هوش مصنوعی عادت خواهند کرد. به تدریج ابزارهایی ساخته خواهد شد که به ما امکان میدهد از مهارتهای انسانی خود – که هنوز هوش مصنوعی کاملاً قادر به مدیریت آنها نیست – نهایت استفاده را ببریم؛ مهارتهایی همچون تخیل، طراحی، استراتژی و ارتباطات. برای بسیاری از ما، این به معنای یادگیری مهارتهای جدید، یا حداقل روشهای جدید برای استفاده از مهارتهایمان در کنار این ابزارهای جدیدِ رباتیک و مبتنی بر نرم افزار است. IDC پیشبینی میکند که تا سال ۲۰۲۵ ، ۷۵٪ از سازمانها برای بازآموزی کارکنان سرمایهگذاری میکنند تا شکافهای مهارتی ناشی از نیاز به استفاده از هوش مصنوعی را پر کنند. این روند در طول سال ۲۰۲۰ به طور فزایندهای آشکار خواهد شد تا جایی که اگر کارفرمای شما روی ابزار و آموزش هوش مصنوعی سرمایه گذاری نکند، ممکن است در سالهای آینده مشکلساز شود.
۶-هوش مصنوعی در لبه محاسبات
بیشتر هوش مصنوعی که در زندگی روزمره با آن ارتباط برقرار کردهایم در ” ابر” اتفاق میافتد. هنگامی که ما در گوگل جستجو میکنیم یا توصیههای نتفلیکس را مرور میکنیم، الگوریتمهای پیچیده و مبتنی بر داده در پردازندههایی قوی اجرا میشوند. این مراحل در دیتاسنترهای از راه دور اتفاق میافتد و دستگاههایی که در دست ما هستند یا رایانههای رومیزی ما به سادگی به عنوان مجرای عبور اطلاعات عمل میکنند. با این حال به تدریج، با کارآیی بیشتر این الگوریتمها و قابلیت کار روی دستگاههای کممصرف، هوش مصنوعی در لبه رایانش استفاده میشود. این الگو در سال ۲۰۲۰ و بعد از آن محبوبیت بیشتری پیدا خواهد کرد. پردازندههای سفارشی طراحی شده برای انجام تجزیه و تحلیلهای فوری، به طور فزایندهای به بخشی از فناوری ما در تعامل روزمره تبدیل میشوند و ما قادر به انجام این کار خواهیم بود حتی اگر اتصال اینترنت یکپارچهای نداشته باشیم.
۷-هوش مصنوعی به طور فزایندهای برای ایجاد فیلم، موسیقی و بازی استفاده میشود
هنوز هم انسانها در بسیاری از کارها عملکرد بهتری از هوش مصنوعی دارند حتی در سال ۲۰۲۰. کسانی که آثار تولیدشده به وسیله هوش مصنوعی از جمله در موسیقی، شعر یا داستان سرایی را دیدهاند احتمالا موافق باشند که پیشرفتهترین ماشینها نیز کماکان راهی دور و دراز در پیش دارند تا اثری هنری را تولید کنند که با اثر تولیدشده توسط انسان برابری کند. با این حال ، احتمالاً تأثیر هوش مصنوعی بر روی رسانههای سرگرمی افزایش مییابد. ما امسال در فیلم مرد ایرلندی شاهد بودیم که چگونه رابرت دنیرو با کمک هوش مصنوعی جلوی چشمان ما پیر شد. استفاده از هوش مصنوعی در ایجاد جلوههای بصری و ترفندهای کاملا جدید به احتمال زیاد رایج میشود و در بازیهای ویدیویی از هوش مصنوعی برای ایجاد حریفانی چالشبرانگیز که همانند انسان عمل میکننند استفاده میشود. همچنین برای اینکه بازیها همچنان بتوانند جذاب باشند و مهارت گیمرها را در هر سطحی از بازی به چالش بکشند هوش مصنوعی نقشی قابل توجه خواهد داشت . اما گرچه موسیقی تولید شده توسط هوش مصنوعی چنگی به دل نمیزند با این حال الگوریتمهای استفاده شده در برنامههایی همچون اسپاتیفای کمک کرده است تا لیستهای پخش هوشمند را متناسب با آهنگ و سرعت زندگی روزمره تنظیم کنیم.
۸-هوش مصنوعی بیش از پیش در امنیت سایبری حضور خواهد یافت
اگرچه به مرور زمان حملات هک، فیشینگ و مهندسی اجتماعی پیچیدهتر شدهاند و حتی از هوش مصنوعی و الگوریتمهای پیشبینی پیشرفته کمک میگیرند اما از سوی دیگر فناوری هوشمند نقش مهمی در محافظت از ما در برابر این آسیبها و مزاحمتها که زندگی ما را تهدید میکند خواهد داشت. از هوش مصنوعی میتوان برای یافتن سرنخهایی که نشاندهنده فعالیت دیجیتالی هستند و احتمالاً شاخصی از یک فعالیت مخرب است اسنفاده کرد. بدین ترتیب میتوان قبل از به خطر افتادن اطلاعات حساس، سطح هشدارها و آمادگی را بالا برد. همچنین عرضه ۵G و سایر فناوریهای ارتباطی بیسیم فوق العاده سریع، فرصتهای بزرگی را برای مشاغل فراهم میکند تا خدمات خود را به روشهای جدید و ابتکاری ارائه دهند. از سوی دیگر این فناوریها به طور بالقوه ما را در برابر حملات سایبری پیچیده آسیبپذیرتر میکند. هزینهکردن برای امنیت سایبری همچنان افزایش مییابد و افرادی که مهارتهای مربوطه را دارند بسیار مورد توجه قرار میگیرند.
۹-بسیاری از ما شاید حتی بدون اینکه خودمان بدانیم با هوش مصنوعی ارتباط برقرار خواهیم کرد
بگذارید با این حقیقت روبرو شویم که علیرغم سرمایهگذاری کلان در سالهای اخیر در چتباتهای قدرتگرفته از زبان طبیعی که در خدمات مشتریان استفاده میشود، بسیاری از ما میتوانیم تشخیص دهیم که با یک ربات در حال صحبت کردن طرف هستیم یا انسان. با این وجود، همزمان با ادامه رشد دیتاستهای مورد استفاده برای آموزش الگوریتمهای پردازش زبان طبیعی، تشخیص مرز بین انسان و ماشین سختتر و دشوارتر می شود. درواقع با ظهور یادگیری عمیق و مدلهایی همچون یادگیری تقویتی، الگوریتمهایی که تلاش میکنند الگوهای گفتاری ما را تطبیق دهند و معنی را از زبان انسانی ما دریافت کنند، بیش از پیش میتوانند ما را گمراه کنند و ما فکر کنیم در حال مکالمه با یک انسان هستیم. اگرچه ممکن است بسیاری از ما ترجیح دهیم هنگام جستجوی اطلاعات یا کمکگرفتن با یک انسان سروکار داشته باشیم با این حال اگر رباتها بتوانند کارآیی و دقت بیشتری در تفسیر سوالات ما داشته باشند ترجیح ما می تواند تغییر کند. با توجه به سرمایهگذاری مداوم و رشد فناوریهایی که خدمات مشتری و چت باتها را ارائه میدهند، سال ۲۰۲۰ میتواند سالی باشد که بسیاری از ما متوجه نشویم که در حال صحبت کردن با یک ربات هستیم.
۱۰-هوش مصنوعی ما را تشخیص خواهد داد، حتی اگر ما آن را تشخیص ندهیم
گسترش فناوری تشخیص چهره با انتقال به دهه آینده بیشتر خواهد شد. این موضوع منحصر به چین نیست و در سراسر جهان اتفاق خواهد افتاد. شرکتها و دولتها به طور فزایندهای روی این روشها سرمایهگذاری میکنند تا بدانند که ما چه کسی هستیم و فعالیت و رفتار ما را زیرنظر بگیرند. با این حال عقبگردهایی نیز وجود دارد. در این سال، سانفرانسیسکو اولین شهر بزرگی بود که استفاده از فناوری تشخیص چهره توسط پلیس و آژانسهای شهرداری را ممنوع کرد و دیگران احتمالاً در سال ۲۰۲۰ نیز این ممنوعیت را اعمال کنند. اکنون سوال این است که آیا مردم در ازای افزایش امنیت و راحتیای که این فناوری برای آنان به ارمغان خواهد اورد، آیا این نقض حریم شخصی را به طور گسترده خواهند پذیرفت؟ این موضوع احتمالاً بحث داغ روزهای پیش رو در روند برتر هوش مصنوعی خواهد بود. شما چه فکر میکنید؟
منبع: hooshio.com
هوش مصنوعی آماده است تا تمام صنایع را دگرگون کند، همانطور که ۱۰۰ سال پیش الکتریسیته همه چیز را تغییر داد. طبق برآورد مک کینزی، تا سال ۲۰۳۰ هوش مصنوعی سیزده تریلیون دلار رشد تولید ناخالص داخلی ایجاد خواهد کرد که بیشتر آن در بخشهای غیر اینترنتی شامل تولید، کشاورزی، انرژی، تدارکات، حمل و نقل و آموزش خواهد بود. ظهور هوش مصنوعی فرصتی را برای مدیران فراهم کرده است تا در هر صنعتی که هستند کسبوکارهای خود را متفاوتتر کنند و آنها را ارتقا دهند. اما اجرای یک استراتژی هوش مصنوعی در سطح شرکت به ویژه برای شرکتهای قدیمی چالش برانگیز است. توصیه من به مدیران در هر صنعتی که هستند این است که با قدمهای کوچک شروع کنند. اولین قدم برای ساختن یک استراتژی هوش مصنوعی، که از راهنمای تغییر کاربری هوش مصنوعی برگرفته شده، انتخاب یک یا دو پروژه هوش مصنوعی در سطح شرکت است. این پروژهها به شرکت شما کمک میکنند تا حرکت خود را در این مسیر آغاز کنید و دانش دست اولی را از چیزی که برای ساخت یک محصول هوش مصنوعی لازم است کسب کند.
ویژگیهای یک پروژه آزمایشی قوی هوش مصنوعی
برای بهرهگیری از قدرت فناوریهای هوش مصنوعی لازم است که آنها را متناسب با زمینه کسبوکار خود تنظیم کنید. هدف از این یک یا دو پروژه آزمایشی فقط ایجاد ارزش نسبی است. مساله مهمتر این است که موفقیت این پروژههای آزمایشی باعث میشود بتوانید ذینفعان را برای سرمایهگذاری در ایجاد تواناییهای هوش مصنوعی شرکتتان متقاعد کنید. وقتی در حال انجام یک پروژه آزمایشی هستید، سوالات زیر را از خود بپرسید:
آیا این پروژه به سرعت تبدیل به یک موفقیت میشود؟
از نخستین پروژه آزمایشی هوش مصنوعی خود استفاده کنید تا کارها روی غلطک بیفتند. در ابتدا پروژههایی را انتخاب کنید که به سرعت انجام شوند (به طور ایدهآل در طی ۶-۱۲ ماه) و شانس موفقیت بالایی داشته باشند. به جای انجام تنها یک پروژه آزمایشی، دو یا سه پروژه انتخاب کنید تا شانس این را داشته باشید که حداقل یک موفقیت چشمگیر به دست آورید.
آیا این پروژه بیش از حد پیش پا افتاده یا دست و پاگیر است؟
پروژه آزمایشی شما لازم نیست که با ارزشترین کاربردهای هوش مصنوعی باشد اما باید به اندازه کافی معنیدار باشد تا پس از کسب موفقیت بتواند سایر رهبران شرکتها را به سرمایهگذاری در پروژههای بعدی هوش مصنوعی ترغیب کند. در روزهای ابتدایی سرپرستی تیم Google Brain ، با شک و تردید گستردهای در در مورد پتانسیل یادگیری عمیق روبرو شدم. برای گوگل تشخیص گفتار اهمیت بسیار کمتری نسبت به جستجوی وب و تبلیغات داشت، بنابراین تیم من به نوعی اولین مشتری داخلی گوگل بود.
با موفقیتی که در ساخت یک سیستم شناخت دقیقتر داشتیم ما تیمهای دیگر را متقاعد کردیم که به Google Brain ایمان داشته باشند. برای پروژه دوم خود ، ما با Google Maps کار کردیم تا کیفیت دادهها را افزایش دهیم. هر پروژه موفق باعث میشد سرعت ما افزایش پیدا کند و میتوان گفت Google Brain نقش اصلی را در تبدیل گوگل به شرکت بزرگ هوش مصنوعی فعلی ایفا کرد.
آیا پروژه شما مختص صنعت شما است؟
با انتخاب یک پروژه خاص برای شرکت، ذینفعان داخلی شما میتوانند ارزش پروژه را مستقیماً درک کنند. به عنوان مثال، اگر شما یک شرکت تجهیزات پزشکی را اداره میکنید ، ساخت یک پروژه استخدام مبتنی بر هوش مصنوعی که قادر به نمایش خودکار رزومهها است به دو دلیل یک ایده بد است:
(۱) احتمال بسیار بالایی وجود دارد که شخص دیگری یک پلتفرم استخدامی ایجاد کند که هم خدمات بهتری ارائه دهد و هم دیتابیس بزرگتری داشته باشد. در نتیجه هم میتواند عملکردی بهتر از محصول شما داشته باشد و هم قیمت آن مقرون به صرفهتر باشد.
(۲) در مقایسه با یک پروژه که روی به کارگیری هوش مصنوعی در دستگاههای پزشکی کار میکند، این پروژه توانایی کمتری برای متقاعد کردن شرکت شما را دارد که هوش مصنوعی ارزش سرمایهگذاری دارد.
به هرحال ساختن یک سیستم هوش مصنوعی خاص برای مراقبتهای بهداشتی با ارزشتر است، چه این پروژه استفاده از هوش مصنوعی برای کمک به پزشکان در تهیه برنامههای درمانی باشد یا سادهتر کردن روند پذیرش و ویزیت بیمارستان از طریق خودکارسازی و یا ارائه مشاوره بهداشتی شخصیسازی شده.
آیا با همکاران معتبر برای تسریع پروژه هوش مصنوعی خود کمک می گیرید؟
اگر هنوز در حال ایجاد تیم هوش مصنوعی خود هستید، به فکر همکاری با همکاران خارج از شرکت باشید تا تخصص هوش مصنوعی را به سرعت تجربه کنید. اگرچه شما میخواهید تیم هوش مصنوعی داخلی داشته باشید با این حال سرعت رشد هوش مصنوعی بسیار بالا است و منتظر ماندن برای ایجاد این تیم ممکن است شما را عقب بیندازد.
آیا پروژه هوش مصنوعی شما ارزشآفرینی می کند؟
بیشتر پروژههای هوش مصنوعی به یکی از این سه روش ارزش ایجاد میکنند:
۱- کاهش هزینهها (تقریباً در هر صنعتی خودکارسازی، فرصتهایی برای کاهش هزینهها ایجاد میکند)
۲- افزایش درآمد (سیستمهای پیشنهادی و پیشبینی مبتنی بر هوش مصنوعی باعث افزایش و کارایی میشوند)
۳- راه اندازی مشاغل جدید (هوش مصنوعی میتواند پروژههایی را را اجرایی کند که قبلا امکان آن نبود)
حتی بدون داشتن “داده های بزرگ” میتوانید ارزش ایجاد کنید. برخی از کسب و کارها، مانند موتورهای جستجو، تعداد زیادی کوئری دارند و بنابراین موتورهای جستجو با دادههای بیشتر عملکرد بهتری دارند.
با این وجود، همه کسب و کارها این میزان داده را در اختیار ندارند و ممکن است ساخت یک سیستم هوش مصنوعی با ارزش که حداقل ۱۰۰-۱۰۰۰ داده دارند امکان پذیر باشد. توصیه میکنیم دادههای زیادی که در صنعت خود دارید، ملاکی برای انتخاب پروژهها نباشد. بسیاری معتقد هستند که تیم هوش مصنوعی میتواند هر دادهی بزرگی را به یک ارزش تبدیل کند در حالی که اینطور نیست. پروژههایی از این دست شکست میخورند. مهم این است که یک تئوری را توسعه دهید در مورد اینکه به طور خاص چگونه یک سیستم هوش مصنوعی می تواند ارزش ایجاد کند.
به سوی موفقیت پروژه هوش مصنوعی
استفاده از فناوری یادگیری با نظارت یک منبع غنی از ایدهها برای آن دسته از پروژههای هوش مصنوعی است که انسانها آنها را انجام میدهند. شما متوجه خواهید شد که هوش مصنوعی به جای شغلها، در خودکارسازی کارها عملکرد خوبی دارد و باید سعی کنید وظایف مشخصی را که در حالت عادی انسانها انجام میدهند شناسایی کنید و بررسی کنید که آیا این کارها توانایی خودکارشدن دارند یا نه؟ بعنوان مثال، وظایف مربوط به کار رادیولوژیست ممکن است شامل خواندن اشعه ایکس، کار با دستگاههای تصویربرداری، مشاوره با همکاران و برنامهریزی جراحی باشد. به جای اینکه بخواهید کل شغل خود را به طور خودکار انجام دهید، بررسی کنید که آیا فقط یکی از کارها میتواند از طریق اتوماسیون جزئی خودکار شود یا حتی کمی سریعتر انجام شود؟
من قبل از اجرای یک پروژه هوش مصنوعی، توصیه میکنم جدول زمانی و خروجی مطلوب را مشخص کنید. همچنین بودجه مناسبی را به تیم اختصاص دهید.
یک رهبر تعیین کنید
فردی را انتخاب کنید که بتواند عملکردی چندوجهی از خود نشان دهد و پلی باشد میان متخصصان هوش مصنوعی و دیگر متخصصان شرکت. با این کار مطمئن میشوید که وقتی پروژه ی هوش مصنوعی به ثمر برسد، بقیه سازمان را تحت تأثیر قرار میدهد. باید تاکید کنیم که هدف تیم، ساختن یک استارت آپ هوش مصنوعی نیست. هدف آنها ساختن یک پروژه موفق است که به عنوان اولین قدم نگاه شرکت و دیگر افراد را در مورد هوش مصنوعی تحت تاثیر قرار دهد و راه را برای ساخت پروژههای دیگر در آینده هموار سازد.
از ارزش تجاری و نظارت فنی مطمئن شوید
اطمینان حاصل کنید که اگر پروژه هوش مصنوعی شما اجرایی موفقیتآمیز داشته باشد و صاحبان کسبوکار نیز موافق باشند که این پروژه ارزش کافی برای کسبوکار آنها ایجاد خواهد کرد. نکته دیگر اینکه از امکان عملیاتی بودن پروژه خود مطمئن شوید. نظارت فنی میتواند هفتهها طول بکشد. همچنین به یک تیم فنی نیاز است تا اطلاعات شما را بررسی کند و حتی در صورت لزوم شاید آزمایشهایی در مقیاس کوچک انجام دهد.
یک تیم کوچک بسازید
من پروژههای آزمایشی بسیاری را دیدهام که با حدود پنج تا ۱۵ نفر اجرا شدهاند. سطح دقیق منابع در هر پروژه بسیار متفاوت است، اما پروژههایی که میتوانند با یک تیم کوچک انجام شوند مزایایی دارند. در وهله اول میتوان اطمینان داشت همه میتوانند همدیگر را بشناسند و به طور متقابل کار کنند. همچنین ممکن است تخصیص منابع بدون دردسر انجام شود. در حالی که امروزه برخی از پروژهها وجود دارند که نیازی به صدها و هزاران مهندس دارند، چنین سطح بالایی از منابع و نیروی انسانی برای پروژه آزمایشی هوش مصنوعی شما لازم نیست.
ارتباط برقرار کنید
زمانی که پروژه آزمایشی شما به نقاط عطف کلیدی رسید به طور خاص وقتی که نتیجه موفقیتآمیزی حاصل شد، حتما امکاناتی شامل گفتگو، پاداش و حتی روابط عمومی را برای تیم فراهم کنید تا درون شرکت شناخته شوند.
اطمینان حاصل کنید که تیم پروژه ی هوش مصنوعی توسط مدیرعامل شناخته شده باشد. اگر یک تیم فناوری هوش مصنوعی دارید که با یک تیم تجاری کار میکند، مطمئن شوید که تیم تجاری، از حضور تیم هوش مصنوعی اعتبار و پاداش زیادی کسب می کند. این کار باعث میشود تیمهای تجاری دیگری نیز به هوش مصنوعی روی خوش نشان دهند. من هدایت تیم Google Brain و تیم هوش مصنوعی بایدو را بر عهده داشتم که نیرو محرکه اصلی برای تبدیل این دو غول فناوری به شرکتهای بزرگ هوش مصنوعی بودند. بنابراین فکر میکنم اکثر شرکتها میتوانند و باید در هوش مصنوعی مهارت داشته باشند.
لازم است تاکید کنم که هدف شما نباید رقابت با شرکتهای پیشگام اینترنت باشد بلکه هدف شما باید تسلط بر هوش مصنوعی برای پیشبرد کسب و کار خودتان باشد. به یاد داشته باشید: اولین قدم انتخاب پروژههای آزمایشی مناسب و اجرای آنها است.
منبع: hooshio.com
آیا سیستم های تشخیص صدا به صورت اولیه را به خاطر دارید؟ سالها پیش، اگر با تلفنتان شمارهای را میگرفتید از شما خواسته میشود که با صدایتان گزینهای انتخاب کنید و این فرایند اغلب برای همه تجربهای ناخوشایند به جا میگذاشت. برنامههای تشخیص صدای به اندازه کافی پیشرفته نبودند که بتوانند صدای همگی را تشخیص دهند. هرچند از آن زمان به بعد برنامههای تشخیص صدا پیشرفتهای چشمگیری داشتهاند. امروزه اگر با داروخانه تماس بگیرید تا نسخهتان را تجدید کنید و یا اگر با خط مستقیم کسبوکاری تماس بگیرید، به احتمال زیاد با استفاده از سیستم تشخیص صدای پشتیبانی مشتری میتوانید با موفقیت کارتان را انجام دهید.
علاوه بر این استفاده از سیستم های تشخیص صدا دیگر به خطوط مستقیم پشتیبانی مشتری محدود نمیشود. از سیستمهای تشخیص صدا در تلفنهای هوشمند و رایانهها و همچنین صنایع گوناگون استفاده میشود. موارد استفاده از سیستم های تشخیص صدا بینهایت است. در ادامه برترین روندها و موارد کاربرد فنآوریهای تشخیص صدا را با یکدیگر بررسی میکنیم.
۱- پرداخت موبایلی با استفاده از سیستم های تشخیص صدا
آیا تا به حال به این فکر کردهاید که در آینده چگونه هزینهها را پرداخت خواهید کرد؟ آیا تا به حال به این فکر کردهاید که در آینده ممکن است به جای پرداخت پول نقد و یا استفاده از کارتهای اعتباری، از صدایتان برای پرداخت هزینهها استفاده کنید؟ فرا رسیدن چنین روزی چندان دیر نیست. هماکنون برخی شرکتها در حال ساخت و ارتقای سیستم های تشخیص صدا برای انجام تراکنشها هستند. استفاده از سیستمهای تخشیص صدا برای انجام تراکنشها آسان است و زمانیکه با استفاده از تلفنهای هوشمند و یا رایانهتان هایتان را انجام میدهید، نیازی به استفاده از کیف پول نیست.
در ادامه شیوه انجام تراکنشها با استفاده از سیستم تشخیص صدا را توضیح میدهیم: در حالت عادی پیش از انجام های اینترنتی باید رمز و یا شماره شناسایی شخصیخود را تایپ کنید، اما فناوری تشخیص صدا این امکان را برای شما فراهم میکند تا رمزی یک بار مصرف را بگویید و تان را انجام دهید. عملکرد سیستمهای تشخیص صدا همچون کپچاها
و سایر رمزهای یک بار مصرف است که استفاده از آنها در انجام تراکنشهای اینترنتی مطمئنتر است – با این تفاوت که در سیستمهای تشخیص صدا رمز را باید با صدای بلند گفت. از آنجاییکه سیستمهای تشخیص صدا ماهیتی تصادفی دارند و به همین دلیل شما مصمئن هستید کسی نمیتواند رمز شما را بشنود و در نتیجه به اسم شما ی انجام دهد، استفاده از این سیستمها بسیار بهتر از یک رمز همیشگی است. به زودی استفاده از سیستم های تشخیص صدا در پرداختهای موبایلی به امری رایج و متداول تبدیل میشود.
۲- دستیاران مجازی با قابلیت تشخیص صدای افراد
اکثر ما با سیری، اَلکساو سایر دستیاران مجازی هوش مصنوعی که در محیط کاری و یا در محیط خانه به ما در انجام کارهای روزانه کمک میکنند، آشنایی داریم. برای مثال کاربران در هنگام رانندگی با استفاده از دستیاران هوش مصنوعی مسیریابی کنند، چیزی را در اینترنت جستوجو کنند و یا آهنگی پخش کنند بدون آنکه مجبور باشند دستگاه (موبایل و غیره) خود را در دست بگیرند و یا چراغهای خانهشان را روشن کنند. به طور کلی دستیاران مجازی به صدایی که آنها را فعال کرده است، پاسخ میدهند و شیوه پاسخدهی آنها به کاربران مختلف یکسان است.
با وجود این امروزه فناوریهایی مانند پردازش گفتار وجود دارد که این امکان را برای سیستمهای هوش مصنوعی فراهم میکند تا هویت کاربر را تشخیص دهند. برای مثال با بهرهگیری از این فنآوری میتوان سیستمهای هوش مصنوعی را برای صدای فرد خاصی فعال کرد. طی سالهای اخیر این فناوری در گوشیهای اَپل بهکار رفته است. شما میتوانید گوشی اَپل خود را به گونهای تنظیم کنید تا سیری فقط کارهایی را انجام دهد یا به سؤالاتی پاسخ دهد که با صدای شما گفته میشوند. در صورتیکه دستیار هوش مصنوعی شما فقط با صدای شما فعال شود، احتمال اینکه کاربر غیرمجازی از دستگاه، اطلاعات و متعلقات شما سوءاستفاده کند، کمتر است. دستیاران هوش مصنوعی به سادگی برای هر کاربر غیرمجازی فعال نمیشوند. به طور قطع در آیندهای نزدیک از این فناوری در حوزههای دیگر استفاده میشود.
۳- تشخیص صدا برای تأمین امنیت
بیشتر مردم چندین حساب کاربری اینترنتی دارند و امنیت آنها باید تأمین شود و برخی از این حسابهای اینترنتی همچون حسابهای بانکی به لحاظ امنیتی ریسک بالایی دارند. در دورانی که بانکداری اینترنتی به شهرت بالایی دست پیدا کرده ضروری است سیستمهای تشخیص هویتیمطمئن شوند که فقط صاحب حساب میتواند به اطلاعات حساس دسترسی پیدا کند. یکی از جدیدترین شیوههای احراز هویت کاربر ، احراز هویت از طرق تشخیص صدا است. همچون دستیاران هوش مصنوعی که صدای شما را تشخیص میدهند، عامل تشخیص گفتار نیز به مثابه یک «رمز» منحصر بهفرد از صدای شما برای باز کردن حسابهای رمزدار استفاده میکند. از آنجاییکه صدای صاحب حساب با صدای سایر افراد تفاوت دارد امکان دسترسی به حساب برای سایرین وجود ندارد.
استفاده از تشخیص صدا برای باز کردن حسابهای کاربری امنیت بیشتری دارد، چرا که میتوان از سیستمهای چند عاملیاستفاده کرد و بسیاری از ویژگیهای امنیتی مختلف را با یکدیگر ترکیب کرد. برای مثال فرض کنید برای دسترسی به نرمافزاری کاربردی بانکداریتان باید اثرانگشت خود را اسکن کنید و رمزی را به صدای بلند بگویید. استفاده از صدای برای دسترسی به حسابهای اینترنتی ایمنتر از رمزهای قدیمی است. علاوه بر این، سیستمهایی وجود دارند که در کنار فناوری تشخیص صدا از فناوری تشخیص چهره نیز استفاده میکنند.
۴- تشخیص صدا در جرمشناسی و شناسایی مجرمین
یکی دیگر از موارد کاربرد تشخیص صدا استفاده از این فنآوری در شناسایی مجرمین است. در اختیار داشتن یک فایل صوتی از مظنونین یک جرم میتواند مدرک مهمی باشد. در حال حاضر AGNITIO و Morpho (Safran) با یکدیگر همکاری دارند و از فناوری احراز هویت از طریق صدادر صنعت جرمشناسی استفاده میکنند. به لطف وجود چنین محصولی، فناوری احراز هویت از طریق صدا ( در کنار اثرانگشت و سایر روشها) میتواند در سراسر دنیا در جهت شناسایی و بررسی سوءپیشینه افراد مورد استفاده قرار بگیرد.
این فناوری میتواند در مدت زمان کوتاهی صداهای زنده و یا ضبط شده را تطبیق دهد و نرخ دقت این فناوری در تشخیص صداها بسیار بالا و برابر با ۹۹ درصد است. علاوه بر این فناوری تشخیص صدا میان لهجهها یا زبانهای مختلف تمایز قائل نمیشود. فنآوری تشخیص صدا تُن صدای افراد را محاسبه میکند و اینکه فرد چه کلماتی به کار میبرد و یا به چه زبانی صحبت میکند در تشخیص آن تغییری ایجاد نمیکند. از این روی، فناوری تشخیص صدا میتواند در سراسر دنیا در حل جرایم کاربرد داشته باشد.
۵- تشخیص صدا در نرمافزارهای کاربردی ترجمه
فرض کنید به یک کشور خارجی سفر کردهاید و میخواهید اتاقی در یک هتل رزرو کنید. کارمند پذیرش زبان انگلیسی را به سختی متوجه میشود و شما هم به سختی میتوانید به زبان آنها صحبت کنید و اطراف شما کسی نیست که بتواند صحبتهای شما را برای یکدیگر ترجمه کند. اما شانس با شما است چرا که هتل یک سیستم ترجمه دارد که با استفاده از فنآوری تشخیص صدا جملات را به صوتر لحظهای ترجمه میکند. شما میتوانید جملههایتان را برای سیستم بگویید و سپس سیستم زبان شما را پردازش میکند و آن را به صورت صوتی و یا بصری ترجمه میکند، در نتیجه کارمند پذیرش متوجه صحبتهای شما میشود.
علاوه بر کمک به مسافرانی که به کشورهای خارجی سفر میکنند، از این فناوری میتوان در تجارتها، مدارس و سایر سازمانهای بینالملل بهره گرفت. با استفاده از این فناوری به سادگی میتوان با کسی که به زبان شما صحبت نمیکند گفتوگو کنید و میتواند تأثیر شگرفی در رفع موانع زبانی داشته باشد.
ما فهرستی از شرکتهای فعال در حوزه پردازش گفتار را گردآوری کردهایم تا در اختیار علاقهمندان و مخاطبان این حوزه قرار دهیم تا بتوانند اطلاعات کاملی در مورد هر کدام از این شرکتها کسب نموده و نیازهای آنها در این زمینه به خوبی مرتفع گردد.
منبع: hooshio.com
یادگیری ماشین چهکارهایی را میتواند انجام دهد و چهکارهایی را نمیتواند انجام دهد؟
پیش از هر چیز لازم است بدانیم که یادگیری ماشین یک قدرت مطلق نیست. از تحقیقات ۵۰ سال گذشته اینگونه برمیآید که یادگیری ماشین یک نوع روش کسب دانش بدون برنامهنویسی صریح است با مرزهای مشخص است. درست همانند محاسبات که همچون دیگر فرایندها دارای محدودیتهای ذاتی است، محدودیت های یادگیری ماشین نیز وجود دارند، محدودیتهایی که حتی باوجود استفاده از gpu ها و کامپیوترهای سریع نیز نمیتوانیم بر آنها غلبه کنیم. ممکن است این موضوع برای بسیاری از مشتاقان یادگیری ماشین ناامیدکننده به نظر برسد، اما باید بپذیریم که یادگیری ماشین قرار نیست ناجی همهچیز باشد. روشهای دیگری برای دستیابی به اطلاعات وجود دارد و افراد علاوه بر “یادگیری” از این موارد نیز استفاده میکنند.
موانع یادگیری زبان
بگذارید بهعنوان مثال اصلی، مشکل یادگیری زبان از طریق شنیدن را مثال بزنیم. این موضوع بیش از ۵۰ سال است که محل مناقشه و بحثهای عمیق نهتنها در هوش مصنوعی بلکهر فلسفه، زبانشناسی، روانشناسی، زیستشناسی و علوم اعصاب نیز بوده است. جالب است بدانید ما هنوز هم نمیدانیم چگونه انسانها و بهطور خاص کودکان از همان ۲ سالگی زبان اول خود را یاد میگیرند. در کنار کارهای شگفتانگیز زیادی که برای مستندسازی این فرایند صورت گرفته است تئورهای ختلفی نیز وجود دارد. درهرحال ، امروز نمیتوانید از گاه یک ماشین یادگیری مثل الکسا ب که در خانه شما بنشیند و هر آنچه را که در خانه شما صحبت میشود را بشنود و طی یک یا دو سال دیگر با شما شروع به صحبت کردن کند! ناراحتکننده است که باوجود میلیونها سروری که در گوگل، آمازون، مایکروسافت و شرکتهای بزرگ فناوری وجود دارد و البته ظرفیت بالای ذخیرهسازی در مراکز داده، ما کماکان نمیتوانیم این مشکل را حل کنیم!
شاید دارید به چتباتها فکر میکنید. نه آنها نمیتوانند زبان را یاد بگیرند. اگر تاکنون از یکی از این برنامهها استفاده کرده باشید دریکی دو دقیقه متوجه این موضوع خواهید شد.
اکنون، شما احتمالاً در مورد قدرت چشمگیر راهحلهای یادگیری عمیق، مانند LSTM یا GRU در انجام کارهایی مانند ترجمه زبان شنیدهاید. لازم است باز تکرار کنیم که این سیستمها فاصله بسیار زیادی با یادگیری زبان دارند و حتی در حال حاضر میتوان گفت عملکرد آنها در ترجمه زبان در مقایسه با انسانها بسیار بد است. حتی مترجم گوگل نیز آنچنان کارآمد نیست. معماری LSTM و GRU نمیتوانند زبان را “درک” کنند. آنها مدلهای آماری سادهای ایجاد میکنند که برخی از اطلاعات مربوط به کلمات گذشته را حفظ میکنند و بیشتر در سطح جمله هستند. برای مثال مترجم گوگل کماکان قادر به درک اهمیت جنسیت در ترجمه های خود نیست.
محدودیت های یادگیری ماشین
بنابراین، با توجه به این مثال از یادگیری زبان محدودیت های یادگیری ماشین چیست؟ در اصل دو محدودیت وجود دارد، که برمیگردند به ذات یادگیری ماشین و همانطور که گفته شد این محدودیتها با استفاده از دادههای بیشتر و یا محاسبات قدرتمندتر قابل حل نیسنتد. به همین دلیل شناختن چنین مواردی بسیار مهم است ، بهاینترتیب فرد متوجه میشود با یادگیری ماشین چه چیزی را میتواند انجام دهد و چهکاری را نمیتواند انجام دهد. همانطور که فیلسوف مشهور چینی کنفوسیوس سالها پیش گفته است :
کسی که میداند چه چیزی را میداند و چه چیزی را نمیداند کسی است که واقعاً میداند
اولین محدودیت را در ۵۰ سال قبل مارک گلد در یک قضیه معروف اثبات کرده است. مطالعات زیادی نشان دادهاند که کودکان نمونههای درست و مثبت زبان طبیعی را به یاد میسپارند. بهطورکلی، والدین اشتباهات تلفظی و قواعدی کودکان را تصحیح نمیکنند، در عوض آنچه را که کودک در تلاش برای گفتن است تفسیر میکنند. همچنین کودکان نمیدانند که زبانی که قرار است یاد بگیرند چیست (درواقع اگر شما در آمریکا به دنیا آمدهاید، به برخی ژنهای جادویی “یادگیری انگلیسی” مجهز نیستید).
بنابراین آنچه گلد اثبات کرد این است که مهم نیست چند نمونه مثبت را ببینید؛ درهرصورت یک سیستم یادگیری ماشین هرگز نمیتواند گرامری مستقل از متن استنتاج کند که رشتههای زبان را تولید میکند. فرض کنید به شما رشتههایی دادهاند که با استفاده از زبان مستقل از متن ناشناخته تولیدشدهاند. مهم نیست که چند رشته را میبینید و چه مقدار توان محاسبه در دسترس دارید، بههرحال هیچوقت نمیتوانید بگویید که قواعد تولید زبان را دقیقاً مشخص کردهاید. این واقعاً نتیجه خیرهکنندهای بود.
ازآنجاکه زبانهای ژاپنی و انگلیسی و آلمانی و فرانسوی از زبانهای مستقل از متن قدرتمندتر هستند ، باید بدان معنی باشد که فضای زبانهای موجود در مغز ما همه مستقل از متن و یا همه حساس به متننیستند اما برخی از طبقههای محدودتر هستند که فقط از نمونههای مثبت قابلشناسایی است. اما طبقهچیست؟ زبان شناسان ۵۰ سال است که به دنبال آن هستند، و هنوز پاسخ آن را پیدا نکردهاند، اگرچه پیشرفتهای زیادی صورت گرفته است.
اما به محدودیت دوم بپردازیم. محدودیتی که خود ریشه در محدودیت ذاتی دو اصل یادگیری ماشین دارد؛ یعنی احتمال و آمار. امروزه، این دو حیطه ریاضی نهتنها در یادگیری ماشین بلکه در بسیاری از زمینههای دیگر علوم و مهندسی فوقالعاده قدرتمند و مفید هستند. با این اوصاف سخت بتوان با این ادعا مخالفت کرد که کار فیشر در آزمایشهای تصادفی و برآورد حداکثر احتمال یکی از نقاط عطف تحقیقات در قرن بیستم بود، کاری که بسیاری از موارد دیگر را نیز ممکن ساخت. همانطور که نیمان، پیرسان، روبین و اخیراً پیرل نشان دادهاند، بااینحال، استدلال آماری ذاتاً محدود است. نظریه احتمال نمیتواند ماهیت علیتی جهان را فاش کند. با این تئوری نه میتوان فهمید که صاعقه باعث رعدوبرق میشود و نه میتوان فهمید بیماریها باعث بروز علائم میشوند. بنابراین با استناد به احتمال، آمار و یادگیری ماشین نمیتوان این موارد را تعیین کرد. یکبار دیگر باید تأکید کنیم که این یک محدودیت ذاتی است و نمیتواند با دادههای بیشتر، سیستمهای بیشتر و پول بیشتر این مشکل را برطرف کرد.
بنابراین، در پایان باید این واقعیت را قبول کرد که علم داده باوجود تعهد و تمام توان بالقوه خود، نمیتواند نقطه پایانی بر این ماجرا باشد. درهرصورت یک راهحل اعجابانگیز برای مشکل هوش مصنوعی، مساله یادگیری زبان و مشکل کشف علت با استفاده از مشاهده وجود ندارد و باید ابزارهای بیشتری تهیه کرد. بهعنوان مثال ، پیرل و روبین دقیقاً چنین نظریه احتمالی مانند نظریه نتیجه احتمالی و عملگرهای do-calculus را توسعه دادهاند. توصیه میکنیم جدیدترین کتاب پیرل به نام “چرا” را بخوانید. این کتاب سه سطح معماری شناختی دارد. در پایینترین سطح، مدلسازی آماری از مشاهده قرار دارد، در دومین لایه استدلال علیتی با مداخلات و در لایهی بالا استدلال تخیلی با خلاف واقع قرار دارد. این یکی از جالبترین ایدههای اخیر در مورد چگونگی گسترش علم داده است و میتوان بهنوعی آن را “علم تخیل” نامید، حوزهای که هنوز وجود ندارد، اما احتمالا طی دهههای آینده وقتی که محدودیت های یادگیری ماشین و عام داده آشکارتر میشود محبوبیت بیشتری پیدا خواهد کرد.
این بدین معنی نیست که علم داده مفید نیست، بسیار هم مفید است و میتوان از آن برای مدلسازی بسیاری از پدیدهها استفاده کرد ، از شبکههای اجتماعی گرفته تا بیماریهای پزشکی و مشکلات اجتماعی مانند تیراندازی در مدارس. بااینحال بسیار حیاتی است که بدانید علم داده به شما نمیگوید که چگونه این مشکلات را حل کنید! بله، تیراندازی در مدارس یک لکه ننگ در محیط آموزشی آمریکا است و میتوان با بهکارگیری علم داده و یادگیری عمیق مدلهای مفصلی ساخت که خلاصهای از وقایع مربوط به تیراندازی در مدارس را به شما بدهد.
اما مشکل این نیست. مسئله واقعی، مداخله است! چگونه میتوان تیراندازی در مدارس را کاهش داد یا از بین برد؟ همانطور که پریل استدلال میکند، مداخلات ربطی به مسائل آماری ندارد و توزیع احتمالات بهخودیخود ، نسخهای برای تغییر ندارد.
برخی از مداخلات ارائهشده برای کاهش خشونت اسلحه شامل ممنوعیت اسلحه، بررسی دقیق سابقه اران احتمالی اسلحه، تجهیز معلمان به اسلحه (به نظر میرسد رئیسجمهور آمریکا موافق این راهکار است) و حتی لغو قانون آزادی اسلحه است. تمام اینها بهنوعی مداخله محسوب میشود. آنها خشونتهای مرتبط با اسلحه را بهنوعی کاهش میدهند. کدامیک مؤثرترین مداخله است؟ سؤال واقعی این است، و متأسفانه علم داده پاسخی برای این سؤال نخواهد داشت، زیرا به مدلهای علی (مدل لایه ۲ معماری شناختی پریل) نیاز دارد.
درک مداخلات کلید اصلی برای کاهش خشونت مرتبط با اسلحه و بسیاری از مشکلات دیگر جامعه است.
تغییرات اقلیمی را در نظر بگیرید. ما میتوانیم انبوهی از دادههای مربوط به گرمایش جهانی را جمعآوری کنیم و از یادگیری عمیق برای ساخت مدلهای پیشرفته انتشار دیاکسید کربن استفاده کنیم. اما بازهم سؤال مهمی که در اینجا وجود دارد این است که چه مداخلهای لازم است؟ آیا باید اتومبیلها و کامیونهای بنزینی را بهطور کامل از رده خارج کنیم؟ این موضوع چقدر برای ما زمان میخرد؟ پیشبینیهای ترسناکی وجود دارد که نشان میدهند نقشه ایالاتمتحده در طی ۱۰،۰۰۰ سال چگونه به نظر میرسد. بنابراین، عواقب ناشی از گرم شدن کره زمین کاملاً نگرانکننده است و درنهایت بقای ما بهعنوان یکگونه را تهدید میکند.
پس سؤال این است که در این مورد چه باید کرد؟ چه مداخلاتی بیشترین تأثیر را خواهند داشت و چگونه باید آنها را اجرا کرد. توجه داشته باشید این علم داده نیست. وقتی مداخله میکنید ( فرض کنید شهری مانند پکن یا لندن تصمیم دارد مقررات جدید ترافیکی را وضع کند و در یک روز به پلاکهای زوج اجازه تردد در شهر دهد و روز دیگر پلاک فرد) توزیع دادههای اساسی را ازآنچه در حال حاضر است تغییر میدهید، و بنابراین ، تمام دادههای قبلی شما بیفایده میشود.
بنابراین، مدلهای علت و معلولی برای درک طیف وسیعی از چالشهای اجتماعی که در قرن بیست و یکم رواج پیداکردهاند، کاملاً موردنیاز است. اگر هوش مصنوعی میخواهد در بهبود جامعه مشارکت داشته باشد بستگی به این دارد که محققان این حوزه محدودیت ذاتی پارادایم فعلی که یادگیری ماشین آماری است را درک کنند و این موضوع را تبیین کنند که ما بهعنوان یک جامعه چرا باید به سمت پارادایمهای قویتر حرکت کنیم. حیات ما بهعنوان یکگونه ممکن است به توسعه پارادایم بعدی هوش مصنوعی که قدرتمندتر از علم داده است بستگی داشته باشد.
همچنین، تنها کاری که کماکان به دلیل یادگیری خودکار بدون نظارت موفق به انجام آن نشدهایم، تنوع کارکردهایی است که هوش مصنوعی میتواند انجام دهد. یادگیری ماشین همچنین در جایگزین کردن کارهایی همچون درک معانی از متن و بازیهای ویدیویی پیچیده سهبعدی موفق نشده است. ایجاد یک هوش مصنوعی که انسانها را در بازی شطرنج و بازیهای ویدئویی شکست بدهد یا حتی برای تشخیص بیماران و انجام عملهای جراحی کاملاً ممکن است. اما در حال حاضر، آنها فقط برای یک نوع استفاده تعریفشدهاند. آنها هنوز قادر به یادگیری چیزهای کاملاً ناشناخته و تولید آن نیستند و حتی نمیتوانند آن را بهبود ببخشند. در حال حاضر ما تقریباً در این نقطه قرار داریم.
شما در مورد محدودیت های یادگیری ماشین چه فکر می کنید؟
منبع: hooshio.com
درباره این سایت