Nobka_Qualcomm-claims-its-on-device.jpg

سیستم هوش مصنوعی آفلاین کوالکام صدا را با دقت ۹۵ درصد تشخیص می‌دهد

اخیراً Chris Lott ، یکی از محققان هوش مصنوعی Qualcomm ، در جلسه آموزشی جامع بوستون ، توضیحی اجمالی در مورد عملکرد تیم خود در یک برنامه جدید تشخیص صدا ارائه داد.

این سیستم که به‌صورت محلی بر روی یک گوشی هوشمند یا دستگاه‌های قابل حمل کار می‌کند ، شامل دو نوع شبکه عصبی می‌باشد : یک شبکه عصبی مجازی (RNN) که از قسمت‌های داخلی یا حافظه برای پردازش ورودی‌ها استفاده می‌کند و دیگری یک شبکه‌ی عصبی پیچیده که الگوی ارتباطی بین نورون‌ها را در مغز انسان تقلید می‌کند. به گفته‌ی Lott این سیستم به‌طور متوسط 95% توانایی تشخیص کلمات و عبارات را دارد و از الگوهای رفتاری شما پیروی می‌کند.

Lott توضیح داد که اکثر سیستم‌های تشخیص صدای امروز بیشتر از رایانش ابری برای پردازش داده‌های خود استفاده می‌کنند. میکروفن‌ها و تراشه‌ها در گوشی‌ها ، اسپیکرهای هوشمند خانگی مثل Google Home و Amazon’s Echo و دستیارهای صوتی مثل Microsoft’s Cortana، سیستم را برای شنیدن یک رشته دستورات صوتی توانمند می‌سازد اما دستورات را تجزیه و تحلیل نمی‌کنند. آن‌ها کارهای تجزیه و تحلیل را به سرورهای قدرتمند از راه دور منتقل می‌کنند تا الگوریتم‌های پیچیده‌ی یادگیری ماشین را اجرا کنند.

برای بعضی از کاربران ، در اختیار گذاشتن داده‌های صوتی نگرانی‌هایی را به همراه دارد. دستیارهای صوتی Amazon’s Alexa و Google Assistant یک قطعه‌ی کوچک صوتی را قبل از ارسال آن برای تحلیل ، ضبط می‌کنند و تا زمانی که کاربر تصمیم به حذف آن نماید، آن را نگه می‌دارند. در این راستا هر دو شرکت اظهار داشتند که از ضبط صدا برای ارتقا خدمات خود استفاده می‌کنند.

اما در بعضی موارد ، این صداهای ضبط شده خصوصی باقی نمی‌مانند. به طور مثال در سال 2016 در آریزونا ، کارآگاهان برای تحقیق در قتل ، به دنبال دسترسی داده‌های صوتی از اسپیکرهای اکو آمازون بودند که در نهایت با اجازه متهم به اشتراک گذاشته شد.

Lott اظهار داشت: علاوه بر حفظ حریم خصوصی ، پردازش صوتی در دستگاه مزایایی دارد . از آنجا که لازم نیست داده‌ها را برای پردازش به رایانش ابری ارسال نمایند بنابراین سیستم فوراً به فرمان‌ها پاسخ می‌دهد و به دلیل اینکه نیازی به اتصال به اینترنت ندارد قابل اعتماد است.

در سال 2016 گوگل یک سیستم شناسایی صدا ایجاد کرد که در آن زمان 7 برابر سریعتر از سیستم آنلاین خود بود. این مدل که تقریباً 2000 ساعت تحت آموزش داده‌های صوتی بود،حجم آن 20.3 مگابایت بوده و 86.5 درصد دقت در اجرا بر روی تلفن هوشمند داشت.

لازم به ذکر است که تشخیص صدا در دستگاه با محدودیت‌هایی نیز همراه است. الگوریتم‌های طراحی شده برای عملکرد آفلاین نمی‌توانند به جستجوی پاسخ سؤالات در اینترنت بپردازند و پیشرفت‌هایی که ممکن است در سیستم‌های مبتنی بر رایانش ابری با مجموعه داده‌های متنوع‌تر انجام شوند را از دست بدهند.

با این ‌حال Lott اعتقاد دارد که راهکارهای Qualcomm این محدودیت‌ها را رفع خواهد کرد. او می‌گوید : " بسیاری از پردازش‌ها در رایانش ابری انجام می‌شوند اما ما فکر می‌کنیم این فرایند باید مستقیماً روی دستگاه‌ها اجرا شوند."