این سیستم که بهصورت محلی بر روی یک گوشی هوشمند یا دستگاههای قابل حمل کار میکند ، شامل دو نوع شبکه عصبی میباشد : یک شبکه عصبی مجازی (RNN) که از قسمتهای داخلی یا حافظه برای پردازش ورودیها استفاده میکند و دیگری یک شبکهی عصبی پیچیده که الگوی ارتباطی بین نورونها را در مغز انسان تقلید میکند. به گفتهی Lott این سیستم بهطور متوسط 95% توانایی تشخیص کلمات و عبارات را دارد و از الگوهای رفتاری شما پیروی میکند.
Lott توضیح داد که اکثر سیستمهای تشخیص صدای امروز بیشتر از رایانش ابری برای پردازش دادههای خود استفاده میکنند. میکروفنها و تراشهها در گوشیها ، اسپیکرهای هوشمند خانگی مثل Google Home و Amazon’s Echo و دستیارهای صوتی مثل Microsoft’s Cortana، سیستم را برای شنیدن یک رشته دستورات صوتی توانمند میسازد اما دستورات را تجزیه و تحلیل نمیکنند. آنها کارهای تجزیه و تحلیل را به سرورهای قدرتمند از راه دور منتقل میکنند تا الگوریتمهای پیچیدهی یادگیری ماشین را اجرا کنند.
برای بعضی از کاربران ، در اختیار گذاشتن دادههای صوتی نگرانیهایی را به همراه دارد. دستیارهای صوتی Amazon’s Alexa و Google Assistant یک قطعهی کوچک صوتی را قبل از ارسال آن برای تحلیل ، ضبط میکنند و تا زمانی که کاربر تصمیم به حذف آن نماید، آن را نگه میدارند. در این راستا هر دو شرکت اظهار داشتند که از ضبط صدا برای ارتقا خدمات خود استفاده میکنند.
اما در بعضی موارد ، این صداهای ضبط شده خصوصی باقی نمیمانند. به طور مثال در سال 2016 در آریزونا ، کارآگاهان برای تحقیق در قتل ، به دنبال دسترسی دادههای صوتی از اسپیکرهای اکو آمازون بودند که در نهایت با اجازه متهم به اشتراک گذاشته شد.
Lott اظهار داشت: علاوه بر حفظ حریم خصوصی ، پردازش صوتی در دستگاه مزایایی دارد . از آنجا که لازم نیست دادهها را برای پردازش به رایانش ابری ارسال نمایند بنابراین سیستم فوراً به فرمانها پاسخ میدهد و به دلیل اینکه نیازی به اتصال به اینترنت ندارد قابل اعتماد است.
در سال 2016 گوگل یک سیستم شناسایی صدا ایجاد کرد که در آن زمان 7 برابر سریعتر از سیستم آنلاین خود بود. این مدل که تقریباً 2000 ساعت تحت آموزش دادههای صوتی بود،حجم آن 20.3 مگابایت بوده و 86.5 درصد دقت در اجرا بر روی تلفن هوشمند داشت.
لازم به ذکر است که تشخیص صدا در دستگاه با محدودیتهایی نیز همراه است. الگوریتمهای طراحی شده برای عملکرد آفلاین نمیتوانند به جستجوی پاسخ سؤالات در اینترنت بپردازند و پیشرفتهایی که ممکن است در سیستمهای مبتنی بر رایانش ابری با مجموعه دادههای متنوعتر انجام شوند را از دست بدهند.
با این حال Lott اعتقاد دارد که راهکارهای Qualcomm این محدودیتها را رفع خواهد کرد. او میگوید : " بسیاری از پردازشها در رایانش ابری انجام میشوند اما ما فکر میکنیم این فرایند باید مستقیماً روی دستگاهها اجرا شوند."