Web Analytics Made Easy - Statcounter

مدل هوش مصنوعی مایکروسافت می‌تواند لحن احساسی و نوع بیان هر شخصی را با دقت بسیار بالا شبیه‌سازی کند.

محققان مایکروسافت یک مدل جدید هوش مصنوعیتبدیل متن به گفتار به‌نام VALL-E معرفی کرده‌اند که می‌تواند صدای افراد را با نمونه‌ی صوتی سه‌ثانیه‌ای از صدای آن‌ها، شبیه‌سازی کنند. این مدل پس‌از یادگیری صدای خاص، می‌تواند آن را با هر چیزی که می‌گویید ترکیب کند و این‌کار را به‌نحوی انجام می‌دهد که لحن احساسی گوینده‌ی اصلی حفظ شود.

بیشتر بخوانید: اخباری که در وبسایت منتشر نمی‌شوند!

سازندگان VALL-E حدس می‌زنند این مدل هوش مصنوعی می‌تواند برای برنامه‌های کاربردی تبدیل متن به گفتار با کیفیت بالا یا برنامه‌های ویرایش گفتار که در آن صدای ضبط‌شده‌ی یک شخص می‌تواند ویرایش شود مورد استفاده قرار گیرد. این مدل همچنین می‌تواند با ترکیب سایر مدل‌های هوش مصنوعی مثل GPT-3 برای ایجاد محتوای صوتی استفاده شود.

مایکروسافت VALL-E را «مدل زبان کدک عصبی» می‌نامد و از کدهای کدک صوتی EnCodec که متا آن را در اکتبر ۲۰۲۲ معرفی کرد، استفاده می‌کند. این فناوری اساساً حالت صدای یک شخص را تجزیه‌وتحلیل و اطلاعات به‌دست آمده را به اجزای جداگانه که توکن نامیده می‌شوند تبدیل می‌کند. در مرحله‌ی بعد از داده‌های آموزشی برای مطابقت با آن‌چه درمورد صدای شخص می‌داند بهره می‌برد. مایکروسافت می‌گوید:

VALL-E برای ترکیب گفتار شخصی‌شده نشانه‌های صوتی را از صدای سه‌ثانیه‌ای شخص موردنظر ثبت می‌کند و درنهایت از آن‌ها برای سنتز شکل موج نهایی با رمزگشایی کدک عصبی مربوطه بهره می‌برد.

مایکروسافت قابلیت سنتز گفتار VALL-E را روی کتابخانه‌ی صوتی LibriLight متا آموزش داد. این فرآیند شامل ۶۰ هزار ساعت سخنرانی به زبان انگلیسی از بیش‌از هفت هزار سخنران است که عمدتاً از کتاب‌های صوتی عمومی LibriVox استخراج‌ شده‌اند. برای اینکه VALL-E نتیجه‌ی خوبی ایجاد کند صدای نمونه‌ی سه ثانیه‌ای باید دقیقاً با صدای داده‌های آموزشی مطابقت داشته باشد.

مایکروسافت در وب‌سایت نمونه‌ی VALL-E، ده‌ها نمونه‌ی صوتی از مدل هوش مصنوعی، ارائه‌ داده است. در میان نمونه‌ها، Speaker Prompt صدای سه‌ثانیه‌ای ارائه‌شده به VALL-E است که باید از آن تقلید کند. در این وب‌سایت صدای سه‌ثانیه‌ای نمونه مربوط به همان گوینده است که یک عبارت خاص را برای مقاصد آزمایشی بیان می‌کند. Baseline نمونه‌ای از سنتر است که با روش سنتز متن به‌ گفتار ارائه می‌شود و نمونه‌ی VALL-E خروجی ایجاد شده با هوش مصنوعی را ارائه می‌دهد.

به‌نوشته‌ی ArsTechnica، درحالی‌که از VALL-E برای ایجاد نتایج استفاده می‌شود، محققان فقط نمونه‌ی سه‌ ثانیه‌ای Speaker Prompt و یک رشته متن که می‌خواهند با آن صوت بیان شود را به VALL-E ارائه دادند. در برخی موارد، این دو نمونه بسیار نزدیک هستند. به‌نظر می‌رسد برخی از نتایج این هوش مصنوعی با رایانه ایجاد شده‌اند اما برخی دیگر به‌طور بالقوه می‌توانند با گفتار انسان اشتباه گرفته شوند که درواقع این مورد، هدف اصلی مدل هوش مصنوعی است.

VALL-E علاوه‌بر حفظ لحن صوتی و احساسی گوینده، می‌تواند از محیط آکوستیک نمونه‌ی صوتی نیز تقلید کند. به‌عنوان مثال، اگر نمونه از یک تماس تلفنی گرفته شده باشد، خروجی صدا ویژگی‌های صوتی و فرکانس یک تماس تلفنی را در خروجی سنتزشده‌ی خود شبیه‌سازی می‌کند و نمونه‌های مایکروسافت نشان می‌دهد VALL-E قادر است با تغییر دامنه‌ی تصادفی مورداستفاده در فرآیند تولید صدا، تغییراتی در تُن آن ایجاد کند.

شاید مایکروسافت به‌دلیل توانایی VALL-E در تحریک احتمالی شیطنت و فریب، کد آن را برای آزمایش به دیگران ارائه نداده است. بنابراین درحال‌حاضر نمی‌توان قابلیت‌های این هوش مصنوعی را آزمایش کرد. به‌نظر می‌رسد محققان از آسیب اجتماعی بالقوه‌ای که این فناوری می‌تواند به‌همراه داشته باشد آگاه هستند. در بخشی از نتیجه‌گیری این مقاله آمده است:

از آنجا که گفتار ایجاد شده با VALL-E می‌تواند هویت گوینده را حفظ کند، شاید خطرات بالقوه‌ای در استفاده‌ی نادرست از مدل وجود داشته باشد که از جمله می‌توان به جعل هویت صدا یا جعل هویت یک گوینده‌ی خاص اشاره کرد. برای کاهش چینین خطراتی می‌توان یک مدل تشخیص برای تمایز ایجاد کرد. بدین ترتیب مشخص می‌شود آیا کلید صوتی با VALL-E ایجاد شده است یا خیر. ما همچنین اصول هوش مصنوعی مایکروسافت را در توسعه‌ی بیشتر مدل‌های به‌کار خواهیم برد.

منبع: ایران اکونومیست

کلیدواژه: مدل هوش مصنوعی ی سه ثانیه ای شبیه سازی ایجاد شده نمونه ی ی صوتی

درخواست حذف خبر:

«خبربان» یک خبرخوان هوشمند و خودکار است و این خبر را به‌طور اتوماتیک از وبسایت iraneconomist.com دریافت کرده‌است، لذا منبع این خبر، وبسایت «ایران اکونومیست» بوده و سایت «خبربان» مسئولیتی در قبال محتوای آن ندارد. چنانچه درخواست حذف این خبر را دارید، کد ۳۶۸۴۰۰۳۲ را به همراه موضوع به شماره ۱۰۰۰۱۵۷۰ پیامک فرمایید. لطفاً در صورتی‌که در مورد این خبر، نظر یا سئوالی دارید، با منبع خبر (اینجا) ارتباط برقرار نمایید.

با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت «خبربان» مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویر است، مسئولیت نقض حقوق تصریح شده مولفان در قانون فوق از قبیل تکثیر، اجرا و توزیع و یا هر گونه محتوی خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.

خبر بعدی:

مدل‌سازی اطلاعات ساختمان (BIM) گامی به سوی یکپارچگی در معماری

به گزارش خبرنگار خبرگزاری علم و فناوری آنا، به همت انجمن علمی معماری و باشگاه پژوهشگران جوان و نخبگان دانشگاه آزاد اسلامی واحد لارستان، همایش «آینده معماری، هوش مصنوعی در معماری + BIM» با حضور رئیس و اعضای هیئت رئیسه، استادان و دانشجویان دانشگاه آزاد اسلامی واحد لارستان در سالن فرهیختگان این واحد دانشگاهی برگزار شد.

استاد گروه معماری دانشگاه آزاد اسلامی واحد لارستان در این نشست با تشریح «نقش هوش مصنوعی در معماری آینده» گفت: هوش مصنوعی به‌عنوان ابزاری نوآورانه، می‌تواند به معماران در زمینه بهبود فرآیند طراحی با خودکارسازی وظایف تکراری و تجزیه و تحلیل داده‌ها، به تسریع و ارتقای دقت فرآیند طراحی کمک کند.

محمد امان‌زادگان متذکر شد: هوش مصنوعی با شبیه‌سازی عملکرد ساختمان در شرایط مختلف و ارائه راه‌حل‌های جایگزین، به طراحی ساختمان‌هایی هوشمندتر، پایدارتر و سازگارتر با محیط زیست منجر می‌شود.

وی، بهینه‌سازی مصرف انرژی را یکی دیگر از کاربرد‌های هوش مصنوعی در معماری یاد کرد و افزود: هوش مصنوعی با تجزیه و تحلیل الگو‌های مصرف انرژی و ارائه راه‌حل‌های مناسب، به کاهش مصرف انرژی در ساختمان‌ها کمک می‌کند.

استاد گروه معماری دانشگاه آزاد اسلامی واحد لارستان در بخش دیگری از سخنان خود به معرفی مدل‌سازی اطلاعات ساختمان (BIM) به عنوان گامی به سوی یکپارچگی در معماری پرداخت و توضیح داد: BIM با ایجاد مدل‌های سه‌بعدی دقیق از ساختمان، مدیریت اطلاعات مربوط به مصالح، تجهیزات و سیستم‌های ساختمانی، شبیه‌سازی عملکرد ساختمان در شرایط مختلف، هماهنگی بین بخش‌های مختلف پروژه و کاهش دوباره کاری و خطا، تحولی شگرف در صنعت معماری رقم خواهد زد.

این استاد دانشگاه، ترکیب هوش مصنوعی و BIM را طلوع دورانی نو در دنیای معماری را نوید نامید و ادامه داد: با اتکا به این فناوری‌های نوین، می‌توان شاهد طراحی ساختمان‌هایی ایمن‌تر، پایدارتر، سازگارتر با محیط زیست، با مصرف بهینه‌تر منابع، فضایی دلنشین‌تر و فرآیند ساخت‌وسازی سریع‌تر و کم‌هزینه‌تر بود.

وی به کاربرد‌های مختلف AR و VR در معماری اشاره و تبیین کرد: واقعیت مجازی و افزوده، دو فناوری نوظهور هستند که انقلابی در نحوه تجربه و درک معماری ایجاد می‌کنند که با استفاده از VR، معماران و طراحان می‌توانند مدل‌های سه‌بُعدی کاملاً واقعی از ساختمان‌ها را ایجاد کنند که به مشتریان امکان می‌دهد قبل از ساخت، در داخل و خارج ساختمان قدم بزنند و با آن تعامل داشته باشند و AR نیز به کاربران اجازه می‌دهد تا اطلاعات دیجیتال را بر روی دنیای واقعی خودروی خود اعمال کنند و می‌تواند برای تجسم چگونگی قرارگیری مبلمان یا عناصر طراحی در یک فضا بسیار مفید باشد.

استاد گروه معماری دانشگاه آزاد اسلامی واحد لارستان به نقش هوش مصنوعی در BIM، کاربرد هوش مصنوعی در زمینه‌های مختلف معماری و چالش‌ها و چشم‌انداز‌های استفاده از هوش مصنوعی در معماری اشاره کرد.

سعید پرهوده مدیر گروه معماری دانشگاه آزاد اسلامی واحد لارستان ضمن ارائه گزارشی از فعالیت‌های این گروه آموزشی به تشریح عملکرد علمی و عملی استادان و دانشجویان این گروه پرداخت.

در این مراسم با اهدای لوح سپاس توسط مهدی زارع رئیس و اعضای هیئت رئیسه دانشگاه آزاد اسلامی واحد لارستان به استادان گروه معماری و دانشجویان برتر این رشته از آنان تجلیل شد.

انتهای پیام/

دیگر خبرها

  • سیستم‌های صوتی XTRIM VX | تجربه حضور در یک کنسرت اختصاصی
  • تازه‌ترین شواهد از وجود سیاره X در لبه تاریک منظومه شمسی
  • رشته‌ها و سطوح برگزاری المپیاد ورزش‌های فناورانه دانشجویی اعلام شد
  • رشته‌ها و سطوح المپیاد ورزش‌های فناورانه دانشجویی اعلام شد
  • ویدئویی شگفت‌انگیز از صدای جوجه تیغی که شبیه گریه نوزاد است
  • یکپارچه سازی هوش مصنوعی اوپن ای آی و گوگل در آیفون‌های جدید
  • کدام تیم قهرمان یورو 2024 می شود؟ نتیجه 10 هزار شبیه سازی با کامپیوتر!
  • مدل‌سازی اطلاعات ساختمان (BIM) گامی به سوی یکپارچگی در معماری
  • بومی سازی تجهیزات الکترونیکی در صنعت دریا
  • بومی سازی تجهیزات الکترونیکی کاربردی در صنعت دریا