«میدجرنی» یک برنامه هوش مصنوعی مولد تصویر است که رقبای بسیاری دارد. اگر تمایل دارید با نحوه کارکرد این برنامه، ویژگیها و هزینه آن آشنا شوید، این گزارش را مطالعه کنید.
و به نقل از اندروید اتوریتی، به لطف برنامههای هوش مصنوعی مولد تصویر مانند «میدجرنی»(Midjourney) در حال حاضر میتوانید تصویری را در عرض چند دقیقه مستقیما از تصورات خود تداعی کنید. مهم نیست که مهارتهای هنری ندارید یا در زندگی خود حتی یک قلممو به دست نگرفتهاید زیرا هوش مصنوعی میتواند هنر دیجیتال را در عرض چند ثانیه ایجاد کند. تنها چیزی که نیاز دارید، کمی متن است تا تصویر نقشبسته در ذهن شما را توصیف کند.
این گزارش به نکاتی میپردازد که باید در مورد هوش مصنوعی میدجرنی بدانید.
میدجرنی چیست؟
میدجرنی یک نمونه از هوش مصنوعی مولد است که میتواند گفتههای زبان طبیعی را به تصاویر تبدیل کند. این تنها یکی از انواع متعدد مولدهای تصویر مبتنی بر یادگیری ماشینی است که اخیرا ظهور کردهاند. به رغم وجود داشتن مدلهای یادگیری ماشینی مانند «دال-ئی»(DALL-E) شرکت «OpenAI» و «استیبل دیفیوژن»(Stable Diffusion) متعلق به «استبیلیتی ایآی»(Stability AI)، میدجرنی به یکی از بزرگترین نامهای هوش مصنوعی تبدیل شده است.
با میدجرنی میتوانید تصاویر با کیفیت بالا را از اعلانهای ساده مبتنی بر متن ایجاد کنید. برای استفاده کردن از میدجرنی، به سختافزار یا نرمافزار تخصصی نیاز ندارید زیرا این برنامه کاملا از طریق اپلیکیشن چت «دیسکورد»(Discord) کار میکند. تنها نقطه ضعف میدجرنی این است که پیش از آغاز کردن تولید تصاویر باید کمی هزینه بپردازید. این برخلاف روند کاری بسیاری از رقباست که معمولا حداقل چند تصویر را به صورت رایگان ارائه میدهند.
میدجرنی میتواند تصاویر خیرهکنندهای را از یک توضیح متنی ساده ایجاد کند.با وجود این، موانع ورود به میدجرنی بسیار کم هستند و هر کسی میتواند از آن برای تولید تصاویر واقعی در عرض چند دقیقه استفاده کند. بسته به درخواست کاربر، نتایج میتوانند غیرعادی یا خیرهکننده باشند.
در برخی موارد، تصاویر میدجرنی حتی کارشناسان عکاسی و سایر حوزهها را فریب دادهاند. بنابراین، ممکن است تصاویر بسیار قانعکنندهای را که توسط هوش مصنوعی میدجرنی تولید شدهاند، در رسانههای اجتماعی دیده باشید.
نمونههایی از این تصاویر، «پاپ فرانسیس»(Pope Francis) پوشیده در کاپشن پفدار یا «دونالد ترامپ»(Donald Trump) دستگیرشده پیش از رویداد واقعی هستند. برخی از این تصاویر، صحنههای خلاقانهای مانند صحنههای فیلم «جنگ ستارگان»(Star Wars) را به نمایش میگذارند.
برخلاف دال-ئی که توسط شرکت OpenAI خالق چتبات «ChatGPT» پشتیبانی میشود، میدجرنی خود را به عنوان یک پروژه مستقل و با سرمایه خود معرفی میکند. علاوه بر این، میدجرنی تا به امروز هیچ بودجهای را از بیرون دریافت نکرده است. در مقابل، OpenAI بالغ بر ۱۰ میلیارد دلار از شرکت «مایکروسافت»(Microsoft) و تعدادی سرمایهگذار دیگر جمعآوری کرده است. بنابراین، با توجه به ریشههای فروتنانه میدجرنی، نتایج آن کاملا چشمگیر هستند.
میدجرنی چطور کار میکند؟
ما همه چیز را در مورد عملکرد داخلی میدجرنی نمیدانیم زیرا این یک برنامه منبع بسته است و با کد اختصاصی اجرا میشود. با وجود این، ما به اندازه کافی در مورد فناوری زیربنای آن میدانیم تا یک توضیح کلی را ارائه دهیم.
میدجرنی بر دو فناوری نسبتا جدید یادگیری ماشینی، یعنی مدلهای زبانی بزرگ و مدلهای انتشاری متکی است. اگر از چتباتهای هوش مصنوعی مانند ChatGPT استفاده کردهاید، ممکن است با حالت اول آشنا باشید. ابتدا یک مدل زبانی بزرگ به میدجرنی کمک میکند تا معنای کلماتی را که شما در دستورات خود تایپ کردهاید، درک کند. سپس، این به یک گرافیک برداری تبدیل میشود که میتوانید آن را به عنوان یک نسخه عددی از دستور خود تصور کنید. در نهایت، این گرافیک برداری به هدایت کردن فرآیند پیچیده دیگری به نام انتشار کمک میکند.
میدجرنی از یک مدل انتشاری برای تبدیل کردن نویز تصادفی به هنر زیبا استفاده میکند.مدل انتشاری که فقط در حدود یک دهه گذشته رایج شده است، موج ناگهانی تولیدکنندگان تصویر هوش مصنوعی را توضیح میدهد. در یک مدل انتشاری، شما یک رایانه دارید که نویز تصادفی را به تدریج به مجموعه داده آموزشی خود اضافه میکند. با گذشت زمان، رایانه یاد میگیرد که چگونه با معکوس کردن نویز، تصویر اصلی را به دست بیاورد. ایده این است که چنین مدلی با آموزش کافی میتواند یاد بگیرد چگونه تصاویر کاملا جدید را تولید کند.
بنابراین، باید دید که این از منظر یک هوش مصنوعی مولد تصویر چگونه به نظر میرسد. وقتی یک پیام متنی را به برنامه وارد میکنید، کار آن با میدانی از نویز بصری آغاز میشود. میتوانید گام اول را معادل تلویزیون ثابت در نظر بگیرید. تصویر در این مرحله شبیه به چیزی نیست که شما خواستهاید. سپس یک مدل هوش مصنوعی آموزشدیده، از مدل انتشاری پنهان برای کم کردن نویز در مراحل استفاده میکند. در نهایت، تصویری شبیه به اشیاء و ایدهها در دنیای واقعی به دست میآید.
به همین دلیل است که معمولا باید یک یا دو دقیقه منتظر بمانید تا تصویر تولیدشده توسط هوش مصنوعی کامل شود. اگر این فرآیند را زودتر متوقف کنید، یک تصویر پر از نویز را دریافت خواهید کرد که مراحل حذف نویز را به اندازه کافی طی نکرده است.
هزینه میدجرنی چقدر است؟
اگرچه پیشتر شاهد بودیم که چتباتهایی مانند ChatGPT و «بینگ چت»(Bing Chat)، استفاده تقریبا نامحدود را به صورت رایگان ارائه میدهند اما این موضوع در مورد تولیدکنندگان تصویر صدق نمیکند. تقریبا همه آنها محدودیتهایی دارند و میدجرنی حتی یک آزمایش رایگان ارائه نمیدهد. دلیل این است که تولید تصویر به قدرت محاسباتی و به ویژه «واحدهای پردازش گرافیکی»(GPU) زیادی نیاز دارد. علاوه بر این، هر پردازنده گرافیکی دارای حافظه ویدئویی محدودی است که مقدار زیادی از آن برای فرآیند حذف نویز استفاده میشود. بنابراین با در نظر گرفتن این موضوع، جای تعجب نیست که یک هوش مصنوعی مولد تصویر پیشرفته، مقداری هزینه برای کاربر داشته باشد.
میدجرنی حداقل ۱۰ دلار در ماه هزینه دارد اما ارزش بیشتری را در برنامههای سطح بالاتر فراهم میکند.یک راهنمای اختصاصی در مورد سطوح قیمتگذاری و اکانت اشتراک میدجرنی وجود دارد اما کاربران باید ماهانه حداقل ۱۰ دلار به صورت ثابت بپردازند. این مبلغ، ۳.۳ ساعت زمان پردازش گرافیکی را فراهم میکند که برای تقریبا ۲۰۰ تصویر خوب است. گرانترین طرح، ۶۰ ساعت زمان پردازش گرافیکی سریع را با ۱۲۰ دلار در ماه فراهم میکند.
برنامههای پیشرفته میدجرنی، تصاویر نامحدودی را در «حالت آرام»(Relaxed mode) به شما میدهد اما باید تا ۱۰ دقیقه صبر کنید. اگر به بهترین کیفیت نیاز ندارید، توصیه میشود جایگزینهای متعدد میدجرنی را بررسی کنید. تقریبا همه شرکتهای فناوری، از «گوگل» گرفته تا «متا» اکنون دارای مولدهای تصویر رقیب هستند که بسیاری از آنها یک سکه هم هزینه ندارند.
انتهای پیام