گوگل با معرفی ابزاری قدرتمند برای تولید ویدیو با هوش مصنوعی رقبای خود در این زمینه را به چالش جدی کشیده است.
در حالی که OpenAI با پروژهی Sora حسابی سر و صدا به پا کرده، گوگل هم بیکار ننشسته و از جدیدترین دستاورد خود با نام Veo 2 رونمایی کرده که مدلی قدرتمند برای تولید ویدیو با هوش مصنوعی است. بر اساس بازخوردهای اولیه، مدل جدید عملکردی فراتر از Sora ارائه میدهد.
مدل قدرتمند Sora اوایل ماه عرضه شده اما Veo 2 همچنان در مرحله پیشنمایش اولیه قرار دارد. با این حال بر اساس مقایسههایی که کاربران از عملکرد این دو مدل منتشر کردهاند، Veo 2 در پاسخ به دستورات یکسان کاملا دست بالا را دارد.
«بیلاوال سیدو»، از میزبانهای TED و یکی از کاربران اولیه این ابزار مقایسهای جذاب میان دو مدل Veo 2 و Sora در پلتفرم X به اشتراک گذاشت. او پرامپتی یکسان با موضوع «خوردن سوپ به سبک قدیمی اروپایی» به هر دو مدل داده است. Sora در پاسخ ویدیویی عجیب و بیمعنی تولید کرده که در آن سر سوژه در کاسه سوپ فرو رفته است:
از سوی دیگر Veo 2 ویدیوهای بسیار واقعی و چشمنواز تولید کرده که انگار توسط تیمی حرفهای تولید شده است.
در نمونهای دیگر سیدو درخواست «مارکوس براونلی» یوتیوبر معروف را برای هر دو مدل امتحان کرده: «نمای جانبی از یک کرگدن که در یک دشت خشک با علفهای کوتاه قدم میزند».
در این مورد هر دو مدل از نظر ظاهری عملکرد خوبی دارند اما فیزیک حرکات کرگدن در ویدیو Veo 2 بسیار واقعیتر و دقیقتر درآمده است.
«روبن هاسید»، بنیانگذار EasyGen نیز با تولید چند ویدیو مختلف از برش سبزیجات، جستوخیز یک سگ و حرکات خودرو برتری گوگل را تایید کرده است. برای مثال در ویدیو Sora حین برش سبزیجات چاقو از دست سوژه رد میشود اما هوش مصنوعی گوگل اینکار را کاملا طبیعی انجام میدهد.
هرچند اینها نمونههای گلچینشده هستند اما از نظر اکثر علاقهمندان به هوش مصنوعی Veo 2 در دقت و واقعگرایی عملکرد بهتری دارد.
دلیل اصلی برتری Veo 2 نسبت به Sora، استفاده از دادههای بیپایان و متنوع یوتیوب است. پلتفرمی که تحت مالکیت گوگل قرار دارد و نقشی کلیدی در آموزش مدلهای هوش مصنوعی این شرکت ایفا کرده است.
گوگل آشکارا اعلام کرده است که از دادههای یوتیوب برای آموزش مدلهای هوش مصنوعی خود استفاده میکند، اما به دیگران اجازه نمیدهد از این دادهها استفاده کنند. پیش از این نیویورک تایمز گزارش داده بود که OpenAI نیز برای آموزش مدلهای خود از برخی دادههای یوتیوب استفاده کرده است. «نیل موهان»، مدیرعامل یوتیوب در واکنش به این گزارش اعلام کرد که این کار OpenAI نقض قوانین گوگل است.
شرکت OpenAI سری جدید هوش مصنوعی خود را معرفی کرد که از توانایی استدلال برای حل مسائل پیچیده بهره برده و نتایجی نزدیک به هوش مصنوعی عمومی (AGI) ارائه میکند.
این خانواده هوش مصنوعی که O3 نام دارد، شامل دو مدل O3 و O3 مینی است که دومی برای انجام سریع برخی وظایف خاص طراحی شده است.
به گفته «سم آلتمن»، مدیرعامل OpenAI این مدلها آغازگر عصر جدیدی در توسعه هوش مصنوعی هستند و به لطف «استدلال پیشرفته» وظایف بسیار پیچیدهتری را انجام میدهند.
مدل o3 با مهارت استدلال چندمرحلهای، درست مانند یک انسان متفکر هر مسالهای را با دقت و ظرافت از جوانب مختلف بررسی میکند. این مدل برخلاف هوش مصنوعی محدود فعلی، از روش یادگیری تقویتی بهره میبرد؛ به این معنا که قبل از ارائه هر پاسخ مسئله را به بخشهای کوچکتر تقسیم کرده و به تحلیل دقیق آن میپردازد.
یکی از قابلیتهای کلیدی O3 امکان تنظیم سرعت پاسخدهی است. کاربران میتوانند بسته به نیاز خود، بین حالتهای سریع برای وظایف ساده یا حالت دقیق برای مسائل پیچیدهتر یکی را انتخاب کنند.
البته این دقت بالا به معنای زمان پردازش طولانیتر است. در برخی موارد ارائه پاسخ توسط O3 ممکن است چند دقیقه زمان ببرد. با این حال این تاخیر اندک بهویژه در حوزههایی مانند ریاضیات و علوم پیچیده، به ارائه نتایج بسیار دقیقتر منجر میشود.
هوش مصنوعی o3 در مقایسه با نسخه قبلی یعنی o1، در آزمونهای کدنویسی پیشرفته، حل مسائل علمی پیچیده و حتی آزمون منحصربهفردی مانند ARC-AGI عملکرد خیره کنندهای داشته است.
این مدل در آزمون کدنویسی SWE-Bench امتیاز ۷۱ درصد را کسب کرده در حالی که نمره مدل قبلی از ۴۸.۹ درصد فراتر نرفته بود. مدل جدید در یکی از دشوارترین آزمونهای ریاضی به نام EpochAI Frontier Math هم توانسته به امتیاز ۲۵.۲ درصد دست یابد، در حالی که سایر مدلهای هوش مصنوعی بهندرت از مرز ۲ درصد عبور کردهاند.
آنچه که بیشتر در مورد این هوش مصنوعی خبرساز شده موفقیت آن در آزمون ARC-AGI است. در این آزمون مدلها باید با مسائلی روبهرو شوند که هوش مصنوعی همواره در آنها چالش داشته چون نیاز به استدلال مستقیم دارند. مدل O3 در این آزمون سخت با عملکردی بسیار بهتر از رقبای خود امتیاز چشمگیر ۸۷.۵ را کسب کرده است.
در حال حاضر مدلهای o3 و o3 مینی تنها برای محققان و از طریق برنامه آزمایش امنیت OpenAI در دسترس قرار دارند. طبق اعلام شرکت نسخه مینی تا پایان ژانویه ۲۰۲۵ عرضه شده و نسخه کامل o3 نیز پس از تکمیل دوره آزمایشی منتشر خواهد شد.
یونس مرادی