Spaces:
Sleeping
Sleeping
File size: 27,081 Bytes
d48d4f3 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 |
به نام خدا دوستان عزیز ارجمند عرض سلام و ادب و احترام وقت همگی بخیر شادی خیلی ممنون بابت حضورتون که امروز جلسه آخر جلسه آخر حضوری مونه و میخویم مبحث به کارگیری موجوداتی که عمری کمتر از یک سال و نیم دارند و توی حوزه رباتیک اجتماعی یا کلاً هوش مصنوعی ببینیم و در حد توان هم سعی میکنم اینا رو ارائه بدم یه مقدار سرعت میگیرم بیشتر فقط برای اینکه شما بشنوید همچین چیزهایی وجود داره و ممکنه به جزئیاتش ورود نکنیم به دو دلیل یکی اینکه وقتش نداشته باشیم یکی اینکه تسلط کافی رو من ندارم یعنی اینکه خود منم در واقع تازه با بعضی از اینا اسماً توانم خدمتتون ارائه امروزها میخوایم صحبت کنیم که اصطلاح مدل زن که با ویژن لنگویج الا شروع میکنیم حالت تاریخی داره ولی بعدش مراجعهین که واقعا از استفاده میکنیم که فقط من باید برم یه ویدیو رو در واقع با فلش جابجا کنم حد فاصله استراحته خدمتتون نشون میدم جلسه امسال تعریف بشه یه همچین چیزایی میخوایم انجام بدیم ولی اینکه چقدر خوب در بیاد خودمونم الان نمیدونیم باید بریم مطالعه میکنیم که با چشم بازتری واردش بشیم ولی چیز جذابی برای اینکه ایجنت های رباتیکی داشته باشیم که از مالتی مدال در واقع ورودی ها استفاده بکنند و خروجی های از این جنس داشته باشند و از استفادهتی یعنی چی زمانی که ورودی خروجی یا هر دوشون از جنس های متفاوتی باشند میگن شما تو مطالعات مالتی قرار دارید مثلا فرض کنید ورودی تو تصویر باشد عکس میدادیم میگفتیم زیرش توضیح بنویسید یا عکس بدیم عکس تولید کن یا اینکه عکس و نوشته بدیم یه سوال ازش بپرسیم در عکس زیر چند تا تخم مرغ عکس ورودی یه نوشته ورودیه خروجی باید یه عدد از جنس تکست بده اینا همه از جنس چیاند مطالعات مالتی مدل حالتهای مختلفی برای مالتی مدل ها دیده شده اون چیزی که ما امروز میخوایم در موردش بحث کنیم تککسچوالی مادل یعنی اینکه حتماً توی ورودی از نوشتار استفاده میشه به اون چیزم مدل مدل حالا الم من حتما بخش زبانی داره ولی حالت های دیگه هم دیدن که ما الان بحثی روش نمیکنیم و هر کدوم میخوید میتونید بخونید انواع شبکه های که توسعه پیدا کرده از گذشته تا به امروز میتونید روش مطالعه بفرمایید خب خدمتتون عارضم که ما اجازه بدید چند تا درس بگیریم از اتفاقاتی که تو حوزه هوش مصنوعی افتاده سال ۲۰۱۲ به اینور که الکس نت اومد به نظر میرسه که ویژن یه دفعه رشد کرد ۲۰۱۵ که رسیدن با در واقع رشد تولد و بعدش تقویت اونا ویژن به یه نقطه خیلی خفنی رسید به نقطه هایی که لرنینگ میتونست تو حوزه مثلا فراتر از انسان عمل کنه ولی اون زمانهایی که هنوز بین ویژن صوت و تکست خیلی اصطلاحا اتحاده به وجود نیومده فکر میکردن فقط دارن برای حقه خیلی ساده که سیگنال صوتی و اسپکتروگرم ازش بگیرید و به سود و عکس تبدیلش کنید یه سود تبدیلش کنید فکر شما دیگه بقیه از تکنیک های چی برید جلو برید جلو حالا یه اتفاق دیگه که افتاد و باز دوباره رفت جلوتر حوزه ان پی زد جلوتر و بقیه حالا انجام بدن بعد در آیندهاش یه عده اومدن خب اینا رو زدن تنگ هم گفتن که ما برای چی هر مدل زبانی یه کار فقط بتونه انجام بده یه مدل خوب بیاریم بالا که ده تا کارت با هم بتونه انجام بده بعد تازه داستانی که یه سری اتفاقاتی مثل ایمرجنت رخ میداد تو جلسه گفتیم وقتی تعداد شبکه های تو مدل ظاهر میشد که قبلا با همون روش ظاهر نشده بود و فقط حجم زیاد دادگان و ترینینگ زیاد اونو به وجود آورده بود و خودشون هم خیلی دلیلش نمیدونستند و این داستان یونیفاید کردن یکپارچه کردن این ماجراها بود که منجر به تولید مثلا شبکه های مثل جیpt شد و در نهایت هم رفتن سمت اینکه یه جنرال پرپسستنت تولید کنند که حالا ابعاد مختلف مطرح شد که وایسا مثلاً ما سعی کن به چه میدونم یه سری چیزا رسیدیم یه سری در واقع شبکههایی از قدیم رسیدیم مثل رزنت و اینا که خوبن چه جوری میشه از ایدههایی که توی مسیر رشد ان ال پی رخ داد ما هم استفاده کنیم و ویژن اون قوی کنیم مثلا فرض کنید که همونطور که تسک های متنوعی اند میتونه باشه میتونه ترنسشن باشه میتونه نمیدونم مثبت یا منفی فلان موبایل خب اومدن تو شبکه های یونیفاید اومدن چیکار کردن کاری که همه اینا رو با هم انجام بده دیگه یعنی یه شبکه باشه که هر کدام میپرسین جوابشو بده خب به این فکر کردم که شاید توژن هم بتونیم همین کار کنیم یعنی شبکه بیاریم که نه فقط کلاسسیفیکیشن بکنه کارهای دیگه هم بکنه کارهای ویژ ها چی اند کلاسیفیکیشن که دیگه عصر الاغ یکیش از حضور شما که خدمتتون عارضم میتونست چیز باشه در حد پیکسل بگه که این مثلاً تو این عکسه اینجا متعلق به گربه بوده اینجا متعلق به کوه بوده اینجا متعلق به چمن بوده خب و انواع تسکهای دیگهای که میشه تو حوزه چیز تعریف کرد مثلاً عرض به حضور شما که ویژوال کو که بهتون گفتم عکس بهش بدید یه سوال ازش بپرسید ایمیج کپشنی که عکس نوشته بشه تسک های در واقع یا ویژ یا دستگاه مالتی مدال باشه و یه عده داشتن به این فکر میکردن که چجوری از ایده که تحول الل ما داده رخ میده استفاده کنیم برای ویژش اینو بیاریم بالا و حالا سبب شد که مثلاً حدود ۲۰۲۱ شبکه به نام کلیپ بیاد بالا که اساس کارش ایده میگرفت از مدل های زبانی ولی توش نبود به اون معنا که از جی پیt یا لاما از اینجا داستان و اون چیزایی که تا به امروز ادامه پیدا کنه و به یه نقطه های جذابی برسه که آخر ماجرا رو اول بگم این که شما تا الان تو حوزههای کاری خودتون تو حوزه کار کردن با ادوات مکانیکی ربات ها همه چی از جنس کد ورودی میدادید واقعا به این نقطه برسید که کلام بگید مثل آدم و اون همه اون کارا رو براتون انجام بده دقیقا کاری که حالا علی میخواد بکنه پزشک اینه که به ربات بگه برو صابون برام بیار همین یه جمله در همین حد بگید خدا نگهدار ربات دیگه باید هزار کار بکنه اینجا باید اولاً متوجه بشه چی گفت برای خودش ترجمه کنه مفهوم بفهمه باید بفهمه که باید بره سمت صابون بعد صابون کجاها میتونه باشه سرویس بهداشتی تو آشپزخونه آشپزخونه کجاست یا چی میشه که من بدونم اینجا آشپزخونه است و و کوروش به دیوار میخواد کاری کنید شما که ایجنتا همزمان با شما باشد تا الان یه چیزی انجام خانمی داره توی فیلم تو درس چیزش همین مباحث ادونسش یه جایی داره دوستی داره فرض کنید اسمش الکسه خب این الکس مثلا ربات تیون میکنه که از اینجا بره اونجا دوباره برش میگردونه دوباره بره فلان جا دیگه میگیره میگه بچه ها نگاه کنید الکس داره بیشتر از ربات کار میکنه خب در حالی که ما هدفمون اینه که الکس برو اینجا برو اونجا فلان فلان و دادهها رو بگیره و بندازه توی مدلی که این کار بکنه درسته این رویای ماست که دارم تلاش میکنم بهش نزدیک میشن الان مدل های عرض به حضور شما آخری که گوگل هم داره ارائه با نامهای آخر اومده جلو واقعا دارم این حوزه رو میدرن و گوگل کرده که تو حوزه رباتیک یک موجود بیرقیبی بشه که بتونه خیلی از تسکها رو با کمک ایدهها همینه اجازه بدید بهش برسیم که چه حقهای میتونیم بزنیم خب چه درس های به نظرتون ما گرفتیم و رویه فکری آدما از ۲۰۲۱ به این و این زیر ۳۰ سال اخیر چی بوده برای اینکه بتونن مالتی مدل ها رو بیارن بالا خب و دیگه آخریش که مثلا بلیط دو بوده مثلا ببینید که حالا ظاهرش فقط شاید تو عکس باشه نشونتون بدم که چیکار میکنه سعی میکنه یه حقه ترکیبی بزنه و اینا ولی هنوز اندازهای که فلامینگو مثلاً اینا دارن دیگه نیست خب خیلی خفن شدن خب بچه ها متناسب مالتی مدل های زبانی فقط نکست توکن بودن دیگه شما تکست ورودی میدادید از جنس تکست خروجی عکس نمیگرفت دیگه فقط نوشت شما و اینجوری بود که میرفت از تی پی تی استفاده اولین چیزی که میخوایم در موردش صحبت کنیم اینه که ما سیر تاریخی دیدیم که چجوری از شبکه ترانس استفاده شد قوی بشن همین مسیر بریم جلو و ویژ لنگویج الا یا ویژ لنگویج مادلا رو که دی ال ام مخففش باشه رو ارائه بدیم پخته ترین ها نیست فقط من سیر تاریخی دارم میگم اینکه چیکار کنیم یه شبکه داشته باشیم که جاهایی برسیم که مثلاً روزهای هفته کنار هم بیفتند نه تنها از این خفن تر این جمله با این جمله کنار هم یا این دوتا خیلی با هم فاصله دار بیفتند یه عده به این فکر کردن آقا اگه برای تکست همچین فضایی مثلا ده هزاری وجود داره که اینا رو میشه کنار هم قرار داد و متضاد قرار داد شاید برای ویژه هم وجود داشته باشه بریم پیدا کنیم یه چیزی پیدا کنیم که عکس مثلاً حیوونا یه جا بیفته عکسای میوه ها یه جا بیفته ایده اینه دیگه درسته آیا میشه این کارو کرد یا نه دیدن که بله میشه اولین شبکه معروفترین شبکهای که زدن و روش چند تا واریانت اومد و هنوز هم که هنوز کار میکنن شبکهای بود به نام کلید خب که مخفف اگه اشتباه نکنم شبکه معروفی بود که اومد و چند نوع واریانت روش زدن انواع اسم ها داره که با همدیگه میبینیمش این کلیپ ایدش چی بود خفنترین شبکه کلاسیفیکیشن که تا به اون روز اومده بود چی بود رزتی بود که روی ایمیجمنت اومده بود بالا داشت حدود مثلا چه میدونم یک و نیم میلیون دو میلیون تومن عکس داده بودند که لیبل یعنی یکی آدم نشسته بود یه مشت آدم بیکار نشسته بودن برچسب زده ولی ما با خودشون گفتم کلی چند چند ده برابر چند هزار برابر عکس تو اینترنت داره خب خیلی بیشتر داریم ولی اینا لیبل لزوما نیستند چیکار کنیم از این اتفاقی که سوپر لرنینگ بود توی ال ما استفاده میشد از هر متنی از کلمه بعدی کلی از این پیرها رو جمع کردن عکس و نوشته عکس و نوشته هر عکسی یه چی داشت یه نوشته داشت شبکه کلیپ چیکار میکرد شبکه کلیپ یک شبکه دوال انکودر بود یه اینکودر داشت که عکسو از توش رد میکرد تا بره به یک چی برسه حالا بردار چکیده و عصاره هزارتایی از یه ورم یه شبکه میداد اون متنی که شما داشتید که باز به یه امبگه یه بردار مثلاً هزارتایی دیگه اوکیه حالا حرف حسابش چی بود میگفت من یه سری لیبل هم ندارن اینا دیگه چیکار باید بکنم یه حقه میگ ببین من میام ۲۰ هزار تا ۲۰ هزار تا ۳۰ هزار تا ۳۰ هزار تا از این پیرها رو میگیرم تو بک سایز های تو یک بک سایز تو ۳۰ هزار تا عکس رو از یک ترانسفورم رد میکنم که بخش ایمیجم باشه نوشته از چی از یک ترانسفورمر تا دوتاشون به یه امبدینگه مثلاً هزارتایی فرزند جوری تعریف میکنم که دات این در دات این بره به سمت یک خب دات این با دات بقیه بره به سمت صفر دور بشه به این میگفتم کانترستینگ لرنینگ یه لیبل مجازی فیک داشتیم جمله اولش برن خیلی به هم شبیه بشن این عکسه با ۲۹۹ تا دیگه بره تا حد امکان دور بشه دوباره عکس دوم با جمله معادلش خیلی به هم نزدیک بشن و با بقیه دور بشن یه لاس اینجوری زد آقا این کار که کردن به این نتیجه رسیدن که اوکی من فقط بچهها دقت کنید یک چیز نیست خب توکن کل ام کل جمله اول ها اینجوری نیست که جمله اول اگه خودش ۲۰ تا کلمه داره سگی در بیابان در حال دویدن است هزارتایی داره ۱۱ این باید بره چی بشه لاسی که تعریف میکنه برای اینا یک بشه و داتش با بقیه صفر بشه که یه چیزی شبیه نیاوردیم و به این میگن کانتراست خب حالا بین بچه مصطفی نوروزی که مسیریابی ربات انجام میدن از این استفاده کردن به شبکه خیلی خوب رسیدن خب شبکهای که قابلیت زیر و شات داشت مثلاً زرافه بهش نشون نداده بود تا الان ولی زرافه رو میداد البته تو کلاسهاش یه جایی برای زرافه دیده بود شانس اینکه زرافه رو بدون اینکه قبلا دیده باشه شناسایی کنه وجود داشت حالا تو تست فکر میکنید چجوریه فرض کنید ۲۰ روز شاید بیشتر از ۲۰ روز روی مثلاً ۵۰۰ تا کامپیوتر با جی پی یوهای فوق خفن ران شده یه چیز عجیب غریبیه خب که تازه اولیشو کلیپ بعداً واریانت خوبیش این بوده که دیگه نیاز باشه آقا میخواید تست کنید چیکار میکنید دیگه شما تو تست نوشته بیابانه گل حتی خیلی تخصصی گل رز هلندیه چیکار میکنید فکر میکنید سوالم گل رز هلندی میاد بگید که چیه کلاسیفای کنید شبکه کلیپتون ترین شده به ذهنتون میخوره که تکست معادلی ندارید میرید تکستون رو میدید به تمام کلاسهایی که شما دارید مثلاً ۲۰۰۰ تا ۵۰۰۰ تا کلاس باشید تک تک اون ۲۰۰۰ تا ۵۰۰۰ تا را از تکست انکرتون رد میکنید تا هر کدوم یه ام بدین بهتون دات میکنید نگاه کدومش بیشتر میشه و اتفاق عجیبی که افتاد دیدن که زیر که دارن میکنن مثلا روی دیتا ست ایمی چت خورده درصد دقت دارند خب اصلا شبکه های شات نداشتن شما نمیتونستی بهش گل رز هلندی و نشون ندی ولی ازش بخوای خب بعد تازه اومدن چیکار کردن اومدن یه حقه زدن که بتونن مقایسه کنن اومدن به مثلا نمیدونم شبکه های قدیمی یه چیز اضافه کردن یک اضافه کردن این لایه آخرش پاک کردن با یه لایه خطی جایگزین کردن و دوباره مثلا ترنسفر لرنینگ کردن مثلاً دیدن تو وان شات لرنینگ رزنت دقتش شبکه چیز بود دو تا شبکه ترنسفور حالا بخش ایمیلش میتونست باشه بخش بالاش که ترنسپری و این میرفت این میرفت یه جوری خروجی بود براش که کمک کرد یه لاس فیک براش به وجود آورد که چیز کنه که یارو کنه فقط اینا رو ترین کنه ولی دیگه بعد که عکس میخوای بدی کلاس کنه تو دیگه لیبلی نداری اونی که بالاتر میشه جواب البته این حالت با یک دونه زدن کلمه فراتر از اون ۱۰ تا مثلا ممکنه کلاسی که میخوای داشته باشی حتما باید توی زمان ترینینگ بالاخره یکبار دیده باشه چون باید بتونه براش یه چیز تولید کنه یه دونه باید بتونه تولید کنه مثلا نمیتونه زرافه رو اصلا تو نوشتار بهش نداده باشه باید داده باشه یه جایی متن ضعیف کلمه در بیاره هزارتایی در بیاره تو تستش که بعدا دات کنه با اون یکی سامانه که قبلا دیده بودم الان نمیدونم چقدر استفاده میشه قبلا خونده بودم دیدید مثلاً یه سری مجموعه های هستند مجموعه صنعتی که شما وقتی وارد شی چیز تصویر ورودی تو میگیره یارو میکنه اجازه میده که در باز کنه اتومات یا نه فکر میکنید مثلاً چیکار میکردن اینا وقتی میخواستن بزنم ایده کان تو ذهنتون بیارید چی ذهنتون میخوره میخوام کارت وسیله شبکه میکنه که یه ایده خیلی خام اینه که عکس مثلا محمد از مقابل و محمد از بغل دارم دات کنی خودش هزار یعنی خودشه اگه نشد این نیست ولی واقعیت که تو دنیای واقعی هیچ وقت اونی که شما به چشم میبینید ارتباطش خوب نیست همیشه باید برید چی از یه شبکه رد کنید به یه امبدینگ غنی برسه مثلاً از یه شبکه طوری میتونستم ردش کنن یه هزارتایی برسه اون هزار تایی ها را دات میکردن پیر خودش با خودش باس زیاد میکردن و با بقیه چی کمش میکردن حالا شما اومدی جلو عکس وایستادی یه دونه عکس قبلا بهش دادی عکس جدیدتو عکس چیز استفاده شرکت بره یه صد تا کلاسه تهش امlp ترین میکنه ترنسفر همه رو فریز میکنه و یک بار هم با اون میره چون شبکه های قبلی هیچ نبودن این میخواسته یه چیزی ارائه بده که بتونه مقایسه کنه لایه آخر جدید با تعداد کلاسهای ما بذاره و لایه آخرشو فقط چیکار کنه و دیده که با این کار کردم خوب در نمیاد خب کلیپ که اومد یه دفعه یه تحولی به وجود آورد که تونست حجم زیادی از دیتا ست موجود در اینترنت استفاده کرد ولی به هر حال نمیتونست همه تصویر با هم حل کنه همین اومدن چند تا تسک با هم بهش دادن مثلا بالای ۳۰ تا تسک به خوبی تونست حل کنه کلیپ تو مود دیفالت خودش نتونست حل کنه ملت شروع کردن انواع کارها روش کردن من جمله تغییر دادن آبجکتیو فانکشن ها فقط به این در واقع کلمات نگاه کنید کلیپ اوا فیلیپ ریجن کلیپ تغییر دادن لاسا با تغییر دادن آبجکتیو فانکشن های رو کلید نگاه کنید اگه خواستید یکیشو فقط بین اینا ببینید پیشنهاد یادتونه چیکار میکرد یه سری جمله بهش میداد ورودی ۳۰ درصد کلمات پاک میکرد و تخمین بزنه درسته بعد شما یه سوال ازش میپرسید باید در قالب برت میپرسید مثلا کو داشتید مثلا به انs نقطه چین بعد میزدی یاد گرفته بود که اون کلمه جا خالی را پیش بینی کنه دیگه حالا انشالله که یس و نوش درست برای شما پیشبینی میکرد خب و این کاری که مثلاً توبا کردن این بود که یه دفعه تعداد پارامترها رو بردن بالا یه میلیارد تا و از ایده چیز استفاده کردن ایده استفاده کردن عکسها رو پچ پچ کردن بعضی از پچها رو انداختن بیرون بعد گفتن که تو یاد بگیر چیزایی که ما انداختیم بیرون بازسازی کنیم بعد شبکه خیلی قوی شد و یه دفعه به شبکه رسیدن به اسم اوا که میتونست تسکهای ویژن رو با هم حل کنه یعنی چند تا کار با هم بکنه نمیدونم چیز بکنه عرض به حضور داشته خب از منظر آرکتکچر کلاژدها قابل بررسی مثل کلیپ بود که دیدیم یه عده اومدن شبکه های ان کد یا پیژن پیشنهاد دادن که حالا باز در حد ساده فقط به هر کدوم اشاره میکنیم یکی از شبکه های که باز دوباره دقت آنچنان بالایی نداره مرز دانش نیست ولی شروع خط فکری بود یه شبکهای بود به نام سین خب حرف حسابش چی بود خیلی ساده به داستان نگاه کرد و منطقی هم هست که نسبت به بعدی ها که میگن دقتش خوب تلاش میکنم یه ترن مپی براش پیدا کنم که معادل بشه بیفته اونجا مثلاً عکس سیب وقتی ورودی میدم یه امبدینگ ۱۰۰۰۰ تایی براش به وجود بیاد بیفته نزدیک کلمه سیب تکست ده هزار تاییه طبیعتاً یه مپینگ لازم داره دیگه ها با چیز شبکه های کامولوشن میزنه میاد عکسشو پچ میکنه و اینو به شبکه میده و مثلاً چی فرض کن ۹ تا توکن تولید میکنه این ۹ تا توکن فعلا تو فضای ایمیج باید چیکار کنید باید یه ترنسفورمیش پیدا کنید که شما رو ببره تو فضای تکست یه فضای ترنسفورمیش در واقع اینجا داره پیدا میشه میومده کانکت تولید شدن و ترانسفورم شدن دیگه انگار رفتن تو فضای کجا فقط ماجرا اینه که سختی پیدا کنید که عکس سیبو میدی و پچ پچش میکنی به ۹ تا چیز میشکونی این ۹ تا چیز کنار هم انگار یه جمله است دیگه یه ترانسفورمیشن خوب پیدا کنید که جملهای که از پچ های سیب تولید شده با اون جملهای که در واقع در توصیف اینه تقریبا یه جا بیفته یا معادل بشه یه فضا بیفته و اینا رو کنار هم میداده یعنی توصیف عکسی که رفته تو فضای متن به همراه متن واقعی رو میداده وسی تلاش میکرده جمله بعدی تولید کنه مثلا فرض کنید کل عکسو میداده کلمه اول باید مثلا الان دو تا سگ خب مثلاً جمله باید این تولید میشده دو سگ قهوهای و سفید داشتن توی مثلاً جاده خاکی میدویدن |