Spaces:
Sleeping
Sleeping
به نام خدا دوستان عزیز ارجمند عرض سلام و ادب وقت همگی بخیر با نگاه مدلهای بزرگ زبانی در حد معرفی و همینطور کاربرد دوستان ازمون خواستن یه مقدار سعی کنیم به اپلیکیشن های جدید حوزه رباتیک مراجعه کنیم با حالا یکی دو تا از رفقا هم کردیم تصمیم گرفتیم که تو این دو جلسه اینجوری برای شما صحبت کنیم که اسلاید آماده شدن ما امروز رو سعی میکنیم به معرفی ها بپردازیم اگرچه ظاهرشو نگاه میکنید تاثیر تو حوزه رباتیک نداره ولی مجبوریم اینا رو بدیم و بعدش جلسه بعدی بگیم که خب چجوری میشه از | |
مسیر این مدلی ما انتخاب کردیم خدمتتون مدل زبانی چیه و همینطور یا مدل های زبانی بزرگ چی هستند به مفهوم خیلی خیلی مهمی به نام سوپروایز لرنینگ مراجعه میکنیم که یکی از در واقع تکنیک های بود یکی از اتفاقاتی بود که سبب شد تو حوزه مدل های زبانی انقلاب به وجود بیاد که چ ضلع اون مربعی بود که تونست این اتفاقات تو یک سال و نیم اخیر برای ما به وجود بیاره و بعدش در مورد این صحبت میکنیم که وقتی شما یک مدل زبانی رو دارید اگر بخواهید تغییرش بدید چه راه های پیش روتونه آیا به صرفه است که یک مدل | |
یک میلیارد پارامترها رو کلاً بکوبید یه میلیارد پارامترشو عوض کنید یا نه یا اینکه اگر نمیشه یا شیشه رو چون نداریم چیکار میشه یک مدل چند صد میلیونی پارامتر در اختیارمون باشه ولی تسک ما را حل نکنه و من بخوام حل کنه چیکار باید بکنم چه جوری باید پارامترهاشو باید بردارم چه تکنیکی میتونم بزنم که روشهای ادپترز و لورا رو خدمتتون معرفی میکنیم و اون میشه پکیج آموزشی مدل های بزرگ زبانی برای شما و جلسه بعدی اپلیکیشن ذهنتون تجسم بکنید که از این تکنیک های که گفتیم میشه استفاده کرد و در ضمن یه حاشیهای هم وجود دارد که این در واقع چیز ما سرفصل های امروز اول اینکه یک لنگویج مادل یا یک مدل زبانی چیه خب این وقتی هم در واقع به عرض کردم رباتیک اجتماعی نداره و حتی وقتی به دیپ لرنینگ هم لزوما نداره یعنی از قدیم | |
مدلهای زبانی اصطلاحا مدلهای احتمالاتی هستند که به هر دنباله انتایی از کلمات یا توکنها یک احتمال نسبت میدن احتمال اینکه w۱۰ رو ببینم چنده مثلاً اول کلمه من رو ببینم بعد علی رو ببینم بعد را بعد دیدن ها اگر بتونیم یک احتمال به این نسبت بدید شما یک مدل زبانی دارید که این میتونه معنیش از این باشه که برای استفاده بشه که داشته باشید بر اساس اینکه تا اینجا جمله را دارید کلمه بعدیتون چی باشه از اون مدل زبانتون استفاده کنید بیشترین احتمال رو بگیرید یا اینکه وسطش یک کلمه خالی بندازن مثلاً میگن که من به قدری نقطه چین بودم که میتوانستم یک مرغ کامل را بخورم این نقطه حدس بزنید چی بوده کلمه گرسنه بوده و شما برای ذهنتون یه همچین مدلی دارید الان یعنی با توجه به جمیع کلمات یه کلمهای انتخاب میکنید از بین دایره لغاتی که | |
مدلهای زبانی قراره این کارو بکنه خب خدمت شما عارضم که مسئله بعدی در واقع چیزه کار کردن تو حوزه مدلهای زبانی که در سطح کلمه یا عبارت یا جمله یه چیزهایی داریم و فرض کنید از تکنیکهای ماشین لرنینگ استفاده کنیم همیشه اولین کاری که تو ماشین لرنینگ کلاسیک اینه که چی میبردیم توی فضایی به نام فضای فیچر یا فضای ویژگی که تو اونجا میتونستیم یه کار خوب انجام بدیم مثلا سگ و گربه رو از همدیگه شناسایی کنیم شناسایی کنیم قیمت خونه رو تخمین بزنیم تو مدل های زبانی هم شما کاری که باید بکنید اینه که چی باید یک جورایی مفهوم کلمات رو ببرید توی فضایی که قابل چی باشه حرف زدن باشه ولی آخر که قبلا بهتون گفته بودیم فضای ام نشون میده ما اول کلمات یا عبارات یا توکن هات در واقع کد میکنیم در ساده ترین حالت مثلاً میگیم که آقا اگه من ۵۰ هزار کلمه داره دیکشنری یه ۵۰ هزار | |
هیچ دو کلمهای ارتباط معنایی با هم ندارند همه فاصلهشون یکه درسته و من اینو اول برای در واقع چیز در نظر گرفته بودم حفظ عدالت بیداری نسبت به کلمات ولی واقعیت اینه که من اگه بخوام تو معنا و توی چیز اینا به همدیگه ارتباط پیدا بکنم و نزدیکای کلاس پی رو انتخاب بکنم فضای کوچتری ببره که فاصله کلمات تغییر بکنه و در ضمن کلمات از یک جنس بیان نزدیک هم وایستند اتفاقاتی که تو افتاد مثلا ۲۰۱۳ خب و بعدش حالا اینم کافی نیست من تو جمله پاراگراف میخوام ببینم کلمه جمله من دقیقا | |
و اینجا دیگه حالا از روشهای رشد و شبکههای مبتنی استفاده کو سوال بپرسید جواب عرض به حضور شما که دو تا جمله بهش بگو بهت بگه که این دو تا جمله با هم همستان خلاف جهت ارتباط درسته یا یه متن بهش بگی تو چه حوزهای بود اخبا گرفته حوزه دسته بندی کنید سیاسی ورزشی و و | |
داشته باشید موبایل بخرید یا نخرید با توجه نظر بخواهیم رد تاریخی ازش بگیریم خوب اولین اتفاقی که پیش جهش به وجود آورد داستان ها میاد به دنباله انتهایی توکن ها احتمال نسبت متن ۱۰۰ هزار کلمه داشتید به ماشینتون ساده ترین کاری که میتونید بکنید موبایل سه تا چیکار کنه یه متن ۱۰۰ هزار کلمهای بهش داد | |
سلام چیز مثلا کتاب فارسی کتاب اون نمیاد مبل پیشنهاد بده بعدش میکنه فارسی دانشکده مکانیک و پیشنهاد اول شده حالا دوتایی ها را میبینه خب که اولیش کتاب بوده احتمال بعدیش چند میشه توگرم ها خب و اینا چیزایی بود که قدیم با اینا شروع میکردن میرفتن | |
معنا رو در نظر نمیگرفته درسته تاثیر نهاد در نظر روش های دیگه میاد تا تقریبا حوالی ۲۰۰۳ که آقای بنجیرو میاد یه مدل نتورک ارائه میده که یک زورش زیاد میشه و ادعا میکنه که من فراتر از یک حالت جمله بندی عادی مثلا میگه که اگه جمله بهش بدید ممکنه شبکه منینگ هم بتونه براتون پیش بینی کنه یعنی جملهای که | |
فعل بوده من یه فعل دیگهای از یه جنس زمان دیگهای بذارم کارش حتی عوض بکنه ولی همچنان مشکلات جلوتر ۲۰۱۳ خوبی برای کلمات خوب به هم نزدیک باشند روزهای هفته کمپانی های کامپیوتری و و و دیگه از ۲۰۱۸ به بعد با در واقع ظهور ترنسرها و شبکه برت که میاد دیگه یه دفعه جهش پیدا میکنه و میرسیم به پریترین لنگویج مادلا یا مدل های زبانی که از قبل شدن و حالا هی هم دارن رشد میکن و سوپر لارج دارن تبدیل میشن با تعداد فوق وحشتناک تخ | |
۱۵۰۰ میلیارد پارامتر داره یا یک و نیم تریلیون پارامتر وزن شده و بتونه هزاران کارو برای شما چیکار کنه خب همونطور که عرض کردم خدمتتون مثلاً کلمه شیر سلطان جنگل است شیر آب خراب شده یا از سوپر مارکت شیر پاکتی خریدم اینا توی خیلی از روشهای قدیمی فرق شیر معلوم نمیشه تو فضای ۱۰۰۰۰ کلمهای یه چیز داشته یه وکتور ۱۰ هزار تایی داشته که هیچ فرقی نمیک کدوم جمله است ولی همانطور که دیدید هی وقتی لایه لایه میرفتیم بالاتر تمام کلمات من جمله شیر عوض میشد و اونجا به میرسید که دیگه تو لایه آخرش انتظار داشتیم بین این سه تا فرق قائل بشه یعنی شیر تو این سه تا جمله سه تا چیز کاملاً متفاوت در میاد و توی فضا جاهای مختلفی با همدیگه میفته خدمت شما عرضم که لارج مدل | |
مدلهایی که تو اردر ۱۰ میلیارد پارامتر به بالا یا بعضیا میگن یک میلیارد پارامتر به بالا داشته باشند نمیدونم لامادو لاماسه اینا که مثلاً از هفت هشت میلیارد پارامتر شروع میشن ۱۷۵ میلیارد پارامتر بود عرض کردم ۱۵۰۰ میلیارد پارامتر لاما از ۷ میلیارد هست تا حدود ۷۰ میلیارد پارامتر به این میگن چی میگن شبکه های بزرگ مدل های بزرگ زبانی چه اتفاقی افتاد که مدل های بزرگ زبانی تونستن ظهور پیدا بکنن چهار تا اتفاق با همدیگه در کنار هم ثبت شد مدل های بزرگ زبانی رخ بده یکی اینکه دسترسی به داده زیاد شد داده آدما فهمیدن داده ها ارزشمندن و باید یه کاری میکردن که اینا رو | |
وجود داشت و دو تا تکنیک دیگهای که اگر نبودن نمیگیم به مدلهای بزرگ زبانی نمیرسیدیم اما ممکن در واقع اختراع شبکههای ترانسفورمر بود که امکان پردازشهای سری و خیلی به ما میداد و یه دفعه سرعتش نسبت به النا خیلی خیلی خیلی بیشتر شده بود و مکانیزم همه به همه توجه و یک هفته دیگه به نام چی سلف سوپروز لرنینگ که اگر وجود نمیداشت باز چی میشد داستان میشد کتاب در مورد هر کدوم از کوچولو کوچولو صحبت میکنه خدمتتون عارضم که شما اگر به چیزا نگاه بکنید به این دو تا نمودار نگاه بکنید تا مدل های المو که حدود ۲۰۱۸ اوایل ۲۰۱۸ اومدن ببینید بیاید جلو تعداد توکن های که استفاده میکنند مثلاً تو اردر یک میلیارد بوده تا جیpt | |
بیش از ۱۰ به توان ۱۲ مثلا میرسه و یه دفعه یه جهش عجیبی توشون به وجود میاد همینطور توی تعداد پارامترها قدیم مثلا فرض کنید که تا مثلاً چرا روش هر شبکهای که میاد بچهها معمولاً یه دونه ورژن اسمال میزن لارج اینجوری خب ورژن مختلف شما میزنند اکسترا لارج یا لارج مثلا الم حدود چند هشت پارامتر داشته که میشه ۱۰۰ میلیون خبرش اینه gpt ۳ و فراتر از سه که اومد یه دفعه این عدد جامپ کرد مثلاً از ۱۰ به توان ۱۰ هم رد کرد خب و یه دفعه سبب شد که یه سری اتفاقاتی بیفته که حالا در آینده چیکار میکنیم در واقع اشاره میکنیم و اما یکی از اون چهار تا اتفاقی که سبب شد مدل بزرگ زبانی رشد کنن مفهومی به نام | |
سوپروایز لرنینگ ماجراش اینه که نه سوپروایز نه آن سوپروایز همه میدیدند که کلی داده تو دنیا تو اینترنت اطراف ما وجود داره که لیبل نداره و این سوال بود چه جوری ازشون استفاده کنیم خب مثلاً فرض کنید که فقط من برم یه میلیون تا عکس یا ۱۰۰ میلیون تا عکس از گوگل دانلود کنم ولی ندونم یعنی برچسبی نداشته باشم که این اسب گوسفنده فلانه فلانه چهجوری میشد از این استفاده کرد یا این همه مثلاً نوشته تو اینترنت بود چیکار میکردن ازش از مفهومی به نام سوپروایز لرنینگ استفاده کردن سوپروایز لرنینگ من یه تفاوتی که قائلم میگه نه سوپروایز یعنی شما جایی مثلاً عکس گاو بهش ندادید و براش بیان کنید که این گاوه نه کاملاً آن سوپروایزه ها با یه چیز کمکی شما لیبل براش تولید میکنید که این مثلاً گاوه مثلاً اگه صداش توی فیلمی بیاد و این صدا رو بگیرید صدای ما بیاد مثلاً این چیکار | |
کاری که میتونستن بکنن اینه که بیان مثلاً بگن که مثلاً فرض کن جمله ترانسپرز رو در نظر این تلاش از خودش استفاده میکردن لیبل نداشتم یا داشتم کلک میزدم و لیبل بهش میدادم تو حوزه مثلا تکست اینجوری بود متن بزرگی داشتن از نکست توکن میکردم با کلمات قبلی خودش و به این میگفتن آقا تو با این برو پریترین بشو یه مدل بیا بالا حالا من بعداً اگه بخوامش میکنم برای کار خودم و دیدم که با همین داده های اینترنت دارن به دقت های | |
فرض کنید شما یه مجموعه عکسهایی داشته باشید از اینترنت اصلا ندونید اونا چی اند چجوری میتونید یه مثال بزنم چیزتون آماده کنم من میخوام یه شبکه داشته باشم که برام کلاس انجام بده خفنترین شبکهای که ما دیدیم دیگه خیلی خفن بود که هنوزم در واقع جز یکی ازش استفاده میکنم خب اون زمان اومده بودن روی دیتا ست ایمیجنت که مثلاً یه میلیون و خوردهای تا عکس بود ترین کرده بودن کلی وزن به ما داده بودن ما فرض کنید مثلاً میخواستیم ببریم برای شناسایی مثلاً در و پنجره و نمیدونم تیر برق دانشگاه ازش استفاده کنیم چیکار میتونستیم بکنیم اول | |
آماده استفاده کنیم یکی دو تا لایه آخرشو ببریم کلاسهای مورد نظر آخر که چیکار کنه به من همون سه تا کلاسو بده چون اعتقاد داشتم که چی لایه اولش خیلی چیز خوبی یاد گرفته که اینجام به دردم میخوره حالا فرض کنید که شما وزن رزنت رو بهتون نداده بودم فقط اینترنت داشتید مثلا ۱۰۰ میلیون تا عکس چیکار میتونستید بکنید هیچ لولی هم نداشتید اصلاً نمیرسید چی پرنده مثلاً حیوونه چی فلانه چه ایدهای دارید برای از این داده یه جوری استفاده کنید چیکار کار بهتون پیشنهاد بدم عکسا رو همه رو داره بیاید همشون مثلاً روتیشن اضافه کنید یعنی یه دونه عکس واقعی دارم یه دونه ۱۰ درصد روتی شده یه شبکه شبیه رزنت بیارم بالا برای خودم که بگم این ۱۰ درجه روتیشن ببینم تو بیا بهم بگو ده یا اون | |
اضافه میکنم برام رسید فقط پایین نگاه میکنم انشالله که لایه اولش خوب کار کرده عکس اینترنت دوستی استفاده کردم خب این سلف سوپروایز لرنینگه تو حوزه ایمیجه تو حوزه متن گفتم چیکار کنیم از خودش استفاده کنیم اینقدر بسازید بسازید تا به یه مدل خوبی برسه حالا نگاه کنید یا تسک شما را انجام میده یا نمیده اگه نداد آیتیون میکنید برای تسک خودتون اول میکنیم بعد | |
چند صد میلیون پارامتر رو اینشیالایز بکنیم جلو تا به یه جای خوبی برسید الان شبکه خوب تشخیص بده حالا چیکار کنم برای کلاس ولی خوبیش اینه که از آنبل دیتاهای موجود در اینترنت نهایت سوء استفاده رو کردی همین کاری که الان ما کردن رفتن از هرچی متن کرده بودن استفاده کردن لیبل هم نداشتا از خودش گفتم یه مدل فعلا بیاد بالا خب حالا من نگاه میکنم انجام میده یا نمیده اگه داد خیر و برکت اگه نداد چیکار میکنم یه جوری فاین میکنه که این کار برام بکنه درسته | |
آینده هوش مصنوعی دنیا دیگه نمیتونید بیخیالش بشید میگه شما یک همچین تصویری بهتون نشون بدن خب مثلا کلاس شبکه عادی کلاسیفیکیشن بدید نهایتاً به شما میگه کیک درسته خب قابل خوردن بیشتر از بهتون نمیگم ولی فرض کنید شما میخواستید بدونید این کیک گیلاس روشه اگر با چاقو ببرن کجاهاش بریده میشه چند لایه فرض کن که مثلاً خامه و شکلات و فلان داره و تو اردر مثلاً بعضا پیکسلی روش حرف بزنید با این عکس کلی محتوا تولید کنید این هیچ رقم با داده های سوپروایز نمیشه انجامش داد درسته اینکه آدم بکارید که بشینه برای این عکسه مثلاً هزاران جمله بنویسه | |
این اتفاق افتاده گفتم دو نوع شبکههای معروف داریم یکی شبکههای مس لنگویج مادلن که برت معروفترینشونه اواخر ۲۰۱۹ اومد ماجرا این بود که رفت کلی داده ترین برداشت متن کرد کاری که میکنه تو ورودی یه جمله بهش میدید چند تا کلمشو میندازی بیرون مسکش میکنید پاکش میکن مثلا نوشته نقطه چینستنت این جای نقطه چین ستاره میزاری اون باید ستاره شما پیش بینی کنه و به این نقطه از عرفان میرسه کهچال و پیشنهاد میکنه خب و تو اینجوری بود شبکه اش که حدود ۱۵ درصد | |
خروجی شبکه اختلاف فاحش همه رو این مدلی شد که واقعا همچین چیزایی میتونه کار کنه که دیگه حالا به صورت خیلی خیلی جدی این اتفاق مطرح شد به جز لنگویج یه چیزی داریم به نام کازا لنگویج مادلینگ یا همون شبکه های اتوریسیو که تا انتهای اول بهش بدی چیکار کنه نکست توکن پردشن براتون انجام بده بهش بگیدسیستنت بعدیش بگه چی هی با اینایی که دارید اینو بگه که gpt اینا از این جنس و gpt اینا فقط دیکودر ترنسفور ندارن دیکودر دارند فقط فعال شما رو میاد شروع میکنه یکی یکی تولید کردن هی از خروجی خودش | |
سری زمانی دنباله میدید اون اولین اتفاقی که ازش میگذره چیه کشف میشه به یه ماتریس بردارهای حالا کوچکتر فشرده میشه کد میمونه یه عصاره تولید میکنه که من ماتریس در واقع کی و ولیوش ازش میخوام اگه دیکود داشته باشم تو دیکودرم چیکار میکنم ورودی بازدم کیو ولی اینو میگیرم و حالا اتنشن به اون رو انجام میدم و در نهایت چیکار کنم کارمو انجام بدم مثلاً اینجا تسک | |
ترجمه زبان انگلیسی تولید بشه که این مسیر رو رفته که قبلا دیدید و اساس کار ما توی لارج لنگویج مادلها و همینطور ویژوال لنگویج مادلا و چیز آینده روش صحبت کنیم و کاربردهای رباتیک اینا رو بگیم همشون کلاً شبکههای مبتنی بر ترانسفورمن که اینا توشون رخ خدمتتون عارضم که یه مقایسه فقط برای خودتون داشته باشید اینه که عرض به حضور شما دیتا یعنی شبکه های جی پی تی و اینایی که اومدن هر کدوم اولاً چه سالی ترند شدن چند تا پارامتر داشتن اینجا نوشته شده مثلاً gp ۱۷۵ میلیارد پارامتر داشته gpt دو که سال ۲۰۱۹ اومده یک و نیم میلیارد پارامتر داشته دیتا ست های که روشون ترین شدن مثلا چه میدونم دیتا ست فرض کنید سی فور بوده که ۳۶۰ گیگا توکن داشته | |
برای همه مجاز نیست و اینجا براتون نوشته شده که رو چقدر داده اومدن بالا خدمتتون عارضم که مثلاً من یه جا دیدم برای یکی از این شبکههای مطمئن نیستم الان جمنای یه جاش خوندم ۶۵ ترابایت داده داشته برای اینکه ترین کنه خودش یا نه و عرض به حضور شما اینا بسیار هم چیزن اشتهاشون بالاست چون تعداد پارامترهاشون اور چند میلیارد و چند ده میلیارد و الی آخر بالاتره چیزه ماجرا اینه که هرچی داده بهشون بدین نه نمیگن و میخورن سعی میکنن یه مدل بهتری ارائه بدن باز یه مفهوم دیگه که باز خیلی سریع میخوام فقط معرفیش کنیم ازش بگذریم مفهوم توکنایزره که یک مفهوم خیلی تخصصی تو حوزه نشنال لنگویج | |
بالاخره وقتی ورودی میگیریم در حد کرکتر بگیریم در حد کلمه خیلی جذاب نیست ای و بی و سی و اینا بگیری چون مفهوم خیلی دیگه نمیتونه کنار خودش نگه داره ورد هم که بگیرید خب دیدن که خیلی چیز تمیز در نمیاد یه چیزی بینابین درآوردن که ما الان خیلی کار تخصصی روش نداریم اینکه توکنایز میکنن مثلاً فرض کنید پلیینگ مثلاً پلیشو یک کلمه میگیرن آی ان یه توکن دیگه خب که ممکنه تو فیلمی که بهتون معرفی کردیم از اونجا یه اشاره کوچیکی بهش میکنه دیده باشید خب که کلاً قبل از اینکه وقتی اینپوت تستتون رو میدید اول توکنایزش میکنید بعد میریم وارد حالا امینگ و ترنسفورمش میکن فرض کنید این تیکه داره برای ما انجام میشه یا اینکه توی عکس مثلاً این وی آی تی بهتون گفتیم روش ژ ترنس گفتیم عکس رو چیکارش کنیم و تو توکنایزش کنیم پچ پچ کنیم پچ ها میشن یه توکن ما ما | |
داستان چه معماریهای معروفی تو حوزه لارج لنگویج مادلا داریم سه تا معماری معروف داریم یا انکرین که شبکه برت درباره نمونه یا روبرتا روبرتا شبکهای که روبرت با دادههای بیشتری شده و ربات تر شده خب خدمتتون عارضم که بست لنگویج مادله اینجوریه که گفتم یه جمله بهش بدید ۱۵ درصد کلمات که شما برداشتی خالی کردید اون برای شما تخمین بزنه خب شبکههای دیکودر آنلی داریم که جی پی تی ها همشون از این جنس کلا دیکودرن و انکر آن تو ترین شدن خیلی استیبل تر از شبکه های ان کد خب راحت تر و بهتر و بهتر سایزشون بالاتر بره این برای کلاسسیفیکیشن استفاده میشه یه متن بهش اخبار چیه | |
چه ویژگی جذابی تو شبکه وجود داره تولید میکنه داشته باشد بفرمایید وحشت نمیتونه مگر ایجنت های جدید اگر برسم جلسه آینده که قابلیت سرچ هم بهش اضافه میکنه یعنی میگه ببین برو گوگل سرچ کنید یعنی وزنش فریزه ولی قابلیت های میده به اینکه برو از کنار این ابزارها استفاده کن مثلاً تورات برو از اینم کمک بگیر این کار جذاب از چند تا چیز این کد را چیان شبکههایی هستند که خب | |