SCR_Course_ChatBot / data /LLM-Part1_transcript_part1.txt
MaryamKarimi080's picture
Upload 160 files
d48d4f3 verified
به نام خدا دوستان عزیز ارجمند عرض سلام و ادب وقت همگی بخیر با نگاه مدل‌های بزرگ زبانی در حد معرفی و همینطور کاربرد دوستان ازمون خواستن یه مقدار سعی کنیم به اپلیکیشن های جدید حوزه رباتیک مراجعه کنیم با حالا یکی دو تا از رفقا هم کردیم تصمیم گرفتیم که تو این دو جلسه اینجوری برای شما صحبت کنیم که اسلاید آماده شدن ما امروز رو سعی میکنیم به معرفی ها بپردازیم اگرچه ظاهرشو نگاه میکنید تاثیر تو حوزه رباتیک نداره ولی مجبوریم اینا رو بدیم و بعدش جلسه بعدی بگیم که خب چجوری میشه از
مسیر این مدلی ما انتخاب کردیم خدمتتون مدل زبانی چیه و همینطور یا مدل های زبانی بزرگ چی هستند به مفهوم خیلی خیلی مهمی به نام سوپروایز لرنینگ مراجعه میکنیم که یکی از در واقع تکنیک های بود یکی از اتفاقاتی بود که سبب شد تو حوزه مدل های زبانی انقلاب به وجود بیاد که چ ضلع اون مربعی بود که تونست این اتفاقات تو یک سال و نیم اخیر برای ما به وجود بیاره و بعدش در مورد این صحبت می‌کنیم که وقتی شما یک مدل زبانی رو دارید اگر بخواهید تغییرش بدید چه راه های پیش روتونه آیا به صرفه است که یک مدل
یک میلیارد پارامترها رو کلاً بکوبید یه میلیارد پارامترشو عوض کنید یا نه یا اینکه اگر نمی‌شه یا شیشه رو چون نداریم چیکار میشه یک مدل چند صد میلیونی پارامتر در اختیارمون باشه ولی تسک ما را حل نکنه و من بخوام حل کنه چیکار باید بکنم چه جوری باید پارامترهاشو باید بردارم چه تکنیکی میتونم بزنم که روش‌های ادپترز و لورا رو خدمتتون معرفی میکنیم و اون میشه پکیج آموزشی مدل های بزرگ زبانی برای شما و جلسه بعدی اپلیکیشن ذهنتون تجسم بکنید که از این تکنیک های که گفتیم میشه استفاده کرد و در ضمن یه حاشیه‌ای هم وجود دارد که این در واقع چیز ما سرفصل های امروز اول اینکه یک لنگویج مادل یا یک مدل زبانی چیه خب این وقتی هم در واقع به عرض کردم رباتیک اجتماعی نداره و حتی وقتی به دیپ لرنینگ هم لزوما نداره یعنی از قدیم
مدل‌های زبانی اصطلاحا مدل‌های احتمالاتی هستند که به هر دنباله انتایی از کلمات یا توکن‌ها یک احتمال نسبت میدن احتمال اینکه w۱۰ رو ببینم چنده مثلاً اول کلمه من رو ببینم بعد علی رو ببینم بعد را بعد دیدن ها اگر بتونیم یک احتمال به این نسبت بدید شما یک مدل زبانی دارید که این میتونه معنیش از این باشه که برای استفاده بشه که داشته باشید بر اساس اینکه تا اینجا جمله را دارید کلمه بعدیتون چی باشه از اون مدل زبانتون استفاده کنید بیشترین احتمال رو بگیرید یا اینکه وسطش یک کلمه خالی بندازن مثلاً میگن که من به قدری نقطه چین بودم که می‌توانستم یک مرغ کامل را بخورم این نقطه حدس بزنید چی بوده کلمه گرسنه بوده و شما برای ذهنتون یه همچین مدلی دارید الان یعنی با توجه به جمیع کلمات یه کلمه‌ای انتخاب می‌کنید از بین دایره لغاتی که
مدل‌های زبانی قراره این کارو بکنه خب خدمت شما عارضم که مسئله بعدی در واقع چیزه کار کردن تو حوزه مدل‌های زبانی که در سطح کلمه یا عبارت یا جمله یه چیزهایی داریم و فرض کنید از تکنیک‌های ماشین لرنینگ استفاده کنیم همیشه اولین کاری که تو ماشین لرنینگ کلاسیک اینه که چی میبردیم توی فضایی به نام فضای فیچر یا فضای ویژگی که تو اونجا می‌تونستیم یه کار خوب انجام بدیم مثلا سگ و گربه رو از همدیگه شناسایی کنیم شناسایی کنیم قیمت خونه رو تخمین بزنیم تو مدل های زبانی هم شما کاری که باید بکنید اینه که چی باید یک جورایی مفهوم کلمات رو ببرید توی فضایی که قابل چی باشه حرف زدن باشه ولی آخر که قبلا بهتون گفته بودیم فضای ام نشون میده ما اول کلمات یا عبارات یا توکن هات در واقع کد میکنیم در ساده ترین حالت مثلاً می‌گیم که آقا اگه من ۵۰ هزار کلمه داره دیکشنری یه ۵۰ هزار
هیچ دو کلمه‌ای ارتباط معنایی با هم ندارند همه فاصله‌شون یکه درسته و من اینو اول برای در واقع چیز در نظر گرفته بودم حفظ عدالت بیداری نسبت به کلمات ولی واقعیت اینه که من اگه بخوام تو معنا و توی چیز اینا به همدیگه ارتباط پیدا بکنم و نزدیکای کلاس پی رو انتخاب بکنم فضای کوچتری ببره که فاصله کلمات تغییر بکنه و در ضمن کلمات از یک جنس بیان نزدیک هم وایستند اتفاقاتی که تو افتاد مثلا ۲۰۱۳ خب و بعدش حالا اینم کافی نیست من تو جمله پاراگراف میخوام ببینم کلمه جمله من دقیقا
و اینجا دیگه حالا از روش‌های رشد و شبکه‌های مبتنی استفاده کو سوال بپرسید جواب عرض به حضور شما که دو تا جمله بهش بگو بهت بگه که این دو تا جمله با هم همستان خلاف جهت ارتباط درسته یا یه متن بهش بگی تو چه حوزه‌ای بود اخبا گرفته حوزه دسته بندی کنید سیاسی ورزشی و و
داشته باشید موبایل بخرید یا نخرید با توجه نظر بخواهیم رد تاریخی ازش بگیریم خوب اولین اتفاقی که پیش جهش به وجود آورد داستان ها میاد به دنباله انتهایی توکن ها احتمال نسبت متن ۱۰۰ هزار کلمه داشتید به ماشینتون ساده ترین کاری که میتونید بکنید موبایل سه تا چیکار کنه یه متن ۱۰۰ هزار کلمه‌ای بهش داد
سلام چیز مثلا کتاب فارسی کتاب اون نمیاد مبل پیشنهاد بده بعدش میکنه فارسی دانشکده مکانیک و پیشنهاد اول شده حالا دوتایی ها را میبینه خب که اولیش کتاب بوده احتمال بعدیش چند میشه توگرم ها خب و اینا چیزایی بود که قدیم با اینا شروع می‌کردن می‌رفتن
معنا رو در نظر نمیگرفته درسته تاثیر نهاد در نظر روش های دیگه میاد تا تقریبا حوالی ۲۰۰۳ که آقای بنجیرو میاد یه مدل نتورک ارائه میده که یک زورش زیاد میشه و ادعا می‌کنه که من فراتر از یک حالت جمله بندی عادی مثلا میگه که اگه جمله بهش بدید ممکنه شبکه منینگ هم بتونه براتون پیش بینی کنه یعنی جمله‌ای که
فعل بوده من یه فعل دیگه‌ای از یه جنس زمان دیگه‌ای بذارم کارش حتی عوض بکنه ولی همچنان مشکلات جلوتر ۲۰۱۳ خوبی برای کلمات خوب به هم نزدیک باشند روزهای هفته کمپانی های کامپیوتری و و و دیگه از ۲۰۱۸ به بعد با در واقع ظهور ترنسرها و شبکه برت که میاد دیگه یه دفعه جهش پیدا میکنه و میرسیم به پریترین لنگویج مادلا یا مدل های زبانی که از قبل شدن و حالا هی هم دارن رشد میکن و سوپر لارج دارن تبدیل میشن با تعداد فوق وحشتناک تخ
۱۵۰۰ میلیارد پارامتر داره یا یک و نیم تریلیون پارامتر وزن شده و بتونه هزاران کارو برای شما چیکار کنه خب همونطور که عرض کردم خدمتتون مثلاً کلمه شیر سلطان جنگل است شیر آب خراب شده یا از سوپر مارکت شیر پاکتی خریدم اینا توی خیلی از روش‌های قدیمی فرق شیر معلوم نمیشه تو فضای ۱۰۰۰۰ کلمه‌ای یه چیز داشته یه وکتور ۱۰ هزار تایی داشته که هیچ فرقی نمیک کدوم جمله است ولی همانطور که دیدید هی وقتی لایه لایه میرفتیم بالاتر تمام کلمات من جمله شیر عوض میشد و اونجا به میرسید که دیگه تو لایه آخرش انتظار داشتیم بین این سه تا فرق قائل بشه یعنی شیر تو این سه تا جمله سه تا چیز کاملاً متفاوت در میاد و توی فضا جاهای مختلفی با همدیگه میفته خدمت شما عرضم که لارج مدل
مدل‌هایی که تو اردر ۱۰ میلیارد پارامتر به بالا یا بعضیا میگن یک میلیارد پارامتر به بالا داشته باشند نمیدونم لامادو لاماسه اینا که مثلاً از هفت هشت میلیارد پارامتر شروع میشن ۱۷۵ میلیارد پارامتر بود عرض کردم ۱۵۰۰ میلیارد پارامتر لاما از ۷ میلیارد هست تا حدود ۷۰ میلیارد پارامتر به این میگن چی میگن شبکه های بزرگ مدل های بزرگ زبانی چه اتفاقی افتاد که مدل های بزرگ زبانی تونستن ظهور پیدا بکنن چهار تا اتفاق با همدیگه در کنار هم ثبت شد مدل های بزرگ زبانی رخ بده یکی اینکه دسترسی به داده زیاد شد داده آدما فهمیدن داده ها ارزشمندن و باید یه کاری می‌کردن که اینا رو
وجود داشت و دو تا تکنیک دیگه‌ای که اگر نبودن نمی‌گیم به مدل‌های بزرگ زبانی نمی‌رسیدیم اما ممکن در واقع اختراع شبکه‌های ترانسفورمر بود که امکان پردازش‌های سری و خیلی به ما می‌داد و یه دفعه سرعتش نسبت به النا خیلی خیلی خیلی بیشتر شده بود و مکانیزم همه به همه توجه و یک هفته دیگه به نام چی سلف سوپروز لرنینگ که اگر وجود نمی‌داشت باز چی میشد داستان میشد کتاب در مورد هر کدوم از کوچولو کوچولو صحبت میکنه خدمتتون عارضم که شما اگر به چیزا نگاه بکنید به این دو تا نمودار نگاه بکنید تا مدل های المو که حدود ۲۰۱۸ اوایل ۲۰۱۸ اومدن ببینید بیاید جلو تعداد توکن های که استفاده می‌کنند مثلاً تو اردر یک میلیارد بوده تا جیpt
بیش از ۱۰ به توان ۱۲ مثلا میرسه و یه دفعه یه جهش عجیبی توشون به وجود میاد همینطور توی تعداد پارامترها قدیم مثلا فرض کنید که تا مثلاً چرا روش هر شبکه‌ای که میاد بچه‌ها معمولاً یه دونه ورژن اسمال میزن لارج اینجوری خب ورژن مختلف شما میزنند اکسترا لارج یا لارج مثلا الم حدود چند هشت پارامتر داشته که میشه ۱۰۰ میلیون خبرش اینه gpt ۳ و فراتر از سه که اومد یه دفعه این عدد جامپ کرد مثلاً از ۱۰ به توان ۱۰ هم رد کرد خب و یه دفعه سبب شد که یه سری اتفاقاتی بیفته که حالا در آینده چیکار میکنیم در واقع اشاره میکنیم و اما یکی از اون چهار تا اتفاقی که سبب شد مدل بزرگ زبانی رشد کنن مفهومی به نام
سوپروایز لرنینگ ماجراش اینه که نه سوپروایز نه آن سوپروایز همه می‌دیدند که کلی داده تو دنیا تو اینترنت اطراف ما وجود داره که لیبل نداره و این سوال بود چه جوری ازشون استفاده کنیم خب مثلاً فرض کنید که فقط من برم یه میلیون تا عکس یا ۱۰۰ میلیون تا عکس از گوگل دانلود کنم ولی ندونم یعنی برچسبی نداشته باشم که این اسب گوسفنده فلانه فلانه چه‌جوری می‌شد از این استفاده کرد یا این همه مثلاً نوشته تو اینترنت بود چیکار میکردن ازش از مفهومی به نام سوپروایز لرنینگ استفاده کردن سوپروایز لرنینگ من یه تفاوتی که قائلم میگه نه سوپروایز یعنی شما جایی مثلاً عکس گاو بهش ندادید و براش بیان کنید که این گاوه نه کاملاً آن سوپروایزه ها با یه چیز کمکی شما لیبل براش تولید می‌کنید که این مثلاً گاوه مثلاً اگه صداش توی فیلمی بیاد و این صدا رو بگیرید صدای ما بیاد مثلاً این چیکار
کاری که می‌تونستن بکنن اینه که بیان مثلاً بگن که مثلاً فرض کن جمله ترانسپرز رو در نظر این تلاش از خودش استفاده می‌کردن لیبل نداشتم یا داشتم کلک میزدم و لیبل بهش میدادم تو حوزه مثلا تکست اینجوری بود متن بزرگی داشتن از نکست توکن میکردم با کلمات قبلی خودش و به این می‌گفتن آقا تو با این برو پریترین بشو یه مدل بیا بالا حالا من بعداً اگه بخوامش میکنم برای کار خودم و دیدم که با همین داده های اینترنت دارن به دقت های
فرض کنید شما یه مجموعه عکس‌هایی داشته باشید از اینترنت اصلا ندونید اونا چی اند چجوری میتونید یه مثال بزنم چیزتون آماده کنم من می‌خوام یه شبکه داشته باشم که برام کلاس انجام بده خفن‌ترین شبکه‌ای که ما دیدیم دیگه خیلی خفن بود که هنوزم در واقع جز یکی ازش استفاده میکنم خب اون زمان اومده بودن روی دیتا ست ایمیجنت که مثلاً یه میلیون و خورده‌ای تا عکس بود ترین کرده بودن کلی وزن به ما داده بودن ما فرض کنید مثلاً می‌خواستیم ببریم برای شناسایی مثلاً در و پنجره و نمیدونم تیر برق دانشگاه ازش استفاده کنیم چیکار میتونستیم بکنیم اول
آماده استفاده کنیم یکی دو تا لایه آخرشو ببریم کلاس‌های مورد نظر آخر که چیکار کنه به من همون سه تا کلاسو بده چون اعتقاد داشتم که چی لایه اولش خیلی چیز خوبی یاد گرفته که اینجام به دردم میخوره حالا فرض کنید که شما وزن رزنت رو بهتون نداده بودم فقط اینترنت داشتید مثلا ۱۰۰ میلیون تا عکس چیکار میتونستید بکنید هیچ لولی هم نداشتید اصلاً نمی‌رسید چی پرنده مثلاً حیوونه چی فلانه چه ایده‌ای دارید برای از این داده یه جوری استفاده کنید چیکار کار بهتون پیشنهاد بدم عکسا رو همه رو داره بیاید همشون مثلاً روتیشن اضافه کنید یعنی یه دونه عکس واقعی دارم یه دونه ۱۰ درصد روتی شده یه شبکه شبیه رزنت بیارم بالا برای خودم که بگم این ۱۰ درجه روتیشن ببینم تو بیا بهم بگو ده یا اون
اضافه میکنم برام رسید فقط پایین نگاه میکنم انشالله که لایه اولش خوب کار کرده عکس اینترنت دوستی استفاده کردم خب این سلف سوپروایز لرنینگه تو حوزه ایمیجه تو حوزه متن گفتم چیکار کنیم از خودش استفاده کنیم اینقدر بسازید بسازید تا به یه مدل خوبی برسه حالا نگاه کنید یا تسک شما را انجام میده یا نمیده اگه نداد آیتیون می‌کنید برای تسک خودتون اول میکنیم بعد
چند صد میلیون پارامتر رو اینشیالایز بکنیم جلو تا به یه جای خوبی برسید الان شبکه خوب تشخیص بده حالا چیکار کنم برای کلاس ولی خوبیش اینه که از آنبل دیتاهای موجود در اینترنت نهایت سوء استفاده رو کردی همین کاری که الان ما کردن رفتن از هرچی متن کرده بودن استفاده کردن لیبل هم نداشتا از خودش گفتم یه مدل فعلا بیاد بالا خب حالا من نگاه میکنم انجام میده یا نمیده اگه داد خیر و برکت اگه نداد چیکار میکنم یه جوری فاین میکنه که این کار برام بکنه درسته
آینده هوش مصنوعی دنیا دیگه نمی‌تونید بی‌خیالش بشید میگه شما یک همچین تصویری بهتون نشون بدن خب مثلا کلاس شبکه عادی کلاسیفیکیشن بدید نهایتاً به شما میگه کیک درسته خب قابل خوردن بیشتر از بهتون نمیگم ولی فرض کنید شما می‌خواستید بدونید این کیک گیلاس روشه اگر با چاقو ببرن کجاهاش بریده میشه چند لایه فرض کن که مثلاً خامه و شکلات و فلان داره و تو اردر مثلاً بعضا پیکسلی روش حرف بزنید با این عکس کلی محتوا تولید کنید این هیچ رقم با داده های سوپروایز نمیشه انجامش داد درسته اینکه آدم بکارید که بشینه برای این عکسه مثلاً هزاران جمله بنویسه
این اتفاق افتاده گفتم دو نوع شبکه‌های معروف داریم یکی شبکه‌های مس لنگویج مادلن که برت معروف‌ترینشونه اواخر ۲۰۱۹ اومد ماجرا این بود که رفت کلی داده ترین برداشت متن کرد کاری که میکنه تو ورودی یه جمله بهش می‌دید چند تا کلمشو میندازی بیرون مسکش می‌کنید پاکش میکن مثلا نوشته نقطه چینستنت این جای نقطه چین ستاره میزاری اون باید ستاره شما پیش بینی کنه و به این نقطه از عرفان می‌رسه کهچال و پیشنهاد میکنه خب و تو اینجوری بود شبکه اش که حدود ۱۵ درصد
خروجی شبکه اختلاف فاحش همه رو این مدلی شد که واقعا همچین چیزایی میتونه کار کنه که دیگه حالا به صورت خیلی خیلی جدی این اتفاق مطرح شد به جز لنگویج یه چیزی داریم به نام کازا لنگویج مادلینگ یا همون شبکه های اتوریسیو که تا انتهای اول بهش بدی چیکار کنه نکست توکن پردشن براتون انجام بده بهش بگیدسیستنت بعدیش بگه چی هی با اینایی که دارید اینو بگه که gpt اینا از این جنس و gpt اینا فقط دیکودر ترنسفور ندارن دیکودر دارند فقط فعال شما رو میاد شروع میکنه یکی یکی تولید کردن هی از خروجی خودش
سری زمانی دنباله میدید اون اولین اتفاقی که ازش میگذره چیه کشف میشه به یه ماتریس بردارهای حالا کوچکتر فشرده میشه کد میمونه یه عصاره تولید میکنه که من ماتریس در واقع کی و ولیوش ازش میخوام اگه دیکود داشته باشم تو دیکودرم چیکار میکنم ورودی بازدم کیو ولی اینو میگیرم و حالا اتنشن به اون رو انجام میدم و در نهایت چیکار کنم کارمو انجام بدم مثلاً اینجا تسک
ترجمه زبان انگلیسی تولید بشه که این مسیر رو رفته که قبلا دیدید و اساس کار ما توی لارج لنگویج مادل‌ها و همینطور ویژوال لنگویج مادلا و چیز آینده روش صحبت کنیم و کاربردهای رباتیک اینا رو بگیم همشون کلاً شبکه‌های مبتنی بر ترانسفورمن که اینا توشون رخ خدمتتون عارضم که یه مقایسه فقط برای خودتون داشته باشید اینه که عرض به حضور شما دیتا یعنی شبکه های جی پی تی و اینایی که اومدن هر کدوم اولاً چه سالی ترند شدن چند تا پارامتر داشتن اینجا نوشته شده مثلاً gp ۱۷۵ میلیارد پارامتر داشته gpt دو که سال ۲۰۱۹ اومده یک و نیم میلیارد پارامتر داشته دیتا ست های که روشون ترین شدن مثلا چه میدونم دیتا ست فرض کنید سی فور بوده که ۳۶۰ گیگا توکن داشته
برای همه مجاز نیست و اینجا براتون نوشته شده که رو چقدر داده اومدن بالا خدمتتون عارضم که مثلاً من یه جا دیدم برای یکی از این شبکه‌های مطمئن نیستم الان جمنای یه جاش خوندم ۶۵ ترابایت داده داشته برای اینکه ترین کنه خودش یا نه و عرض به حضور شما اینا بسیار هم چیزن اشتهاشون بالاست چون تعداد پارامترهاشون اور چند میلیارد و چند ده میلیارد و الی آخر بالاتره چیزه ماجرا اینه که هرچی داده بهشون بدین نه نمیگن و میخورن سعی می‌کنن یه مدل بهتری ارائه بدن باز یه مفهوم دیگه که باز خیلی سریع می‌خوام فقط معرفیش کنیم ازش بگذریم مفهوم توکنایزره که یک مفهوم خیلی تخصصی تو حوزه نشنال لنگویج
بالاخره وقتی ورودی می‌گیریم در حد کرکتر بگیریم در حد کلمه خیلی جذاب نیست ای و بی و سی و اینا بگیری چون مفهوم خیلی دیگه نمیتونه کنار خودش نگه داره ورد هم که بگیرید خب دیدن که خیلی چیز تمیز در نمیاد یه چیزی بینابین درآوردن که ما الان خیلی کار تخصصی روش نداریم اینکه توکنایز می‌کنن مثلاً فرض کنید پلیینگ مثلاً پلیشو یک کلمه میگیرن آی ان یه توکن دیگه خب که ممکنه تو فیلمی که بهتون معرفی کردیم از اونجا یه اشاره کوچیکی بهش میکنه دیده باشید خب که کلاً قبل از اینکه وقتی اینپوت تستتون رو میدید اول توکنایزش می‌کنید بعد میریم وارد حالا امینگ و ترنسفورمش میکن فرض کنید این تیکه داره برای ما انجام میشه یا اینکه توی عکس مثلاً این وی آی تی بهتون گفتیم روش ژ ترنس گفتیم عکس رو چیکارش کنیم و تو توکنایزش کنیم پچ پچ کنیم پچ ها میشن یه توکن ما ما
داستان چه معماری‌های معروفی تو حوزه لارج لنگویج مادلا داریم سه تا معماری معروف داریم یا انکرین که شبکه برت درباره نمونه یا روبرتا روبرتا شبکه‌ای که روبرت با داده‌های بیشتری شده و ربات تر شده خب خدمتتون عارضم که بست لنگویج مادله اینجوریه که گفتم یه جمله بهش بدید ۱۵ درصد کلمات که شما برداشتی خالی کردید اون برای شما تخمین بزنه خب شبکه‌های دیکودر آنلی داریم که جی پی تی ها همشون از این جنس کلا دیکودرن و انکر آن تو ترین شدن خیلی استیبل تر از شبکه های ان کد خب راحت تر و بهتر و بهتر سایزشون بالاتر بره این برای کلاسسیفیکیشن استفاده میشه یه متن بهش اخبار چیه
چه ویژگی جذابی تو شبکه وجود داره تولید میکنه داشته باشد بفرمایید وحشت نمیتونه مگر ایجنت های جدید اگر برسم جلسه آینده که قابلیت سرچ هم بهش اضافه میکنه یعنی میگه ببین برو گوگل سرچ کنید یعنی وزنش فریزه ولی قابلیت های میده به اینکه برو از کنار این ابزارها استفاده کن مثلاً تورات برو از اینم کمک بگیر این کار جذاب از چند تا چیز این کد را چیان شبکه‌هایی هستند که خب