SCR_Course_ChatBot / data /LLM-Part1_transcript_part3.txt
MaryamKarimi080's picture
Upload 160 files
d48d4f3 verified
باید وایسه خروجی هدهای مختلف کانکت بشن درسته که بعد بیاد ازش استفاده کنه این فرقیه که اساساً داره با اون دو تا روش دیگه‌ای که می‌خوام خدمتتون عرض کنیم و حتی دیدن استفاده کنند زبان محلی تو شیلی که دیتا ست خیلی خیلی کمی هم داشته با تعویض فقط کردن مثل انگلیسی حلش کرده بودند و دیدن که اینا از جاهایین که میتونید تعویضش بکنید و مثلا یه سری مفاهیم مثل اینکه تو اون جمله کی نهاده کی فلانه تو چیزهای دیگه دیده شده باشه و این فقط ارجاع بده به اون تسک خاص اون زبان خاص خوب و احتمالا این کار بتونید انجام بدید موضوع
یکی ببینیم سرما خوردم الان عرض کردم خدمتتون اینه که ازتون پرسیده بودیم به نظر عوض کنیم ممکنه نتیجه تغییر کنه همتون شهودی گفتید که بله ماجرا اینه که تو سافت کاری که داره وارد شبکه ترانس بخش اضافه میکنه کنار اون چیزایی که شما دادید خب شما نوشتید ترنس تو انگلیش این چند تا چهار تا خونه دیگه هم اضافه می‌کنه مثلاً تو اردر ۵۰۰ تا هم باشه کافیه ۱۰ تا دونه توکن بگذارید
درصد پارامتر فقط تو شبکه فاینتیون میشن و دیدن که همین کارو که می‌کنن دقت می‌ره بالاتر و یه سری تسک‌ها رو می‌تونن چیکار کنن به خوبی انجام بده یه چیز دیگه داریم از سافت یه کوچولو خفن‌تره بهش میگن پریفیکس و اون حرفش اینه که فقط نیاد تو ورودی شبکه این توکن ها رو اضافه کن برو تو ورودی هر لایه توکن اضافه کن یعنی حتی لایه یکت عوض شد یک سری توکن های ورودی میاد اونجا هم باز دوباره چیکار کن دوباره بیا توکن جدید بهش بده و این تا آخر شبکه برو جلو و حتی دیدن باز دوباره توی سری تسک های مثل سایزیشن یا تکست تو تیبل دقتش از پولیفاتیون روی اون شبکه بالاتر رفته تعداد داده های محدودی که داشته و اتفاقی هم که میفته معادل ریاضیش اینه که میاد به
کوئری و ولیو احتمالاً به ماتریس دبلیو ماتریس پی و ولیوهایی که بود کیو ولیو داشتن میرفتن زرد میشد ادامه میداد چند ستون اضافه کردیم که اون ستون و این ستون دستی اضافه کنید و اینو بکنید شما شبکه خواهید داد و دقتش خیلی خوب میشه و آخرین روشی که می‌خوایم بهتون بگیم یه روش حرف حسابش هم اینه میگه شما کی و ولیو داشتید که میرفت دات میشد این دبلی برو اصلاحش کن این w تمام پارامترهاش با یه دلتا دبلیو جمع بزن ولی اینجوری که من میگم این کار بکن w ممکنه ۱۰۰ باشه یعنی چند تا پارامتر داره ۱۰۰۰۰ تا
ماتریس چاق و لاغر در نظر بگیر اولی باشه ۱۰۰۰۰ در ۲ فرض کن بعدی باشه ۲ درصد خب اول که میاد به دو تبدیل بشه به صد دوباره و چیزی که تولید میشه ۱۰۰۰۰ تاییه و این بره با اون در واقع چیزهای معادل در یارو ولیو جمع بشه ها اضافه کنه خب و این فقط ترین بزار w فیکس کن مثلاً رفتی با رفتی جلو دبلیو کو فیکس بکن ولی اجازه بهش بده به موازی دبلیو یه تغییراتی رخ بده wو به علاوه دلتا دبلیو بشه تو هر درایهش اون دلتا چجوری گفتیم به دست میاد یه ماتریس آ و بی شما تریل کن که وقتی ایکس میاد
ورودی اول در آ ضرب بشه ابعادش کوچیک بشه بعد دی درش ضرب بشه بزرگ بشه این هم سایز میشه با w جمع بشن و اینو بده تا آخر برو دیدن این کارو که می‌کنن باز دوباره دقت‌های عجیب غریب می‌گیرند و فقط همین قدر به من بگید الان فرض کنید باز مثل قبلی ۱۰۰% در دو داریم ماتریس یه دو درصد چند تا پارامتر داریم کلاً ۴۰۰ تا تک دونه داریم برای دبلیو کوکی مثلاً ۴ تا تک با همین تعداد در واقع دبلی ها دیدن تغییرات عجیب غریب رخ می‌ده مثلاً فرض کنید که روش لورا رو که زدن روی مثلاً دیتا ست چرا ویکی اسql دیدن که با تعداد مثلاً ۱۰ به توان هفت تا پارامتر دقتش از حالتفیکس بهتره از عادت از ادپتر دار بهتره ولی آخر خب و خوبیش اینه که
داشته باشید یه بار دیگه مرور بکنیم ادپترا می‌رفتن کجا می‌رفتن بعد فیت فوروارد می‌نشستن تو هر لایه لوراها چیکار می‌کردن w رو اصلاح می‌کردن با یه دلتایی جمع می‌زدن و پریفکسیونینگ چیکار میکرد یا فقط به ورودی ها میومد چند تا توکن اضافه میداد شما داشته باشید خب کلا اگر استفاده کنید تعداد پارامتر شبکه که استفاده میشه زیر ۵ در درصد تعداد شبکه های تعداد شبکه‌های پارامترهای شبکه را دست میزنید ولی واقعاً می‌تونید با دقت و عجیب غریب برسید به خصوص وقتی تسک های جدید میخوید بهش یاد بدید که قبلاً ندیده و از مدل‌های زبانی استفاده کنید البته با توجه به محدودیت‌های فعلی سخت افزاری نرم افزاریمون کسایی که فایل میکن ودارن شبکه برت و تی فایو و اینا رو دست میزنن
دانشگاهی می ارزه یا نه یا اینکه بزنیم نگاه کنید که اصلا دستش نزنید با خودش برید جلو یا اگه می‌خوایدش بکنید روش شبیه ترنسفر لرنینگ بد نیست نمیگم می‌کشتتون ولی روش بهینه‌تر وجود داره روش‌های لورا چیز هدف و پریفشون اینه که شبکه رو یه جایی کوچولو
لول هد مثلاً ورود می‌کنه خب و این تغییرات رقم میزنه و این اتفاقاتی که باید به خاطر بسپارید تا انشالله جلسه بعدی تو کارهای ازش چیز کنیم دیگه استفاده بکنیم معرفی کنیم یادتون بیاد که اینا چی بودن عصبی ماتریس همونه دیگه ماتریس دبلیو همونه شبکه عصبی اول میکنه بعد بزرگ میکنه حالا روش تحقیق کردم جالبه گفتن آیا این دلتا دبلیو که داره اضافه میشه صرفا داره چیز هایلایت میکنه یعنی تو تسک های قبلی میاد فقط پر
واقعا مفاهیمی از تسک جدید بکنید چون اول شبکه می‌خواید تغییر نکنه یعنی صفر باشه تاثیرش بخش بیش خود صفر میزارن استفاده کردید خود دبلیو برت بیاد بالا ولی به مرور زمان چی میشه وارد بشن تغییر من برداشت خودم شخصی میگم یکی دو تا چیزهایی که حاشیه خوندم یا شنیدم کنارش یکی در مورد این جمله را اضافه کنم مطالعه کردم دیدم لایه آخر خیلی تاثیرشون بیشتر از عدد لایه
افت کیفیت کار داریم و به نظر میاد لایه آخر دستگاه خیلی مهم میشن که همه واریانت‌هایی که به ذهنشون خورده رو زدن گفتن ثابت باشه برای چی باید این جمله صفحه اینجا باشه شاید اونجاتر بیفته بهتر باشد میخواستم بگم این تفاوت ذاتی شبکه‌های فعلی اون با قبلی قبلی یک لایه رو فریز میکیم اینجا این کارو کرده که وسط وسطاش محاصره میشه لایه های قابل ترین شدن با لایه های غیر قابل شدن و این ترید شده ها یاد میگیند که ورودی و خروجی که میدن تحویل تو اشل قبلی باشه یعنی باید یاد بگیرند که چیزی که میدن تحویل بالایی تغییرات
شبکه خیلی هوشمند میشن برای اینکه ماژول‌های قابل چیز باشد برداشتن اینزرت کردن باشند یعنی ماژول‌های هوشمندی که می‌تونند کارهای دست نمی‌زده ولی الان این کار میکنن برداشت شخصیت خب بچه‌ها من تا این لحظه اجازه بده متوقف کنم آقای تشریف بیارید تا ۱۲: نیم بچه‌ها اگه امکان داره تشریف داشته باشید من خودم جلسه دارم ولی ما یک جلسه دیگه بیشتر نموندیم حیفه واقعا برسیم همه اینا رو وقت گذاشتیم حالا محمد هم زحمت کشیده کلی
دسترسی بدم به اشتراک خود در خدمت سلام عرض می‌کنم همگی
مرور میکنیم با پکیج ترن انجام بدیم استفاده میکنه موقع ری استارت بکنید بعد ادامه ادامه بدید تا بتونید ازش استفاده کنید وگرنه توی بخش آخر ارور میده برای اینکه اگر حالا این بخش آخر توضیح میدم اول که مربوط به حالا یه سری غذا ۱۰۱ غذا یه نمونش اینجا هست و حالا لی
پایین همبرگر نوشته دیتا ست خیلی راحته صرفا اسم دیت انتخاب برمیدارید بعد میشه سریع انجام بشه یه تعداد انتخاب انجام دادیم که حالا تست نمونه دیدیم حالا تاب برای اینکه حالا
لیبل رو حالا یه آیدی خروجی کلاً کار می‌کنه اینکه پچ پچ میکنه عکس رو نیاز نیست از این کارا بکنیم یه پروسسری همراه با خود مدل معرفی می‌کنن لود میکنیم افراد همون چیزی که مدل ورودی بدیم بدست میاد سه مدلی هم که انتخاب کردیم اینه ۱۶ در ۱۶ عکسامون باید 24 باشه روی نت ۲۱ کلاس شده اینجا حالا یه کاری که خوبه که بکنیم برای زمانی که میخویم بکنیم برای اینکه خیلی سریع مدل
خود عکس‌هایی که دارن تبدیل می‌کنیم نرمالایزش میکنیم که سریع انجام بشه تعریف میکنیم که انجام بدیم براتون نوشته ولی خب روالش خیلی ساده است چیز پیچیده ای نداره زمانی که میخویم در واقع انجام بدیم خب باید یه بچ بکنیم که بعد اونا رو بچه ها رو به مدل بدیم یه دونه کلاس تعریف کالکتور که فقط به پایین تر که ببینید کلاس که بدیمش خودش
پیچیده‌ای نداره خود ترینینگ اول مدل رو لود میکنیم در مورد لورا صحبتی نمی‌کنیم لود کردن مدل بالاتر اسم مدلی که تعریف کردیم حالا توی ها میتونیم نمونه اش ببینیم اینجا میتونیم بیاید داخل سایت فیس مدل سرچ بکنید نشده اینجا
روی هدف الان میاد
تبدیل بشن آره اسم مدله بعد خب اینجا وقتی که لودش میکنیم میگه که یه سری از وزن ها به صورت رندومشالله شدن باید از مدل استفاده کنید دلیلش اینه که اضافه شدن چون این کار میکنه به صورت خودکار خود پکیج ترنس میاد یه سری هد اون هدی که روی
انجام بدیم خب بعد از اینکه حالا مدل لود کردیم حالا الان بهش برمیگردیم یه تابعی کلاس ترینر باید تعریف کنیم که مدل را بهش میدیم بالاتر الان باید تعریف بکنیم دیتاچ بکنه تستمون با توجه به اینکه مدل اصلی ما شماره توکنایز باید بده و اون هم متریک ما که حالا پایین شده اینجا برای حساب میکنه خب برگردیم سراغ مهمترینش هم
آپلود میشه اینجا باید اون دایرکتوری اون اسمی که می‌خواید رو بهش بدید داخل ممکنه استفاده نشن یا می‌تونید بهش بگید که حالا استفاده حذفشون بکنه یا نکنه استراتژی اینکه داخل این پایین که داره چیز میکنه هر مرحله کار انجام که استراتژی همون بحث حالا سیو کردن مدل شما هر چند سیو میکنم که باین تا آخرش که بشه از بعدش سا ترین ولیشن
بیشتر برای زمانی که مدل شما بزرگ خیلی بزرگ نمی‌تونید انتخاب بکنید استفاده می‌کنیم به این شکل است که ۴ تا استپ صبر می‌کنه اون گرادیان‌هایی که در محاسبه میشن رو با همدیگه جمع میکنه بعد از اون چهار تا تموم شد تقسیم انجام میده این کمک میکنه که اگه سایزمون کوچیکه یک مقدار دقتش پایین تر میاد ولی خوب در واقع کمک میکنه که انجام میشه خیلی زیاد بکنیم مدل بزرگ باشه مشکل
دیتاکالیتور نه بر اساس این چیزی که ما اینجا تعریف کردیم معمولا مدل اجازه شروع مشخص مدل انتخاب کردم مدل مختلف
سمت چپم دستگاه مختلف تعریف می‌کنیم در نهایت به ۹۱ درصد دقت بود همچنان بشه حدود ۱۶ دقیقه ۱۶ دقیقه طول کشید اینم حالا برای اینکه مدلتون آپلود بشه روی ازش استفاده بکنیم خب یک خروجی هم از مدل ببینیم مدلی که به صورت شده یک دونه عکس برداشتیم که حالا اسمش اینه حالا تلفظشو نمیدونم
ادامه بدید اینجا اول پروفسور رولود میکنیم بعد روی اپلای میکنیم که در واقع همون کار پس سازی و دیتا تبدیل کردن روی هاپ و حالا این مربوط پای که در واقع لاجیک ها را میگیریم میتونیم کلاسی که حالا بیشترین احتمال رو داره انتخاب بکنیم و در نهایت هم لیبل نهایی را که این بار درست چیز کرد حالا برای یک روش ساده تر هم اینه که از استفاده
کلاس ما دوست داریم به اون حالت برسه ۹۲ قبل رسیدیم کامل لود بکنیم و
باید بسازید یا رایت یا حالا هر چیز دیگه بهش بدیم وقتی که این کار میکن اون چیزی که اول بود اینجا که لود بکنیم که را بکنید یه حالا یه چیزی برای شما باز کپی بکنید وقتی این کار بکنید دیگه شما را میشناسه که شما هستید اکانت دارید و با این توکن اصلی میتونیم مدل سراغ مراحلی که انجام خیلی مشابه هم هست توضیحات هم هست خودتون بخونید
اضافه بشه انجام میدیم تعریف میکنیم اینجا در واقع بخشی که متفاوت است شروع اول اینکه یه تابع تعریف کنیم برای اینکه تعداد پارام را به ما بده کل پارامتر درصدی که این دو تا با هم دارند زمانی که مدل را به صورت عادی لود بکنیم که
تعداد پارامترها حدود شروع میکنیم حالا ساخت اضافه بکنیم اول از همه باید یک کانفیگ تعریف بکنیم استفاده کنیم از لو استفاده کردیم این همون رنگ ماتری چاق و لاغ است استفاده ۱۶ اینجا انتخاب ۱۶ آلفا در واقع پارامتر اسکیلینگ زمان ما در واقع به این معنی است که