Tag: ChatGPT

  • تاریخ خبر: 15/03/2023

    مبانی داده ­ها، موارد استفاده و پروژه­ها Kurt Muehmel

    ارائه و معرفی ChatGPT توسط آزمایشگاه تحقیقاتی هوش مصنوعی آمریکایی  OpenAI در دسامبر 2022 توجه فوقالعاده را به ­خود جلب کرده­ است. این کنجکاوی در­مورد هوش مصنوعی به­ طور­ کلی تا کلاس فناوری­ هایی که به­ طور­ خاص زیر بنای چت ربات هوش مصنوعی هستند گسترش می ­یابد. این مدل‌ها که مدل‌های زبان بزرگ (LLM) نامیده می‌شوند، قادر به تولید متن در ­طیف به ­ظاهر بی‌پایانی از موضوعات هستند. درک LLM برای درک نحوه کار ChatGPT کلیدی است.

    چیزی که LLM­ ها را چشمگیر می­کند توانایی آنها در تولید متنی شبیه متن نوشته شده توسط انسان در تقریباً هر­زبانی (از جمله زبان­های کدنویسی) است. این مدل‌ها یک نوآوری واقعی هستند. هیچ ­چیز مشابه آنها در­ گذشته وجود­ نداشته است.

    این مقاله توضیح می ­دهد که این مدل­ها چیستند، چگونه توسعه یافته ­اند و چگونه کار می­ کنند. وبرای اینکه کاملاً بفهمیم چطور کار می­کنند. همانطور­که معلوم است، درک ما از اینکه چرا آنها کار می کنند بسیار ناچیز است.

    مدل زبان بزرگ (LLM) نوعی شبکه عصبی است

    شبکه عصبی نوعی مدل یادگیری ماشینی است که براساس تعدادی توابع کوچک ریاضی به نام نورون­ها ساخته­ شده­ است. مانند نورون­های مغز انسان، آنها پایین­ترین سطح محاسباتی را دارند.

    هر نورون یک تابع ریاضی ساده است که یک خروجی را بر­اساس مقداری ورودی محاسبه می کند. با ­این­حال، قدرت شبکه عصبی از اتصالات بین نورون­ها ناشی می­شود.

    هر نورون به برخی از همتایان خود متصل است و قدرت هر اتصال از طریق یک وزن عددی تعیین می­شود. آنها درجه­ای را تعیین می­کنند که خروجی یک نورون بعنوان ورودی به نورون بعدی در نظر گرفته می­شود.

    یک شبکه عصبی می­تواند بسیار کوچک باشد. بعنوان مثال، یک نورون پایه می­تواند شش نورون با مجموع هشت اتصال بین­آنها داشته باشد. با­این­حال، یک شبکه عصبی نیز می­تواند بسیار بزرگ باشد، همانطور که در مورد LLM­ ها صدق­ می ­کند. اینها ممکن است میلیون­ها نورون با صدها میلیارد اتصال بین آنها داشته باشند که هر اتصال وزن خاص خود را دارد.

    یک LLM از معماری ترانسفورماتور استفاده می­کند

    ما تا کنون می‌دانستیم که LLM نوعی شبکه عصبی است. به­طور خاص ، LLM­ها از معماری شبکه عصبی خاصی به نام ترانسفورماتور یا مبدل استفاده می­کنند که برای پردازش و تولید داده های متوالی مانند متن طراحی شده است.

    معماری در­ این ­زمینه نحوه اتصال نورون­ها به­ یکدیگر را توصیف می­کند. همه شبکه ­های عصبی نورون­ های خود را در چندین لایه مختلف گروه­بندی می­کنند. اگر لایه‌های زیادی وجود داشته باشد، شبکه بعنوان «عمیق» توصیف می‌شود، که اصطلاح «یادگیری عمیق» از آنجا آمده است.

    در یک معماری شبکه عصبی بسیار ساده، هر نورون ممکن است به هریک از نورون­ها در لایه بالای خود متصل شود. در برخی­ دیگر، یک نورون ممکن است فقط به برخی از نورون­های دیگر که در نزدیکی آن در یک شبکه قرار دارند متصل شود.

    مورد دوم در شبکه‌های عصبی کانولوشنال (CNN) وجود دارد. سی‌ان‌ان‌ها پایه­و­اساس تشخیص تصویر مدرن را در دهه گذشته تشکیل داده‌اند. این واقعیت که CNN در یک شبکه (مانند پیکسل های یک تصویر) ساختار یافته است تصادفی نیست. در­واقع، این دلیل مهمی است برای­اینکه چرا آن معماری برای داده­های تصویری به­ خوبی کار می­کند.

    با­این­حال، ترانسفورماتور تا­حدودی متفاوت است. یک ترانسفورماتور که در سال 2017 توسط محققان گوگل ساخته شد، ایده «توجه» را معرفی می‌کند، به موجب آن نورون‌های خاصی که قوی‌تر هستند به نورون‌های دیگر در یک توالی متصل می‌شوند یا «به آنها توجه بیشتری می‌کنند».

    از آنجایی که متن در یک دنباله خوانده می شود، یک ی­پس­از­ دیگری، با بخش‌های مختلف یک جمله که به دیگران اشاره می‌کند یا آن را تغییر می‌دهد (مانند صفتی که اسم را تغییر می‌دهد اما فعل را تغییر نمی‌دهد) همچنین تصادفی نیست که معماری ای که برای کار متوالی، با نقاط قوت ارتباط متفاوت بین بخش­های مختلف آن دنباله ساخته ­شده ­است، باید روی داده­های متنی به ­خوبی کار کند.

     یک LLM خودش را می­سازد

    بعبارت ساده‌تر، مدل LLM یک برنامه کامپیوتری است. مجموعه­ای از دستورالعمل­ها است که محاسبات مختلفی را روی داده­های ورودی خود انجام می­دهد و یک خروجی ارائه می­دهد.

    با ­این­حال، چیزی که در مورد یادگیری ماشین یا مدل هوش­ مصنوعی مهم است، این­ است­ که به­ جای نوشتن آن دستورالعمل­ها به ­طور­صریح، در­ عوض برنامه­ نویسان انسانی مجموعه­ای از دستورالعمل­ها (یک الگوریتم) را می­ نویسند که سپس حجم زیادی از داده­های موجود را برای تعریف خود مدل بررسی می­کند. به ­این­ترتیب، برنامه­ نویسان انسانی مدل را نمی­سازند، بلکه الگوریتمی را می­سازند که مدل را می­سازد.

    در مورد LLM، این بدان­ معناست که برنامه­ نویسان معماری مدل و قوانینی را که بر­اساس آن ساخته می­شود، تعریف می­کنند. اما آنها نورون­ها یا وزنه­های بین نورون­ها را ایجاد نمی­کنند. این در فرآیندی به نام "آموزش" انجام می­شود که در ­طی ­آن مدل، به­ دنبال دستورالعمل ­های الگوریتم، خود آن متغیرها را تعریف می­کند.

    در مورد LLM، داده­ای که بررسی می­شود متن است. در­برخی­موارد، ممکن است تخصصی­تر یا عمومی­تر باشد. در بزرگ‌ترین مدل‌ها، هدف، ارائه هرچه­بیشتر متن دستوری به مدل برای یادگیری است.

    در ابتدا، خروجی نامفهوم است، اما از­طریق یک فرآیند عظیم آزمون­و­خطا و با مقایسه مداوم خروجی آن با ورودی آن کیفیت خروجی به­تدریج بهبود می­یابد و متن قابل فهم­تر می­شود.

    با­توجه ­به زمان کافی، منابع محاسباتی کافی و داده­های آموزشی کافی، مدل یاد می­گیرد که متنی را تولید کند که برای خواننده انسانی، از متن نوشته شده توسط انسان قابل تشخیص نیست. در برخی موارد، خوانندگان انسانی ممکن است بازخوردی را به شکل نوعی مدل پاداش ارائه دهند و زمانی که متن به­خوبی خوانده می‌شود یا زمانی که خوانده نمی‌شود به­آن بگویند (به این می‌گویند «یادگیری تقویتی از بازخورد انسانی» یا RLHF). مدل این را در نظر می­گیرد و به­طور­مداوم خود را بر­اساس آن بازخورد بهبود می­بخشد.

    یک LLM پیش­بینی می­کند که کدام کلمه باید کلمه قبلی را دنبال کند

    یک توصیف بسیار ساده از LLMها این­است که آنها «به­سادگی کلمه بعدی را در یک دنباله پیش‌بینی می‌کنند». این درست است، اما این واقعیت را نادیده می­گیرد که این فرآیند ساده می تواند به این معنی باشد که ابزارهایی مانند ChatGPT متن با کیفیت بسیار بالایی تولید می­کنند. به­ همین­ سادگی می‌توان گفت که «مدل به­ سادگی محاسبه ریاضی انجام می‌دهد»، که این نیز درست است، اما برای کمک به درک نحوه عملکرد مدل یا درک قدرت آن چندان مفید نیست.

    نتیجه فرآیند آموزشی که در بالا توضیح داده شد یک شبکه عصبی با صدها میلیارد اتصال بین میلیون‌ها نورون است که هر­کدام توسط خود مدل تعریف شده‌اند. بزرگترین مدل­ها حجم زیادی از داده­ها را نشان می­دهند، شاید چند صد گیگابایت فقط برای ذخیره تمام وزن­ها.

    هر­یک از وزن­ها و هر­یک از نورون­ها یک فرمول ریاضی است که باید برای هر کلمه (یا در­برخی موارد، بخشی­از یک کلمه) که برای ورودی آن در­اختیار مدل قرار می­گیرد و برای هر کلمه (یا بخشی از یک کلمه) محاسبه شود که به عنوان خروجی خود تولید می­کند.

    این جزئیات فنی است، اما به­ این «کلمات کوچک یا بخش‌هایی از کلمات» «نشان‌ها» یا «توکن ها»  گفته می‌شود، که معمولاً وقتی استفاده از این مدل‌ها بعنوان یک سرویس ارائه می‌شوند، قیمت‌گذاری می‌شود. در ادامه در مورد آن بیشتر توضیح خواهیم داد.

    کاربر در­حال تعامل با یکی­از این مدل­ها، ورودی را در قالب متن ارائه می­دهد. برای ­مثال، می‌توانیم دستور زیر را به ChatGPT ارائه کنیم:

    سلام ChatGPT ، لطفا یک توضیح 100 کلمه­ای از Dataiku به من ارائه دهید.

    شرحی از نرم­افزار و ارزش اصلی آن را درج کنید

    سپس مدل‌های پشت ChatGPT این درخواست را به توکن تبدیل می‌کنند. به طور متوسط، یک نشانه ⅘ از یک کلمه است، بنابراین دستور بالا و 23 کلمه آن ممکن است منجر­به حدود 30 نشانه شود. مدل GPT-3 که مدل gpt-3.5-turbo مبتنی ­بر آن است، 175 میلیارد وزن دارد، به­ این­ معنی که 30 توکن متن ورودی به 30x 175 میلیارد = 5.25 تریلیون محاسبات منجر می­شود. مدل GPT-4 که در ChatGPT نیز موجود است، دارای وزن نامشخصی است.

    سپس، مدل شروع به تولید پاسخی می‌کند که بر­اساس حجم متنی که در­طول آموزش مصرف کرده، درست به نظر می‌رسد. نکته مهم این است که چیزی در مورد سوال جستجو نمی­کند. هیچ حافظه‌ای ندارد که بتواند «dataiku»، «value proposition»، «software» یا هر­عبارت مرتبط دیگری را جستجو کند. در­عوض، تولید هر نشانه متن خروجی را آغاز می­کند، 175 میلیارد محاسبات را دوباره انجام می­دهد، و رمزی را تولید می­کند که به ­احتمال قوی­تر درست به نظر می رسد.

    LLM­ها متنی را تولید می­کنند که درست به­ نظر می­رسد اما نمی ­توانند تضمین کنند که درست باشد.

    ChatGPT نمی­تواند تضمینی برای درست بودن خروجی­ش ارائه دهد، آن فقط درست به ­نظر می­رسد. پاسخ‌های آن در حافظه‌اش جستجو نمی‌شوند آنها بر اساس 175 میلیارد وزنی که قبلاً توضیح داده شد، ایجاد می‌شوند.

    این نقص مختص ChatGPT نیست، بلکه مربوط به وضعیت فعلی همه LLM­ها است. آنها مهارتی در یادآوری واقعیات ندارند. ساده­ترین پایگاه­های داده این کار را به­خوبی انجام می­دهند. در عوض، نقطه­قوت آنها در تولید متنی است که مانند متن نوشته شده توسط انسان خوانده می­شود و خوب به­نظر می­رسد. در بسیار ی­از ­موارد، متنی که درست به نظر می­رسد نیز در­واقع درست خواهد بود، اما نه همیشه.

    در آینده، این احتمال وجود دارد که LLM­ها در سیستم­هایی ادغام شوند که قدرت تولید متن LLM را با یک موتور محاسباتی یا پایگاه دانش ترکیب می­کنند تا پاسخ­های واقعی را در متن زبان­طبیعی بصورت قانع کننده­ای ارائه دهند. آن سیستم‌ها امروزه وجود ندارند، اما به­راحتی می‌توان تخمین زد که چقدر طول می‌کشد تا آنها را ببینیم.

    امکان دیگر این است که اگر می‌خواهید اطلاعاتی را که قبلاً دارید در قالب پاسخ زبان طبیعی به کاربران ارائه دهید، می‌توانید آن پاسخ‌ها را به ابزارهایی مانند ChatGPT ارائه دهید و از آنها بخواهید بر­اساس آن پاسخ‌ها جوابی بسازند. Dataiku یک نسخه نمایشی با استفاده از GPT-3 برای ارائه پاسخ از اسناد Dataiku ایجاد کرده است که دقیقاً این کار را انجام می­دهد.

    آیا GPT-4 یک LLM است؟

    در 14 مارس 2023، OpenAI ، آخرین نسخه از مدل­های خود را در خانواده GPT به نام GPT-4 منتشر کرد. علاوه­ بر تولید متن با کیفیت بالاتر در­مقایسه با GPT-3.5، GPT-4 توانایی تشخیص تصاویر را نیز ارائه می­دهند. ممکن است قادر به تولید تصاویر نیز باشد. با­این­حال، این قابلیت، اگر وجود داشته باشد، هنوز در­دسترس نیست. توانایی مدیریت داده­های ورودی­ و­ خروجی از انواع مختلف (متن، تصاویر، ویدئو، صدا و غیره) به­ این­ معنی است که GPT-4 چند­وجهی است.

    اصطلاحات مربوط ­به ­این مدل­های آخر به­ سرعت در­حال تکامل است، مطابق با برخی از بحث­ها در جامعه متخصص استدلال می­شود که "مدل زبان" بسیار محدود­کننده است. اصطلاح "مدل بنیاد" توسط محققان در استنفورد رایج شده است، اما همچنین منبع بحث­هایی است. مانند خود فناوری، زبان مورد استفاده برای توصیف فناوری به­سرعت به تکامل خود ادامه خواهد داد.

    استفاده از ChatGPT، GPT-4 و مدل­های زبان بزرگ (LLM) در سازمان

    ما از ChatGPT و یکی از مدل‌های آن، gpt-3.5-turbo، بعنوان­ مثال در سراسر این مقاله استفاده کرده‌ایم، اما این تنها یک مدل و یک محصول در­ میان بسیاری از آن‌ها است. برخی از LLM­ها اختصاصی هستند و از­طریق یک رابط وب یا یک API مانند ChatGPT قابل دسترسی هستند. سایر LLM­ ها منبع باز (open source) هستند و اگر توان محاسباتی و مهارت لازم برای انجام این کار را داشته باشند، می­توانند توسط یک دانشمند یا مهندس داده باهوش دانلود و اجرا شوند. برای هر رویکرد جانشین­هایی وجود دارد.

    مطالعه کامل خبر

عصر ارتباطات بین الملل پارس کار 2022-2007 ، شماره پروانه 100/70897