طراحی برای تأخیر: وقتی سرعت هوش مصنوعی به تجربه کاربری تبدیل میشود
یک دفترچه راهنمای کاربردی برای طراحی پیرامون تأخیر هوش مصنوعی. متن جاری، رابط کاربری خوشبینانه، افشای پیشرونده، سطوح استدلال و عوامل پسزمینه، به همراه تشریح واقعی Claude.ai، Cursor، Linear هوش مصنوعی، Granola و Perplexity. به علاوه محاسبات مربوط به سرعت درک شده.

تأخیر هوش مصنوعی مهمترین مشکل تجربه کاربری در محصولات هوش مصنوعی است و تقریباً هیچکس آن را به عنوان کار طراحی در نظر نمیگیرد. تیمهایی که بهترین تجربیات هوش مصنوعی را ارائه میدهند، دیگر منتظر مدلهای سریعتر نماندند و شروع به طراحی پیرامون این انتظار کردند.
این دفترچه راهنما است. ریاضی سرعت درکشده، پنج الگویی که کار میکنند، چهار الگویی که شکست میخورند، پنج مورد از بین بردن، و یک چکلیست قبل از ارسال.
تأخیر هوش مصنوعی یک مشکل طراحی است، نه یک مشکل مهندسی
اکثر محصولات هوش مصنوعی کند به نظر میرسند زیرا با تأخیر به عنوان مشکل مهندسی برخورد میکنند. مهندسی یک مدل سریعتر ارائه میدهد و محصول همچنان کند به نظر میرسد، زیرا گلوگاه هرگز میلیثانیه نبود. این انتخاب طراحی بود که باعث شد کاربر به یک اسپینر خیره شود و چیزی برای خواندن نداشته باشد.
کاربر میلیثانیهها را اندازهگیری نمیکند. کاربر اندازهگیری میکند که آیا اتفاقی در حال رخ دادن است یا خیر. چهار ثانیه پخش نثر به همان سرعت خوانده میشود. ۱.۵ ثانیه عقبتر از یک مودال به عنوان خراب خوانده میشود.
ریاضی سرعت درکشده
یک پاسخ چهار ثانیهای که به همان سرعت خوانده میشود. یک پاسخ ۱.۵ ثانیهای که خواندن را مسدود میکند، کند تلقی میشود. سرعت درکشده مربوط به چگالی بازخورد است، نه زمان سپریشده. این حقیقت واحد، هر تصمیم تأخیر را در یک محصول هوش مصنوعی از نو مرتب میکند.

اعداد مهم، زمان رسیدن به اولین توکن و توکنها در ثانیه هستند، نه کل زمان پاسخ. کمتر از ۵۰۰ میلیثانیه به اولین توکن، فوری به نظر میرسد. سی تا هشتاد توکن در ثانیه با سرعت انسان خوانده میشود. بودجه کل پنج ثانیهای وقتی از توکن یک جریان مییابد، قابل تحمل است و وقتی مسدود میشود، خراب میشود. حول این اعداد طراحی کنید و یک مدل کندتر میتواند سریعتر از رقبا به نظر برسد.
پنج الگویی که کار میکنند
متن جاری. رابط کاربری خوشبینانه. افشای پیشرونده. سطوح استدلال. عوامل پسزمینه. هر محصول هوش مصنوعی عرضهشده که در سرعت درکشده برنده میشود، حداقل به سه مورد از آنها متکی است و بهترین آنها به هر پنج مورد متکی است.
این پنج مورد ترکیب میشوند. جریان به کاربر چیزی برای خواندن میدهد. رابط کاربری خوشبینانه چیزی برای دیدن به آنها میدهد. افشای تدریجی به آنها چیزی برای بررسی میدهد. سطوح استدلال به آنها چیزی برای اعتماد میدهد. عوامل پسزمینه کار دیگری برای انجام دادن به آنها میدهند. در مجموع، مدل ده ثانیه طول میکشد و محصول هنوز زنده به نظر میرسد.
متن جاری، انتظار را به پاسخ تبدیل میکند
الگوی اول، رندر توکن به توکن است. کاربر همزمان با نوشتن مدل، آن را میخواند و انتظار در خروجی ناپدید میشود. زمان رسیدن به اولین توکن تنها عددی است که اهمیت دارد. به محض اینکه اولین توکن به دست کاربر میرسد، او در حال خواندن است، نه انتظار.
جریان Claude.ai تمیزترین نمونه ارسال شده است. اولین توکن در کمتر از یک ثانیه میرسد و بقیه با سرعت خواندن سرازیر میشوند. کاربر در اواسط جمله پاراگراف اول است قبل از اینکه مدل پاراگراف دوم را تمام کند. همان مدل، که پس از چهار ثانیه به عنوان یک بلوک تمام شده تحویل داده میشود، مانند یک محصول متفاوت به نظر میرسد.
رابط کاربری خوشبینانه، قبل از بازگشت مدل، عمل را انجام میدهد
الگوی دوم، نتیجه را قبل از اتمام مدل نشان میدهد، سپس وقتی پاسخ به دست میآید، تطبیق میدهد. کاربر هنوز به پاسخ صحیح نیاز ندارد. آنها به آن نیاز دارند.

Linear هوش مصنوعی هنگام پذیرش یک پیشنهاد، این کار را انجام میدهد. نتیجه بلافاصله با یک حالت معلق ظریف در مسئله قرار میگیرد و تطبیق در پشت صحنه اتفاق میافتد. اگر مدل نتیجه متفاوتی را نشان دهد، رابط کاربری بدون هیچ گونه فلشی بهروزرسانی میشود. اگر شکست بخورد، رابط کاربری به عقب برمیگردد و خطا را نشان میدهد. کاربر به هر دو جهت حرکت میکند.
افشای تدریجی، اسکلت، پیشنویس و نهایی را ارسال میکند
الگوی سوم ابتدا اسکلت، سپس پیشنویس جزئی و در آخر خروجی نهایی است. ساختار قبل از محتوا قرار میگیرد که با دادن چیزی برای ردیابی به چشم، انتظار درک شده را از بین میبرد.
v0 این را در سطح prompt-to-app خود قرار میدهد. یک اسکلت طرحبندی تقریباً بلافاصله ظاهر میشود، اجزا همزمان با تولید مدل، پر میشوند و در آخر، پیشنمایش نهایی با استایل قرار میگیرد. Lovable همان نمایش را اجرا میکند. هر مرحله یک نقطه بازرسی است که کاربر میتواند در حین بارگیری مرحله بعدی آن را بخواند.
سطوح استدلال، زمان انتظار را به اعتماد تبدیل میکنند
الگوی چهارم، نشان دادن طرح یا فرآیند فکری مدل در حین کار است. تماشای استدلال یک عامل، بهتر از تماشای یک اسپینر است. همچنین باعث ایجاد اعتماد میشود، زیرا کاربر قبل از انجام کار، آنچه را که مدل سعی در انجام آن دارد، میبیند.
حالت عامل مکاننما این را با یک سطح طرح ارائه میدهد. کاربر قبل از اجرای اولین دستور، مراحل مورد نظر را میبیند. ChatGPT ردپاهای استدلال را برای مدلهای تفکر، با خلاصههای فکری قابل جمع شدن که به صورت نثر ساختار یافته خوانده میشوند، نشان میدهد. پانزده ثانیه استدلال قابل مشاهده، سه ثانیه جعبه سیاه را شکست میدهد.
عاملهای پسزمینه به کاربران اجازه میدهند در حین اجرای مدل، به کار خود ادامه دهند.
الگوی پنجم، خارج کردن عامل از پیشزمینه و قرار دادن آن در یک پنل کناری است. کاربر هرگز با یک درخواست هوش مصنوعی مسدود نمیشود. عامل در گوشه اجرا میشود در حالی که کاربر به نوشتن، کدنویسی یا طراحی در بوم اصلی ادامه میدهد.
عاملهای پسزمینه مکاننما، تمیزترین نسخه ارائه شده هستند. کاربر یک کار طولانی را شروع میکند و در حالی که عامل در یک پنل کناری کار میکند، ویرایش را در پیشزمینه ادامه میدهد. GitHub عامل کدنویسی Copilot همین کار را با وظایف به شکل درخواست pull انجام میدهد. این الگو فقط در صورتی کار میکند که کاربر کار دیگری برای انجام دادن داشته باشد و در هر گردش کار واقعی، همیشه این کار را انجام میدهند.
چهار الگویی که شکست میخورند
بیشتر محصولات هوش مصنوعی که کند به نظر میرسند، ترکیبی از چهار الگوی شکستخورده را ارائه میدهند. اسپینرهای خالص. حلقههای متنی متفکر. دیالوگهای مسدودکننده مودال. هیچ سیگنال پیشرفتی وجود ندارد. هر کدام حتی زمانی که پاسخ سریع است، سرعت درک شده را کاهش میدهند.
اسپینرهای خالص هر چیزی را که کاربر نیاز دارد پنهان میکنند
یک اسپینر بدون سیگنال پیشرفت یک جعبه سیاه است. کاربر چیزی برای جلب توجه ندارد و انتظار خواندن آن کندتر از همان انتظار با یک جریان توکن است. یک اسپینر به کاربر میگوید که نگاهش را برگرداند، که برعکس کاری است که یک سطح هوش مصنوعی باید انجام دهد.
اسپینر را حذف کنید. یک جریان توکن، یک اسکلت یا یک مسیر استدلال ارسال کنید. اگر پاسخ برای پخش شدن خیلی کوتاه است، یک حالت خوشبینانه ارسال کنید. اگر مدل کار نامرئی انجام میدهد، یک خط وضعیت ارسال کنید که آن را نامگذاری کند.
حلقههای متن Thinking نویز بدون اطلاعات هستند
یک حلقه متن Thinking چرخشی از یک spinner بدتر است. این نشان دهنده پیشرفتی است که وجود ندارد. کاربران در عرض دو جلسه یاد میگیرند که آن را نادیده بگیرند، که کانال را برای هر وضعیت واقعی که سطح بعدی ارسال میکند، از بین میبرد.

حلقه را با یک وضعیت واقعی جایگزین کنید. جستجوی سه منبع. خواندن فایل. تهیه پیشنویس پاسخ. خط وضعیت اطلاعات است. حلقه نویزی است که وانمود میکند اطلاعات است.
دیالوگهای مسدودکننده مودال، انتظارها را به دیوارها تبدیل میکنند
مودالی که بقیه رابط کاربری را در حین اجرای مدل مسدود میکند، گرانترین اشتباه تأخیر است. این حالت انتظار را به یک وضعیت گروگانگیری تبدیل میکند. کاربر نمیتواند اسکرول کند، نمیتواند پاسخ قبلی را کپی کند، نمیتواند کار دیگری انجام دهد.
مودال را حذف کنید. پاسخ را به صورت درون خطی، در یک پنل کناری یا در یک تست غیر مسدودکننده ارسال کنید. کاربر هرگز نباید به دلیل وجود یک درخواست هوش مصنوعی، دسترسی به بقیه محصول را از دست بدهد.
عدم وجود سیگنال پیشرفت به کاربر یاد میدهد که از صفحه خارج شود.
یک سطح هوش مصنوعی بدون سیگنال پیشرفت به کاربر یاد میدهد که فرض کند درخواست خراب است. آنها قبل از رسیدن پاسخ، دکمه بازگشت را میزنند. در بدترین حالت، صفحه را رفرش میکنند و درخواست را از دست میدهند.
هر سطح هوش مصنوعی که بیش از ۵۰۰ میلیثانیه طول بکشد، به یک سیگنال پیشرفت نیاز دارد. متن استریمینگ بهترین است. در مرحله بعد، یک اسکلت قرار دارد. یک ردیابی استدلال برای انتظارهای طولانیتر کار میکند. یک خط وضعیت برای هر چیز دیگری کار میکند. سیگنال باید وجود داشته باشد.
پنج بررسی واقعی محصول
پنج سطح هوش مصنوعی که تأخیر را به تجربه کاربری تبدیل میکنند.
Claude.ai، استریمینگ به عنوان کل تعامل
استریمینگ Claude.ai تمیزترین نمونه از تأخیر به عنوان ویژگی است. زمان اولین توکن در یک جلسه گرم به خوبی زیر یک ثانیه قرار میگیرد، نثر با سرعت خواندن فرود میآید و انتظار در خروجی ناپدید میشود.
حرکت طراحی، ثبت کامل در جریان است. بدون چرخنده، بدون متن تفکر، بدون اسکلت، فقط پاسخی که یک توکن را در هر زمان فرود میآورد. محصول در طول بیست ثانیه تولید سریع به نظر میرسد زیرا کاربر نوزده ثانیه از آن را خوانده است.
مکاننما، حلقه برنامهریزی و اجرا
مکاننما با نشان دادن برنامه عامل در ابتدا، اجرای هر مرحله با پیشرفت قابل مشاهده و ثبت تفاوتها هنگام ورود آنها، تأخیر را به اعتماد تبدیل میکند. یک کار چند دقیقهای هدفمند به نظر میرسد زیرا کاربر میتواند برنامه را بخواند، هر مرحله را تماشا کند و هر تفاوت را هنگام ثبت بررسی کند.
حرکت طراحی، رتبهبندی انتظار است. ابتدا برنامه. هر مرحله به عنوان یک ایست بازرسی. تفاوتها به عنوان خروجی نهایی. هر لایه اطلاعات را حمل میکند، بنابراین کاربر هرگز به یک جعبه سیاه خیره نمیشود، حتی اگر کار برای چند دقیقه اجرا شود.
Linear هوش مصنوعی، افشای پیشرونده درون خطی
Linear هوش مصنوعی افشای پیشرونده را درون سطوح موجود ارسال میکند. هوش مصنوعی هرگز پیشزمینه را در اختیار ندارد. یک پیشنهاد پیشنویس به صورت درون خطی در مسئله ظاهر میشود. خلاصهای به صورت درونخطی در پروژه ظاهر میشود. این انتظار هرگز کار واقعی کاربر را مسدود نمیکند زیرا کاربر در حال حاضر کاری را که هوش مصنوعی در حال تقویت آن است، انجام میدهد.
هوش مصنوعی تعبیهشده در محصولی که کاربر از قبل میداند هرگز نباید یک ماژول یا تصاحب باشد. افشای درونخطی الگوی مناسبی است و هزینه تأخیر در اقداماتی که کاربر در حال انجام آن است، پنهان میشود.
آیا یک محصول هوش مصنوعی میخواهید که حتی وقتی مدل کند است، سریع به نظر برسد؟ استخدام ⟦برند ۰⟧. UXBrainy ممیزیهای تأخیر و طراحی مجدد رابط کاربری استریمینگ را ارائه میدهد، AppBrainy تحویل کامل محصول هوش مصنوعی را ارائه میدهد و ClaudeBrainy لایه اعلان و مهارت را که استریمینگ را ارزان میکند، ارائه میدهد. آن را با الگوهای طراحی رابط کاربری عامل هوش مصنوعی جفت کنید تا لایه عامل در همان سطح ساخت و ساز ارسال شود.
Granola، آبشار ضبط به خلاصه
Granola دقایق کار مدل را پشت یک آبشار چهار مرحلهای پنهان میکند. ضبط ابتدا به صورت شکل موج خام انجام میشود. رونوشت دوم به صورت متن قابل پیمایش. یادداشتهای پیشنویس سوم به صورت ساختار گلولهای قرار میگیرند. خلاصه نهایی به عنوان نثری صیقلیافته در آخر قرار میگیرد. هر مرحله قبل از آماده شدن مرحله بعدی مفید است.
سه دقیقه کار مدل مانند سی ثانیه به نظر میرسد زیرا اولین مصنوع مفید در ده ثانیه قرار میگیرد. متن به خودی خود ارزشمند است. یادداشتها به خودی خود ارزشمند هستند. خلاصه بدون محدود کردن ارزش، تجربه را کامل میکند.
Perplexity، پخش زنده منبع
Perplexity منابع خود را قبل از پاسخ پخش میکند. فهرست استناد ابتدا قرار میگیرد و با بازیابی و رتبهبندی هر منبع توسط مدل، پر میشود. پاسخ در زیر آن پخش میشود در حالی که کاربر در حال خواندن منابع است. انتظار به عنوان تحقیق تلقی میشود، نه بارگیری.
حرکت طراحی، کار را قبل از نتیجه نشان میدهد. کاربری که فهرست منبع را میخواند منتظر نیست. همان زمان پاسخ کلی، منابع پنهان تا زمان آماده شدن پاسخ، دو تا سه برابر کندتر به نظر میرسند. تراکم اطلاعات انتظار، کل داستان سرعت درک شده است.
چک لیست تأخیر قبل از ارسال
این را قبل از ارسال، روی هر سطح هوش مصنوعی اجرا کنید. دوازده بررسی، همه قابل اندازهگیری.
۱. زمان اولین توکن زیر ۵۰۰ میلیثانیه در یک جلسه گرم.
۲. استریمینگ ۳۰ تا ۸۰ توکن در ثانیه را در مدل هدف حفظ میکند.
۳. هر انتظار طولانیتر از ۵۰۰ میلیثانیه یک سیگنال پیشرفت دارد.
۴. هیچ اسپینر خالصی در هیچ کجای سطح هوش مصنوعی وجود ندارد.
۵. هیچ حلقه متنی Thinking چرخشی در هیچ کجای سطح هوش مصنوعی وجود ندارد.
۶. هیچ دیالوگ مسدودکننده مودال در حین اجرای مدل وجود ندارد.
۷. رابط کاربری خوشبینانه، عمل قابل مشاهده را در عرض ۱۰۰ میلیثانیه از هدف انجام میدهد.
۸. اسکلتها قبل از محتوا برای هر پاسخی که بیش از دو ثانیه طول بکشد، رندر میشوند.
۹. ردپاهای استدلال برای هر کاری که بیش از ده ثانیه طول بکشد، نمایش داده میشوند.
۱۰. عاملهای طولانیمدت در یک پنل کناری اجرا میشوند، نه در پیشزمینه.
۱۱. کاربر میتواند در حین ارسال درخواست، اسکرول، کپی و خروجی قبلی را بخواند. ۱۲. هر پاسخ چند مرحلهای، مراحل میانی را که کاربر میتواند مصرف کند، نشان میدهد.
این لیست در الگوی بررسی طراحی قرار دارد و هر بار که آن را اجرا میکنید، سریعتر میشود.
سوالات متداول
مهمترین عدد تأخیر در یک محصول هوش مصنوعی چیست؟
زمان اولین نشانه. کل زمان پاسخ، کمتر از مدت زمانی که کاربر قبل از اینکه چیزی برای خواندن داشته باشد، منتظر میماند، اهمیت دارد. کمتر از ۵۰۰ میلیثانیه به عنوان فوری خوانده میشود.
آیا پخش جریانی همیشه بهتر از مسدود کردن است؟
برای متن، بله. کمتر از ۵۰۰ میلیثانیه، مسدود کردن خوب است زیرا انتظار نامرئی است. برای هر چیزی طولانیتر، پخش جریانی از مسدود کردن در هر معیار سرعت درک شده بهتر است.
چه زمانی باید از رابط کاربری خوشبینانه در مقابل پخش جریانی استفاده کنم؟
پخش جریانی زمانی که خروجی پاسخ است، مانند نثر، کد یا تولید ساختاریافته. رابط کاربری خوشبینانه زمانی که مدل در حال تصمیمگیری است که کاربر از قبل انتظار دارد، مانند یک پیشنویس اصلاحشده یا پیشنهاد پذیرفتهشده. این دو با هم ترکیب میشوند.
چگونه میتوانم پیشرفت را برای عاملی که چند دقیقه طول میکشد، نشان دهم؟
سطوح استدلال و جریانهای پیشرفت پنل کناری. ابتدا طرح را نشان دهید، سپس مرحله فعال، و سپس خروجی در حال اجرا. کاربر طرح را میخواند، مراحل را تماشا میکند و هرگز احساس قفل شدن نمیکند.
بدترین اشتباه تأخیر در محصولات هوش مصنوعی امروز چیست؟
مودال مسدودکننده با یک چرخان. این مودال هر چهار الگوی ناموفق را در یک صفحه ترکیب میکند و به کاربر میآموزد که هوش مصنوعی چیزی است که باید منتظر بماند، نه چیزی که باید از آن استفاده کند.
تغییر در طراحی برای تأخیر هوش مصنوعی در واقع قفل را باز میکند
طراحی برای تأخیر هوش مصنوعی راه حلی برای مدلهای کند نیست. این حرکت طراحی است که به یک مدل کندتر و بهتر اجازه میدهد تا در هر معیاری که کاربر واقعاً به آن اهمیت میدهد، یک مدل سریعتر و بدتر را شکست دهد.
تیمهایی که در حال حاضر برنده هستند، بهینهسازی برای سرعت خام را متوقف کردند و شروع به طراحی برای سرعت درک شده کردند. آنها به جریانسازی متعهد شدند، رابط کاربری خوشبینانه اضافه کردند، اسکلتهای ۲۰۰ میلیثانیهای ساختند و عاملها را به پنلهای کناری منتقل کردند. هر انتظار حاوی اطلاعات است.
اگر سطح هوش مصنوعی شما هنوز یک اسپینر، یک حلقه تفکر یا یک مودال مسدودکننده ارائه میدهد، مدل گلوگاه نیست. طراحی گلوگاه است. کار را با الگوهای طراحی رابط کاربری عامل هوش مصنوعی، آشنایی با محصول هوش مصنوعی playbook، طراحی محصول بومی هوش مصنوعی و سلسله مراتب بصری جفت کنید تا هر مرحله قابل اسکن باشد.
اگر یک محصول هوش مصنوعی میخواهید که حتی وقتی مدل کند است، سریع به نظر برسد، استخدام ⟦برند ۰⟧ را انتخاب کنید. UXBrainy ممیزیهای تأخیر و طراحی مجدد رابط کاربری استریمینگ را ارائه میدهد، AppBrainy تحویل کامل محصول هوش مصنوعی را ارائه میدهد و ClaudeBrainy لایه اعلان و مهارت را ارائه میدهد که استریمینگ را ارزان میکند.
Want an AI product that feels fast even when the model is slow? Brainy ships UXBrainy as latency audits and streaming UI redesigns, AppBrainy as full AI product delivery, and ClaudeBrainy as the prompt and Skill layer that makes streaming and reasoning surfaces cheap to build.
Get Started

