ai for designersApril 30, 202611 min read

پشته ارزیابی طراح: چگونه کیفیت طراحی را اندازه‌گیری کنیم وقتی هوش مصنوعی همه چیز را تولید می‌کند

وقتی هوش مصنوعی روزانه ده هزار نوع طراحی تولید می‌کند، «به نظر من خوب می‌آید» دیگر مقیاس‌پذیر نیست. طراحان باید مانند مهندسان یادگیری ماشین، پشته‌های ارزیابی بسازند. یک کتاب راهنمای کاربردی برای هرم ارزیابی، ابزارهای واقعی، دستورالعمل‌های قابل اجرا و نقشی که طراحان در سال ۲۰۲۶ به آن دست می‌یابند.

By Boone

X LinkedIn

یک طراح ارشد در سال ۲۰۲۶ صف صبحگاهی خود را باز می‌کند و هجده هزار نامزد را در انتظار می‌بیند. دیروز سی خلاصه ارسال شد. هر کدام یک شبه ششصد نوع هوش مصنوعی تولید کردند. حلقه "به نظر من خوب به نظر می‌رسد"، موضوع Slack با دو شست بالا، سرپرست طراحی که قبل از استندآپ به فایل Figma نگاه می‌کند، زمانی قابل تحمل بود که یک طراح هفته‌ای یک دارایی تولید می‌کرد. این یک شیر یا خط با مراحل اضافی در حجم هوش مصنوعی است.

کیفیت در مقیاس هوش مصنوعی یک حس و حال نیست، بلکه یک پشته است. بررسی‌های خودکار ارزان در پایه، LLM به عنوان قاضی در وسط، سلیقه انسانی در بالا، داده‌های تبدیل حلقه را می‌بندند. مهندسان ML این را در سال ۲۰۲۳ ساختند، زمانی که مدل‌ها سریع‌تر از آنچه انسان‌ها می‌توانستند بررسی کنند، ارسال می‌شدند. طراحان بعدی هستند.

کتابچه راهنمای عملی: هرم، چهار لایه، یک روبریک قابل اجرا، زنجیره ابزار و نقشی که از آن رشد می‌کند.

به نظر من خوب به نظر می‌رسد، دیگر مقیاس‌پذیر نیست

حلقه LGTM کار می‌کرد زیرا گلوگاه، ساخت دارایی بود، نه بررسی آن. تولید اکنون از نظر عملکردی آزاد است. Claude، Cursor، v0، Lovable و مجموعه‌ای از مهارت‌ها، کاندیداهای نهایی را در عرض چند دقیقه تولید می‌کنند. گلوگاه به بررسی منتقل شد و بررسی جایی است که هر سیگنال کیفیت در آن وجود دارد.

تیمی که بررسی را از Slack خارج نکرد، هنوز مانند سال 2022 عمل می‌کند. آنها رانش، نقض کنتراست، صدای خارج از برند و شبکه‌های شکسته را در حجم صنعتی ارسال می‌کنند. وقتی هوش مصنوعی روزانه ده هزار نوع تولید می‌کند، سلیقه به علاوه یک رشته Slack یک سیستم کیفیت نیست، بلکه یک روی سکه با مراحل اضافی است.

هرم وکسل چهار طبقه روی هم چیده شده به رنگ مرجانی کهربایی فیروزه‌ای با برچسب‌های تک کلمه‌ای حک شده LINT DIFF JUDGE TASTE روی کف تیره استودیو با مه مرجانی

طراحان باید دفترچه راهنمای ارزیابی یادگیری ماشین را بدزدند

مهندسان یادگیری ماشین سه سال پیش این مشکل را حل کردند. یک مجموعه ارزیابی قبل از رسیدن هرگونه خروجی مدل به کاربران اجرا می‌شود و نامزدها را در برابر یک روبریک ساختاریافته امتیازدهی می‌کند، با بررسی‌های قطعی ارزان در پایه، LLM به عنوان داور برای موارد نرم و بررسی انسانی برای تماس‌های سلیقه‌ای و موارد حاشیه‌ای.

کتابچه راهنما به طور واضح منتقل می‌شود. همان مشکل، همان شکل. لایه پایه، شکست‌های آشکار را ارزان از بین می‌برد. لایه میانی، بازماندگان را بر اساس مهارت و تناسب برند امتیاز می‌دهد. لایه بالایی، انسانی است که بین سه گزینه‌ای که همه چیز را در زیر گذرانده‌اند، تصمیم می‌گیرد. طراحی ارزیابی، مهارت ارشد در سال 2026 است.

هرم ارزیابی، از بالا به پایین

چهار لایه و یک حلقه بازخورد. از پایین به بالا: اعتبارسنجی lint و توکن، تفاوت بصری و رگرسیون، LLM به عنوان داور با یک روبریک ساختاریافته، بررسی سلیقه انسانی. حلقه، داده‌های تبدیل است که از تولید برای آموزش مجدد روبریک برمی‌گردند.

هر لایه یک شکست متفاوت را با هزینه متفاوت از بین می‌برد. Lint ارزان است. تفاوت بصری ارزان است. معیار قضاوت LLM بر اساس دلار است، نه ساعت‌های طراح. بررسی انسانی گران‌ترین منبع در این ساختمان است که برای پنجاه کاندیدای آخر رزرو شده است، نه ده هزار نفر اول.

لایه اول، اعتبارسنجی lint و توکن

پایه هرم چیزهای ارزان قیمتی است که هرگز نباید به چشم یک طراح برسد. کنتراست تحت WCAG AA. نقض توکن که در آن هوش مصنوعی به جای استفاده از رنگ سیستم، یک hex اختراع کرده است. رانش شبکه پایه. حذف ریتم چهار پیکسلی. فرار از مقیاس نوع. متن alt از دست رفته. اهداف لمسی زیر چهل و چهار پیکسل. پرچم‌های axe-core.

اینها قطعی هستند. آنها در میلی‌ثانیه اجرا می‌شوند و سی تا پنجاه درصد از خروجی هوش مصنوعی را بدون اینکه کسی نگاه کند، از بین می‌برند. تیمی بدون این لایه به طراحان ارشد پول می‌دهد تا خطاهای padding هشت پیکسلی را تشخیص دهند، که گران‌ترین راه برای تشخیص آنهاست.

راه حل، یک lint job در CI برای سطوح رندر شده با کد و یک اعتبارسنج توکن در Figma برای کارهای استاتیک است. هر دو وجود دارند، هر دو رایگان یا ارزان هستند، هر دو باید تا پایان سه ماهه به عنوان شرط‌بندی روی میز باشند.

لایه دوم، تفاوت بصری و رگرسیون

رگرسیون بصری قبل از شروع بررسی، تغییر ناخواسته را ثبت می‌کند. Playwright اسکرین‌شات می‌گیرد. Pixelmatch تفاوت‌ها را در برابر خط پایه بررسی می‌کند. Chromatic میزبان بررسی است و drift را علامت‌گذاری می‌کند. Storybook کامپوننت را ایزوله می‌کند، بنابراین تفاوت، کامپوننت است، نه صفحه کروم.

git diff با قدرت صنعتی برای پیکسل‌ها. یک دکمه سه پیکسل در padding تغییر کرده است، تفاوت آن را ثبت می‌کند. یک توکن فاصله‌گذاری به چهل سطح منتقل شده و منتشر شده است، تفاوت هر چهل را ثبت می‌کند. تفاوت بصری نمی‌تواند به شما بگوید که نسخه جدید بهتر است، فقط می‌تواند بگوید که تغییر کرده است. با لایه بعدی جفت کنید.

لایه سوم، LLM به عنوان داور با روبریک ساختار یافته

میانه هرم دو سال پیش برای طراحان وجود نداشت و اکنون به عنوان اهرمی‌ترین ساعت هفته است. یک LLM خروجی هوش مصنوعی را در برابر روبریک ساختار یافته امتیازدهی می‌کند. ده هزار نامزد در ساعت، در مجموع چند دلار.

هر کاندید را به یک تصویر یا کامپوننت تبدیل کنید. آن را با یک سوال روبریک به Claude یا GPT ارسال کنید. برای هر معیار، یک دلیل تک خطی، قبولی یا ردی، امتیاز بگیرید. بازماندگان را بر اساس امتیاز مرتب کنید. پنجاه نفر برتر را به یک انسان ارسال کنید.

چارچوب ارزیابی Anthropic، ارزیابی‌های OpenAI و روبریک سفارشی Claude، همگی کار یکسانی را در شکل‌های مختلف انجام می‌دهند. اکثر تیم‌های طراحی مسیر سفارشی را می‌خواهند، زیرا روبریک همان برند است و برند همان چیزی است که ارزیابی آن را اجرا می‌کند.

یک روبریک قابل اجرا برای صدای برند

روبریک یک جمله‌ی احساسی نیست. بلکه فهرستی از معیارهای قابل اندازه‌گیری، یک مقیاس امتیاز و یک فیلد دلیل است. در اینجا یک روبریک صدای کارآمد وجود دارد که یک تماس Claude می‌تواند در سه ثانیه امتیاز کسب کند.

Score the copy 1 to 5 per criterion. One-line reason per score.

1. Lead-first. Does the first sentence answer the question?
2. Concrete. Does it name real products, numbers, moves?
3. Voice match. Does the tone match the brand profile?
4. No filler. Does every sentence earn its seat?
5. No banned constructions. Em dashes, AI-slop adjectives, hedging.

Pass: average 4.0+ AND no criterion below 3.
Output JSON: {scores, reasons, pass}

آن روبریک را روی پانصد توصیف محصول که توسط هوش مصنوعی تهیه شده‌اند اجرا کنید و سی مورد را که به اندازه یک چشم انسان ارزش دارند، در کمتر از دو دقیقه نمایش می‌دهد. شکل یکسان برای طرح‌بندی، استفاده از رنگ و ترکیب اجزا کار می‌کند. امتیاز، دلیل، آستانه، JSON.

روبریک دارایی است. آن را نسخه‌بندی کنید. آن را آزمایش کنید. آن را در شکست‌های واقعی بهبود دهید. تیمی که یک روبریک را ارسال می‌کند و ماهانه آن را تنظیم می‌کند، یک سیستم عامل برند را اجرا می‌کند. تیمی که فقط یک سند صوتی دارد، در حال اجرای یک شیر یا خط است.

کارت امتیازی وکسل با پنج بلوک عمودی از یک تا پنج نقطه حکاکی شده و یک صفحه کارت امتیازی شناور با برچسب RUBRIC، استودیوی تاریک با مه مرجانی و نوشته روی آن. به خروجی امتیاز دهید.

لایه چهارم، بررسی سلیقه انسانی در بالا

بررسی انسانی برای چیزی است که اتوماسیون نمی‌تواند آن را ارزیابی کند. سلیقه بین سه گزینه که همه از lint، diff و روبریک عبور کرده‌اند، تماس می‌گیرد. موارد حاشیه‌ای که روبریک از دست داده است. تصمیم برای شکستن قانون به عمد. قانون: انسان فقط بالای قیف را می‌بیند.

اگر یک طراح چهار هزار نامزد را در هفته بررسی کند، پشته خراب است. اگر بیست نفر را بررسی کند و شش نفر را ارسال کند، پشته کار می‌کند. چشم مدیران ارشد به سمت انتخاب‌هایی دوخته می‌شود که واقعاً مهم هستند. اینجاست که طعم آخرین سنگر است. پشته ارزیابی جایگزین سلیقه نیست، بلکه چیزی است که سلیقه را قابل استفاده می‌کند.

تبدیل به عنوان ارزیابی، حلقه را می‌بندد

سطوح ارسال شده، داده‌های تبدیل را به روبریک برمی‌گردانند. کلیک بر روی هر نوع. زمان حضور در صفحه به ازای هر طرح. نرخ‌ها را به ازای هر رفتار بصری ذخیره کنید. حلقه زمانی بسته می‌شود که روبریک سیگنال را جذب می‌کند: معیارهایی که با تبدیل مرتبط بودند، وزن‌دهی می‌شوند، معیارهایی که وزن‌دهی نشدند یا حذف نشدند.

روبریکی که هرگز به‌روزرسانی نمی‌شود، یک تصویر لحظه‌ای است که در نظرها منجمد شده است. برندهایی که پشته‌های ارزیابی واقعی را اجرا می‌کنند، روبریک را به عنوان کد زنده در نظر می‌گیرند: کنترل‌شده با نسخه، تنظیم‌شده ماهانه، حسابرسی‌شده فصلی. Vercel این کار را در Geist انجام می‌دهد. Linear در نوشتن. Stripe در سیستم طراحی. خروجی در حجم هوش مصنوعی مانند ثبات برند بدون دردسر به نظر می‌رسد، و این برعکس بی‌زحمت است. مهندسی‌شده است.

زنجیره ابزار در سال ۲۰۲۶

ابزارهای واقعی. بدون دسته‌بندی‌های اختراع‌شده.

Playwright. مرورگر Headless برای گرفتن اسکرین‌شات. رایگان، قابل اسکریپت‌نویسی. هزینه را روی سطح بررسی می‌گذارد.
Pixelmatch. کتابخانه تفاوت در سطح پیکسل. جفت شدن با Playwright. رایگان. در مورد معنای تفاوت نظر قطعی ندارد.
Chromatic. بررسی بصری میزبانی‌شده مرتبط با Storybook. رابط کاربری بهترین در کلاس برای تغییرات کامپوننت. قیمت‌گذاری بر اساس صندلی.
Storybook. جداسازی کامپوننت، بنابراین تفاوت، کامپوننت است، نه صفحه کروم. رایگان. سمت کد، به یک توسعه‌دهنده نیاز دارد.
ارزیابی‌های Anthropic. چارچوبی برای LLM-as-judge در مقیاس با روبریک‌های نسخه‌بندی‌شده. اسناد، یادگیری ماشین را منحرف می‌کنند، طراحان به یک مترجم نیاز دارند.
ارزیابی‌های OpenAI. همان کار، خانواده مدل متفاوت. متن‌باز. پیش‌فرض‌ها متن را فرض می‌کنند، تیم‌های طراحی امتیازدهی تصویر را می‌پیچند. - روبریک سفارشی Claude. Prompt به علاوه API به علاوه یک طرح JSON. ارزان‌ترین مسیر برای یک روبریک کاربردی. تیم شما مسئولیت نگهداری را بر عهده دارد.
axe-core. Accessibility lint. رایگان، در CI قرار دارد. WCAG را دریافت می‌کند، نه تخلفات زیبایی‌شناختی را.

مجموعه اولیه برای یک تیم کوچک Playwright به علاوه Pixelmatch به علاوه یک روبریک سفارشی Claude است. سه ابزار، یک بعد از ظهر، هرم ارزیابی که تا فردا روی سه لایه اول اجرا می‌شود.

اگر می‌خواهید در اتصال این به خط تولید خود کمک بگیرید، استخدام ⟦برند ۰⟧. ClaudeBrainy کتابخانه‌های روبریک و بسته‌های مهارتی را ارائه می‌دهد که LLM-as-judge را به یک سطح کاری تبدیل می‌کند. BrandBrainy سیستم‌های برند برای تولید هوش مصنوعی را که روبریک در برابر آن امتیاز می‌گیرد، ارائه می‌دهد.

نقش طراح جدید، اپراتور مجموعه ارزیابی

وقتی هوش مصنوعی کاندیداها را تولید می‌کند، نقش طراح از ساختن همه چیز به اجرای مجموعه ارزیابی که تصمیم می‌گیرد چه چیزی ارسال شود، تغییر می‌کند. عنوان شغلی که در سال ۲۰۲۶ ظهور می‌کند، بیشتر شبیه مهندس ارزیابی یادگیری ماشین است تا طراح بصری. طراح ارشد ۲۰۲۴، هر سه ماه پنجاه دارایی به دست می‌آورد. طراح ارشد ۲۰۲۶، روبریک‌ها را ارسال می‌کند، آستانه‌ها را تنظیم می‌کند، صف را ممیزی می‌کند و پنجاه کاندیدای برتر را در هفته بررسی می‌کند.

نردبان حول طراحی ارزیابی تغییر شکل می‌دهد. جوان‌تر صف را اداره می‌کند. میان‌ترم روبریک را بر اساس داده‌های ارسالی تنظیم می‌کند. ارشد، سیستم ارزیابی را در اختیار دارد و معیارها را تعریف می‌کند. رهبر، حلقه بین داده‌های تبدیل و به‌روزرسانی‌های روبریک را طراحی می‌کند. "آیا چشم دارید" اکنون به "آیا چشم دارید و می‌توانید آن را کدگذاری کنید" تبدیل شده است.

مهارت‌ها زیر این نقش قرار دارد. مهارت، روبریک به شکل بسته است. آن را ارسال کنید، نصب کنید، هر کاندیدا در برابر همان قضاوت کدگذاری شده امتیاز می‌گیرد. چشم ارشد به جای پنجاه کاندیدا، روزانه با ده هزار کاندیدا رقابت می‌کند.

حلقه بازخورد وکسل از سه ایستگاه مثلثی به رنگ فیروزه‌ای مرجانی کهربایی با برچسب SHIP MEASURE TUNE با فلش‌هایی که در یک چرخه بسته جریان دارند، استودیوی تاریک با مه مرجانی

چک لیست آمادگی هوش مصنوعی برای تیم‌های طراحی

این را امروز در خط تولید خود اجرا کنید. پانزده دقیقه.

۱. اعتبارسنجی توکن روی هر جزء اجرا می‌شود.

۲. کنتراست و a11y lint در CI روی هر سطح ارسال شده اجرا می‌شود.

۳. رگرسیون بصری روی هر PR اجرا می‌شود.

۴. یک روبریک کتبی برای صدای برند وجود دارد.

۵. یک روبریک کتبی برای طرح‌بندی و ساخت وجود دارد.

۶. یک LLM قبل از بررسی انسانی، کاندیداهای هوش مصنوعی را در برابر روبریک امتیاز می‌دهد.

۷. صف بررسی انسانی برای هر طراح کمتر از صد کاندیدا در هفته باقی می‌ماند.

۸. داده‌های تبدیل ماهانه به روبریک برمی‌گردند.

۹. روبریک نسخه‌بندی شده است.

۱۰. یک مالک مشخص برای سیستم ارزیابی وجود دارد.

امتیاز کمتر از پنج، تیم کار هوش مصنوعی را با یک شیر یا خط ارسال می‌کند. پنج تا هفت، پایه و اساس وجود دارد اما حلقه باز است. هشت یا بالاتر، تیم در سطحی که طراحی محصول بومی هوش مصنوعی واقعاً نیاز دارد، عمل می‌کند.

تله‌های رایج هنگام ساخت اولین پشته ارزیابی

چهار تله، همه قابل اجتناب هستند.

اول، ساختن روبریک به صورت جداگانه. روبریک، برندی است که برای یک مدل کدگذاری شده است. سرپرست برند، سرپرست طراحی، نویسنده ارشد در اتاق. حدس زدن یک نفر کافی نیست.

دو، بدون آستانه. امتیازدهی بدون آستانه قبولی، نمایشی بیش نیست. شرایط را تعیین کنید (میانگین چهار از پنج، هیچ معیاری زیر سه، یک شروع کننده کارآمد نیست) و اجازه دهید روبریک، کاندیداهایی را که رد می‌شوند، رد کند.

سه، بدون نسخه‌بندی. روبریکی که تغییر نمی‌کند، اجرا نمی‌شود. آن را نسخه‌بندی کنید، هر تغییر را با دلیل ثبت کنید، هر سه ماه یکبار حسابرسی را انجام دهید.

چهار، خودکارسازی لایه انسانی. رأس هرم عمداً انسان است. تیم‌هایی که بررسی سلیقه را خودکار می‌کنند، از ساعت‌های پربازده هفته صرف نظر می‌کنند و متوسط بودن ارزیابی را در حجم صنعتی ارسال می‌کنند.

سوالات متداول

ارزیابی‌های طراحی چیست؟

بررسی‌های خودکار و ساختاریافته‌ای که خروجی طراحی تولید شده توسط هوش مصنوعی را در برابر معیارهای قابل اندازه‌گیری امتیاز می‌دهند، قبل از اینکه هر کاندیدایی به یک انسان یا تولید برسد، اجرا می‌شوند. چهار لایه: اعتبارسنجی lint و توکن، تفاوت بصری و رگرسیون، LLM-as-judge با یک روبریک ساختاریافته، بررسی سلیقه انسانی در صدر.

چرا طراحان به ارزیابی‌ها نیاز دارند وقتی هوش مصنوعی هر ماه بهتر می‌شود؟

مدل‌های بهتر، کاندیداهای بیشتری را سریع‌تر تولید می‌کنند، نه کاندیداهای کمتری که به وضوح درست هستند. تنگنا از ساخت دارایی به بررسی آن منتقل شد و بررسی در حجم هوش مصنوعی به یک پشته ارزیابی لایه‌ای نیاز دارد، همانطور که خروجی مدل در مقیاس بزرگ برای تیم‌های ML به آن نیاز داشت.

برای شروع یک پشته ارزیابی به چه ابزارهایی نیاز دارم؟

حداقل پشته Playwright برای گرفتن اسکرین شات، Pixelmatch برای تفاوت بصری و یک روبریک سفارشی Claude برای LLM-as-judge است. هزینه ماهانه چند صد دلار برای API برای یک تیم کوچک. در یک بعد از ظهر آماده می‌شود.

LLM-as-judge چیست؟

الگوی داشتن یک خروجی مدل امتیاز LLM در برابر یک روبریک ساختاریافته. مدل، داوطلب را به همراه درخواست روبریک دریافت می‌کند، امتیازی را برای هر معیار با یک دلیل تک‌خطی برمی‌گرداند و JSON ساختاریافته را خروجی می‌دهد. Anthropic و OpenAI هر دو چارچوب‌های ارزیابی را ارائه می‌دهند. اکثر تیم‌های طراحی یک نسخه سفارشی Claude می‌نویسند زیرا روبریک، برند است.

آیا می‌توان سلیقه را در یک روبریک کدگذاری کرد؟

بیشتر آن، بله. بخش‌های مکانیکی سلیقه (اولویت با سرنخ، ملموس، بدون پرکننده، تطابق صدا، طراحی و دسترسی) قابل اندازه‌گیری هستند. تماس‌های سلیقه‌ای که روبریک نمی‌تواند انجام دهد، موارد حاشیه‌ای، تصمیمات خلاف قاعده و انتخاب بین سه گزینه‌ای است که همه قبول می‌شوند. این موارد انسانی باقی می‌مانند.

این هفته پشته ارزیابی را شروع کنید

سه حرکت. نیازی به خرید پلتفرم نیست.

ابتدا، روبریک را بنویسید. یک صفحه، پنج تا هفت معیار، مقیاس یک تا پنج، آستانه قبولی، فیلد دلیل. سرنخ برند و سرنخ طراحی در اتاق هستند. نسخه اول را جمعه ارسال کنید.

دوم، LLM-as-judge را به عنوان داور ارسال کنید. Claude API، با روبریک و خروجی JSON، اعلان را ارسال کنید. آن را در برابر صد کاندیدای آخری که تیم ارسال کرده است، اجرا کنید. امتیازات را بخوانید. شکست‌ها را تنظیم کنید.

سوم، lint و visual diff را در سطح ارسال بعدی نصب کنید. Playwright، Pixelmatch، axe-core، اعتبارسنج توکن. یک بعد از ظهر. پایین هرم در حال اجرا.

اگر برای تبدیل پشته ارزیابی به یک رویه کاری به کمک نیاز دارید، استخدام ⟦برند ۰⟧. ClaudeBrainy کتابخانه‌های روبریک و بسته‌های مهارت را ارسال می‌کند تا چشم ارشد تیم در برابر هر کاندیدایی قرار گیرد. BrandBrainy سیستم عامل برند را بر اساس امتیاز روبریک ارسال می‌کند. نسل بعدی کیفیت طراحی، مهندسی شده است، نه ویبره شده، و تیم‌هایی که ابتدا پشته را می‌سازند، سطحی را که سه تیم قبلاً پوشش می‌دادند، اداره خواهند کرد.

If you want help standing up an eval stack on your design pipeline, ClaudeBrainy ships Skill packs and rubric libraries that turn LLM-as-judge into leverage, and BrandBrainy ships the brand operating system the rubric scores against.

Get Started