ai for designersApril 30, 202611 min read

Tasarımcının Değerlendirme Yöntemi: Yapay Zeka Her Şeyi Ürettiğinde Tasarım Kalitesini Nasıl Ölçersiniz?

Yapay zeka günde on binlerce tasarım varyasyonu ürettiğinde, "bana iyi görünüyor" yaklaşımı geçerliliğini yitirir. Tasarımcılar, makine öğrenimi mühendislerinin yaptığı gibi değerlendirme yığınları oluşturmalıdır. Değerlendirme piramidi için işlevsel bir kılavuz, gerçek araçlar, çalıştırılabilir değerlendirme kriterleri ve tasarımcıların 2026'da üstleneceği rol.

By Boone
XLinkedIn
designer eval stack

2026 yılında kıdemli bir tasarımcı sabah kuyruğunu açtığında on sekiz bin adayın beklediğini görüyor. Dün otuz brief gönderildi. Her biri gece boyunca altı yüz yapay zeka varyantı üretti. "Bana iyi görünüyor" döngüsü, iki başparmak yukarı işaretiyle Slack başlığı, tasarım liderinin günlük toplantıdan önce Figma dosyasına göz atması, bir tasarımcının haftada bir varlık ürettiği zamanlarda katlanılabilir bir durumdu. Yapay zeka hacminde ise ekstra adımlarla yazı tura atmaya benziyor.

Yapay zeka ölçeğinde kalite bir his değil, bir yığın. Tabanında ucuz otomatik kontroller, ortasında LLM-hakem, en üstünde insan zevki, döngüyü kapatan dönüşüm verileri. Makine öğrenimi mühendisleri bunu 2023 yılında, modellerin insanların inceleyebileceğinden daha hızlı gönderildiği zamanlarda inşa ettiler. Sıradaki tasarımcılar.

Çalışma kılavuzu: piramit, dört katman, çalıştırılabilir bir değerlendirme ölçütü, araç zinciri ve bundan doğan rol.

Bana göre iyi görünüyor, artık ölçeklenebilir değil

LGTM döngüsü, darboğaz varlığı oluşturmakta olduğu için çalışıyordu, incelemede değil. Üretim artık işlevsel olarak ücretsiz. Claude, Cursor, v0, Lovable ve bir dizi Skill, dakikalar içinde bitmiş adaylar üretiyor. Darboğaz incelemeye taşındı ve her kalite sinyali incelemede yer alıyor.

İncelemeyi Slack'dan çıkarmayan bir ekip hala 2022'deymiş gibi çalışıyor. Endüstriyel hacimde sapma, kontrast ihlalleri, marka dışı ses ve bozuk ızgaralar üretiyorlar. Yapay zeka günde on bin varyant ürettiğinde, zevk artı bir Slack iş parçacığı bir kalite sistemi değil, ekstra adımlarla yazı tura atmaktır.

Mercan, kehribar, krem ​​ve camgöbeği renklerinde, dört katlı, üst üste dizilmiş voksel piramidi; üzerinde tek kelimelik kazınmış etiketlerle LINT DIFF JUDGE TASTE yazısı ve mercan rengi puslu karanlık bir stüdyo zemini.
Mercan, kehribar, krem ​​ve camgöbeği renklerinde, dört katlı, üst üste dizilmiş voksel piramidi; üzerinde tek kelimelik kazınmış etiketlerle LINT DIFF JUDGE TASTE yazısı ve mercan rengi puslu karanlık bir stüdyo zemini.

Tasarımcılar ML değerlendirme kılavuzunu çalmalı

ML mühendisleri bunu üç yıl önce çözdü. Model çıktısı kullanıcılara ulaşmadan önce bir değerlendirme paketi çalışır ve adayları yapılandırılmış bir değerlendirme ölçütüne göre puanlar; temelde ucuz deterministik kontroller, belirsiz durumlar için LLM-hakem ve zevk kararları ve uç durumlar için insan incelemesi ayrılmıştır.

Oyun kitabı sorunsuz bir şekilde aktarılabilir. Aynı problem, aynı şekil. Temel katman, bariz hataları ucuza ortadan kaldırır. Orta katman, hayatta kalanları işçilik ve marka uyumu açısından puanlar. En üst katman, alt katmandaki her şeyi geçen üç seçenek arasında karar veren insandır. Değerlendirme tasarımı, 2026'da en önemli beceri olacak.

Değerlendirme piramidi, yukarıdan aşağıya

Dört katman ve bir geri bildirim döngüsü. Aşağıdan yukarıya: lint ve belirteç doğrulaması, görsel fark ve regresyon, yapılandırılmış bir değerlendirme ölçütüyle LLM-hakem, insan zevk incelemesi. Döngü, değerlendirme ölçütünü yeniden eğitmek için üretimden geri dönen dönüşüm verileridir.

Her katman, farklı bir hatayı farklı bir maliyetle ortadan kaldırır. Lint çok ucuzdur. Görsel fark ucuzdur. LLM-hakem sistemi, tasarımcı saatlerine değil, dolara göre ölçeklenir. İnsan incelemesi, binadaki en pahalı kaynaktır ve ilk on bin aday için değil, son elli aday için ayrılmıştır.

Birinci Katman, lint ve token doğrulama

Piramidin tabanı, bir tasarımcının gözüne asla ulaşmaması gereken ucuz şeylerdir. WCAG AA altındaki kontrast. Yapay zekanın sistem rengi yerine onaltılık kod icat ettiği token ihlalleri. Temel ızgara kayması. Dört piksellik ritimden sapma. Tip ölçeği kaçışları. Eksik alternatif metin. Kırk dört pikselin altındaki dokunma hedefleri. axe-core bayrakları.

Bunlar deterministiktir. Milisaniyeler içinde çalışırlar ve kimse bakmadan yapay zeka çıktısının yüzde otuz ila ellisini öldürürler. Bu katmana sahip olmayan bir ekip, sekiz piksellik dolgu hatalarını yakalamak için kıdemli tasarımcılara ödeme yapar ki bu, onları yakalamanın en pahalı yoludur.

Çözüm, kodla işlenmiş yüzeyler için CI'da bir lint işi ve statik çalışmalar için Figma'de bir token doğrulayıcıdır. İkisi de mevcut, ikisi de ücretsiz veya ucuz, ikisi de çeyrek sonuna kadar olmazsa olmaz olmalı.

İkinci Katman, Görsel Fark ve Regresyon

Görsel regresyon, inceleme başlamadan önce istenmeyen değişikliği yakalar. Playwright ekran görüntüsünü alır. Pixelmatch, temel çizgiye göre farkları hesaplar. Chromatic incelemeyi yürütür ve sapmaları işaretler. Storybook, bileşeni izole eder, böylece fark sayfa dokusu değil, bileşen olur.

Piksel için endüstriyel düzeyde git farkı. Bir düğme dolguda üç piksel değişti, fark bunu yakalar. Bir boşluk belirteci yerinden oynadı ve kırk yüzeye yayıldı, fark kırkını da yakalar. Görsel fark size yeni sürümün daha iyi olduğunu söyleyemez, sadece değiştiğini söyleyebilir. Bir sonraki katmanla eşleştirin.

Üçüncü Katman, Yapılandırılmış Değerlendirme Kriterleriyle LLM - Hakem Olarak

Piramidin ortası iki yıl önce tasarımcılar için yoktu ve şimdi haftanın en çok kullanılan saati. Yapılandırılmış bir değerlendirme kriterine karşı yapay zeka çıktısını puanlayan bir LLM. Saatte on bin aday, toplamda birkaç dolar.

Her adayı bir görüntüye veya bileşene dönüştürün. Bir değerlendirme kriteriyle Claude veya GPT'ye iletin. Her kriter için bir puan, tek satırlık bir gerekçe, geçme veya kalma sonucu alın. Başarılı olanları puana göre sıralayın. En iyi elli adayı bir insana gönderin.

Anthropic'in değerlendirme çerçevesi, OpenAI değerlendirmeleri ve özel bir Claude değerlendirme kriteri, farklı şekillerde aynı işi yapar. Çoğu tasarım ekibi özel yolu tercih eder, çünkü değerlendirme kriteri markadır ve değerlendirme de markayı destekler.

Marka Sesi İçin Çalıştırılabilir Bir Değerlendirme Kriteri

Bir değerlendirme kriteri bir "vibe" ifadesi değildir. Ölçülebilir kriterlerin, bir puanlama ölçeğinin ve bir gerekçe alanının listesidir. İşte Claude aramasının üç saniyede puanlayabileceği çalışan bir marka sesi değerlendirme kriteri.

Score the copy 1 to 5 per criterion. One-line reason per score.

1. Lead-first. Does the first sentence answer the question?
2. Concrete. Does it name real products, numbers, moves?
3. Voice match. Does the tone match the brand profile?
4. No filler. Does every sentence earn its seat?
5. No banned constructions. Em dashes, AI-slop adjectives, hedging.

Pass: average 4.0+ AND no criterion below 3.
Output JSON: {scores, reasons, pass}

Bu değerlendirme ölçütünü beş yüz yapay zeka tarafından hazırlanmış ürün açıklamasına uygulayın ve iki dakikadan kısa sürede insan gözüne değer otuz tanesini ortaya çıkarın. Aynı şekil düzen, renk kullanımı ve bileşen kompozisyonu için de geçerlidir. Puan, gerekçe, eşik, JSON.

Değerlendirme ölçütü varlıktır. Sürümünü oluşturun. Test edin. Gerçek başarısızlıklar üzerinde iyileştirin. Bir değerlendirme ölçütü yayınlayan ve aylık olarak ayarlayan bir ekip, bir marka işletim sistemi işletiyor demektir. Sadece sesli doküman kullanan bir ekip ise yazı tura atıyor demektir.

Üzerinde birden beşe kadar kazınmış nokta bulunan beş dikey bloktan oluşan Voxel puanlama tablosu ve RUBRIC etiketli yüzer bir puanlama plakası, mercan puslu koyu stüdyo ve "ÇIKTIYI PUANLAYIN" yazılı editoryal katman.
Üzerinde birden beşe kadar kazınmış nokta bulunan beş dikey bloktan oluşan Voxel puanlama tablosu ve RUBRIC etiketli yüzer bir puanlama plakası, mercan puslu koyu stüdyo ve "ÇIKTIYI PUANLAYIN" yazılı editoryal katman.

Dördüncü Katman, en üstte insan zevki değerlendirmesi

İnsan değerlendirmesi, otomasyonun değerlendiremediği şeyler içindir. Zevk, hepsi lint, diff ve değerlendirme ölçütünden geçen üç seçenek arasında karar verir. Değerlendirme ölçütünün kaçırdığı uç durumlar. Kuralı kasten çiğneme kararı. Kural: insan sadece huninin tepesini görür.

Bir tasarımcı haftada dört bin adayı inceliyorsa, sistem bozuktur. Yirmi tanesini inceleyip altısını yayınlıyorsa, sistem çalışıyordur. Kıdemli göz, gerçekten önemli olan seçimlere odaklanır. İşte burada Lezzet son kaledir. devreye giriyor. Değerlendirme yığını, zevkin yerini tutmaz, zevki kullanılabilir kılan şeydir.

Dönüşüm-değerlendirmesi döngüyü tamamlar

Gönderilen yüzeyler, dönüşüm verilerini değerlendirme ölçütüne geri besler. Varyant başına tıklama oranı. Düzen başına sayfada geçirilen süre. Görsel işleme başına kaydetme oranları. Değerlendirme ölçütü sinyali emdiğinde döngü kapanır: dönüşümle ilişkili kriterler yukarı doğru ağırlıklandırılır, ilişkili olmayanlar aşağı doğru ağırlıklandırılır veya kaldırılır.

Hiç güncellenmeyen bir değerlendirme ölçütü, görüşte donmuş bir anlık görüntüdür. Gerçek değerlendirme yığınları kullanan markalar, değerlendirme ölçütünü yaşayan kod olarak ele alır: sürüm kontrollü, aylık olarak ayarlanmış, üç ayda bir denetlenmiş. Vercel bunu Geist'te yapıyor. Linear yazımda. Stripe tasarım sisteminde. Çıktı, yapay zeka hacminde zahmetsiz marka tutarlılığı gibi görünüyor, ancak zahmetsiz olmanın tam tersi. Mühendislik ürünüdür.

2026'daki Araç Zinciri

Gerçek araçlar. Uydurma kategoriler yok.

  • Playwright. Ekran görüntüsü yakalama için başsız tarayıcı. Ücretsiz, betiklenebilir. Parayı inceleme yüzeyine bırakır.

  • Pixelmatch. Piksel düzeyinde fark kütüphanesi. Playwright ile eşleştirin. Ücretsiz. Farkın ne anlama geldiği konusunda bir görüşü yok.

  • Chromatic. Storybook'a bağlı, barındırılan görsel inceleme. Bileşen değişiklikleri için sınıfının en iyisi kullanıcı arayüzü. Kullanıcı başına fiyatlandırılır.

  • Storybook. Bileşen izolasyonu, böylece fark sayfa arayüzü değil, bileşen olur. Ücretsiz. Kod tarafında, bir geliştiriciye ihtiyaç duyar.

  • Anthropic değerlendirmeleri. Sürümlü değerlendirme ölçütleriyle ölçekli LLM-hakem çerçevesi. Belgeler ML'ye çarpık, tasarımcıların bir çevirmene ihtiyacı var.

  • OpenAI değerlendirmeleri. Aynı iş, farklı model ailesi. Açık kaynak. Varsayılanlar metni varsayar, tasarım ekipleri görüntü puanlamasını sarar.

  • Özel Claude değerlendirme ölçütü. İstemi, API ve JSON şeması. Çalışan bir değerlendirme ölçütüne giden en ucuz yol. Bakım ekibinize aittir.

  • axe-core. Erişilebilirlik denetimi. Ücretsiz, CI'da çalışır. Estetik ihlalleri değil, WCAG'yi yakalar.

Küçük bir ekip için başlangıç ​​yığını Playwright, Pixelmatch ve özel bir Claude değerlendirme ölçütüdür. Üç araç, bir öğleden sonra, değerlendirme piramidi yarın ilk üç katmanda çalışır durumda.

Bunu işlem hattınıza entegre etme konusunda yardıma ihtiyacınız varsa, Brainy'ı işe alın'e bakın. ClaudeBrainy, LLM'yi değerlendirme aracı olarak kullanan bir yüzeye dönüştüren değerlendirme ölçütü kütüphaneleri ve beceri paketleri sunar. BrandBrainy, değerlendirme ölçütünün puanladığı Yapay zeka üretimi için marka sistemleri'yi sunar.

Yeni tasarımcı rolü, değerlendirme paketi operatörü

Yapay zeka adayları oluşturduğunda, tasarımcı rolü her şeyi yapmaktan, neyin gönderileceğine karar veren değerlendirme paketini çalıştırmaya geçer. 2026'da ortaya çıkan iş unvanı, görsel tasarımcıdan ziyade ML değerlendirme mühendisine daha çok benziyor. 2024'ün kıdemli tasarımcısı çeyrekte elli varlık üretiyordu. 2026'nın kıdemli tasarımcısı ise değerlendirme kriterlerini yayınlıyor, eşikleri ayarlıyor, sırayı denetliyor ve haftada en iyi elli adayı inceliyor.

Değerlendirme tasarımı etrafında hiyerarşi yeniden şekilleniyor. Junior sırayı yönetiyor. Mid, yayınlanan veriler üzerinde değerlendirme kriterlerini ayarlıyor. Senior, değerlendirme sisteminin sahibi ve kriterleri tanımlıyor. Lead, dönüşüm verileri ve değerlendirme kriterleri güncellemeleri arasındaki döngüyü tasarlıyor. "Gözünüz var mı?" artık "Gözünüz var mı ve onu kodlayabiliyor musunuz?" oluyor.

Claude Beceriler bu rolün altında yer alıyor. Beceri, paketlenmiş değerlendirme kriterleridir. Yayınlayın, kurun, her aday aynı kodlanmış değerlendirmeye göre puanlanır. Senior gözü, günde elli aday yerine on bin adaya bakıyor.

Mercan kehribar-mavi tonlarında, "GEMİ ÖLÇÜ AYARLAMA" yazılı, oklarla kapalı bir döngü içinde akan üç üçgen istasyondan oluşan voksel geri bildirim döngüsü, mercan puslu karanlık stüdyo.
Mercan kehribar-mavi tonlarında, "GEMİ ÖLÇÜ AYARLAMA" yazılı, oklarla kapalı bir döngü içinde akan üç üçgen istasyondan oluşan voksel geri bildirim döngüsü, mercan puslu karanlık stüdyo.

Tasarım ekipleri için yapay zeka hazırlık kontrol listesi

Bunu bugün işlem hattınızda çalıştırın. On beş dakika.

  1. Token doğrulama her bileşende çalışır.

  2. Kontrast ve erişilebilirlik denetimi, CI'da gönderilen her yüzeyde çalışır.

  3. Görsel regresyon her PR'da çalışır.

  4. Marka sesi için yazılı bir değerlendirme ölçütü mevcuttur.

  5. Düzen ve işçilik için yazılı bir değerlendirme ölçütü mevcuttur.

  6. Bir LLM, insan incelemesinden önce yapay zeka adaylarını değerlendirme ölçütüne göre puanlar.

  7. İnsan inceleme kuyruğu, tasarımcı başına haftada yüzün altında adayla sınırlı kalır.

  8. Dönüşüm verileri aylık olarak değerlendirme ölçütüne geri döner.

  9. Değerlendirme ölçütü sürümlendirilir.

  10. Değerlendirme sistemi için adlandırılmış bir sahip vardır.

Beşin altında puan, ekibin yapay zeka çalışmalarını yazı tura atarak göndermesi anlamına gelir. Beş ila yedi arasında, temel mevcut ancak döngü açık. Sekiz veya daha yüksek, ekip Yapay zekâ tabanlı ürün tasarımı'ün gerçekten gerektirdiği seviyede çalışıyor demektir.

İlk değerlendirme yığınını oluştururken sık karşılaşılan tuzaklar

Dört tuzak, hepsi önlenebilir.

Birincisi, değerlendirme kriterlerini izole bir şekilde oluşturmak. Değerlendirme kriterleri, bir model için kodlanmış markadır. Marka lideri, tasarım lideri, kıdemli yazar odada olmalı. Tek bir kişi tahmin yürütmemeli.

İkincisi, eşik belirlememek. Geçme eşiği olmadan puanlama tiyatrodur. Tabanı belirleyin (beş üzerinden ortalama dört, üçten düşük kriter olmaması işe yarar bir başlangıçtır) ve değerlendirme kriterlerinin başarısız olan adayları reddetmesine izin verin.

Üçüncüsü, sürümleme yapmamak. Değişmeyen bir değerlendirme kriterleri işe yaramaz. Sürümleyin, her değişikliği bir neden ile kaydedin, sapmayı üç ayda bir denetleyin.

Dördüncüsü, insan katmanını otomatikleştirmek. Piramidin tepesi kasıtlı olarak insandır. Otomatikleştirilmiş değerlendirme yapan ekipler, haftanın en verimli saatini atlar ve endüstriyel hacimde değerlendirmeyi geçen vasat ürünler gönderir.

SSS

Tasarım değerlendirmeleri nedir?

Yapay zeka tarafından üretilen tasarım çıktısını ölçülebilir kriterlere göre puanlayan, herhangi bir adayın insan veya üretime ulaşmadan önce çalıştırılan otomatik ve yapılandırılmış kontrollerdir. Dört katman: kod denetimi ve belirteç doğrulama, görsel fark ve regresyon, yapılandırılmış bir değerlendirme ölçütüyle LLM-hakem olarak, en üstte insan zevki incelemesi.

Yapay zeka her ay daha iyi hale gelirken tasarımcılar neden değerlendirmelere ihtiyaç duyuyor?

Daha iyi modeller, daha az sayıda ve açıkça doğru aday yerine, daha hızlı bir şekilde daha fazla aday üretir. Darboğaz, varlığı oluşturmaktan incelemeye kaydı ve yapay zeka hacminde inceleme, tıpkı makine öğrenimi ekiplerinin ölçekli model çıktısı için gerektirdiği gibi, katmanlı bir değerlendirme yığını gerektirir.

Bir değerlendirme yığını başlatmak için hangi araçlara ihtiyacım var?

Minimum yığın, ekran görüntüsü yakalama için Playwright, görsel fark için Pixelmatch ve LLM-hakem olarak özel bir Claude değerlendirme ölçütüdür. Küçük bir ekip için aylık birkaç yüz dolarlık API harcaması. Bir öğleden sonra kurulabilir.

LLM-hakem olarak nedir?

LLM puan modeli çıktısının yapılandırılmış bir değerlendirme ölçütüne göre değerlendirilmesi modelidir. Model, adayı ve değerlendirme kriterlerini alır, her kriter için tek satırlık bir gerekçeyle birlikte bir puan döndürür ve yapılandırılmış JSON çıktısı verir. Anthropic ve OpenAI her ikisi de değerlendirme çerçeveleri sunar. Çoğu tasarım ekibi, değerlendirme kriterleri marka olduğu için özel bir Claude sürümü yazar.

Değerlendirme kriterlerinde zevk kodlanabilir mi?

Çoğu evet. Zevkin mekanik kısımları (öncelikli, somut, gereksiz kelime yok, ses uyumu, düzen ustalığı, erişilebilirlik) ölçülebilir. Değerlendirme kriterlerinin yapamayacağı zevk kararları, uç durumlar, kuralı çiğneme kararları ve üç seçenek arasından hepsi geçen seçimlerdir. Bunlar insana kalır.

Bu hafta değerlendirme yığınını başlatın

Üç adım. Platform satın alımı gerekmez.

İlk olarak, değerlendirme kriterlerini yazın. Bir sayfa, beş ila yedi kriter, bir ila beş ölçek, geçme eşiği, gerekçe alanı. Marka lideri ve tasarım lideri odada. Birinci sürümü Cuma günü yayınlayın.

İkinci olarak, LLM'yi değerlendirme aracı olarak kullanın. Claude API'si, değerlendirme kriterleriyle birlikte JSON çıktısı veriyor. Ekibin yayınladığı son yüz adaya karşı çalıştırın. Puanları okuyun. Başarısızlıkları inceleyin.

Üçüncü olarak, bir sonraki yayınlanacak yüzeye lint ve görsel farkları yükleyin. Playwright, Pixelmatch, axe-core, token doğrulayıcı. Bir öğleden sonra. Piramidin en altı çalışıyor.

Değerlendirme yığınını çalışan bir uygulama haline getirme konusunda yardıma ihtiyacınız varsa, Brainy'ı işe alın'i kullanın. ClaudeBrainy, ekibin kıdemli gözünün her adaya karşı çalışması için değerlendirme kriterleri kütüphaneleri ve beceri paketleri sunuyor. BrandBrainy, değerlendirme kriterlerinin puanladığı marka işletim sistemini sunuyor. Yeni nesil tasarım kalitesi titreşimle değil, mühendislikle oluşturuluyor ve yığını ilk oluşturan ekipler, üç ekibin kapsadığı yüzey alanını işletecek.

If you want help standing up an eval stack on your design pipeline, ClaudeBrainy ships Skill packs and rubric libraries that turn LLM-as-judge into leverage, and BrandBrainy ships the brand operating system the rubric scores against.

Get Started