ai for designersApril 25, 202610 min read

Bağlam Penceresi Açıklaması: Uzun Yapay Zeka Sohbetleri Neden Daha Kötü Hale Geliyor?

Bağlam penceresinin aslında ne olduğunu, uzun yapay zeka sohbetlerinin neden yavaşladığını ve sert sınıra ulaşmadan önce netliğini kaybettiğini ve devam etmeniz, sıkıştırmanız veya baştan başlamanız gerektiğini gösteren yüzde eşiklerini açıklıyoruz.

By Boone

X LinkedIn

Kahraman: Yapay zekâ sohbet çalışma alanının voksel sahnesi; sol tarafta birkaç net blok içeren temiz ve odaklanmış bir oturum, sağ tarafta ise gürültüye karışan loş ve dağınık blok yığınlarıyla şişkin bir oturum gösteriliyor.

Büyük bağlam pencereleri uzun sohbet sorununu çözmedi, sadece yerini değiştirdi.

Bir milyon token tutabilen bir model bile, tek bir oturuma ne kadar çok şey sığdırırsanız o kadar yavaşlar, daha pahalıya gelir ve daha az keskinleşir. Sert sınır nadiren sizi vurur. Yumuşak sürüklenme vurur. Uzun sohbetler sessizce bozulur ve çoğu operatör ancak cevaplar gelmeyi bıraktığında ve maliyetler mantıklı olmaktan çıktığında fark eder.

Bu yazı pratik versiyonudur. Bağlam penceresinin aslında ne olduğu, uzun oturumların neden bozulmadan önce kötüleştiği ve ekran görüntüsü alıp bugün kullanabileceğiniz bir yüzde tablosu.

Bağlam penceresi çalışma belleğidir

Bağlam penceresi, bir yapay zeka modelinin tek bir turda aktif olarak değerlendirebileceği konuşma, dosya ve talimat miktarıdır. İçindeki her şey önemlidir. Mesajlarınız, modelin yanıtları, sistem uyarıları, ekler, alınan kod parçacıkları, araç çıktıları. Modelin cevap vermek için "görmesi" gereken her şey pencerede bulunur.

Faydalı bir zihinsel model: bağlam penceresi depolama değil, RAM'dir. Hızlı ve sınırlıdır. Bir oturum bittiği anda yenilenir. Kalıcı bir yere kaydetmediğiniz sürece sohbetler arasında hiçbir şeyi hatırlamaz.

Jetonlar gerçek birimdir

Modellerin aslında saydığı birimler karakterler veya kelimeler değil, jetonlardır. Kısa bir İngilizce kelime genellikle bir jetondur, daha uzun kelimeler iki veya üçe bölünür ve kod, noktalama işaretleri ve İngilizce olmayan metinler genellikle beklenenden daha fazla jeton kullanır. Çoğu modern model, milyon giriş jetonu ve milyon çıkış jetonu başına fiyatlandırma yapar; giriş, çıkıştan çok daha ucuzdur, ancak uzun oturumlarda tüm geçmiş her turda devam ettiği için hızla artar.

Jetonlar hakkında sadece bir şeyi hatırlamanız gerekiyorsa, şunu hatırlayın: model neredeyse tüm konuşmayı her turda yeniden okur. Uzun geçmiş ücretsiz değildir.

Büyük bağlam sonsuz sohbet anlamına gelmez

200.000, 500.000 veya 1 milyon jetonluk bir pencere bir bütçedir, lisans değil. Model teknik olarak bunların hepsini dikkate alabilir, ancak pratik performans bu aralıkta düz değildir. Giriş boyutu arttıkça gecikme süresi de artar. Giriş boyutu arttıkça maliyetler de artar. Ve kimsenin kabul etmek istemediği kısım olan kalite de önce yükselir sonra düşer. Çoğu model, oturumun başında ve sonunda yer alan son derece alakalı içerikte en iyi performansı gösterirken, en son soruyu yanıtlamak için elemek zorunda kaldıkları yoğun orta kısımda en kötü performansı gösterir.

Daha büyük pencereler tavanı yükseltir, tabanı yükseltmez.

Uzun sohbetler her turda daha fazla maliyete neden olur

Oturum uzadıkça, modelin daha fazla bağlamı yeniden işlemesi gerekir; bu da belirteç kullanımını, gecikmeyi ve maliyeti artırır. Bu mekanik bir durumdur, felsefi değil. Gönderdiğiniz her yeni mesaj, önceki tüm konuşmayı da beraberinde taşır.

Giriş belirteçlerinin kartopu etkisi yaratmasının nedenleri

Üç karşılıklı mesaj içeren kısa bir konuşma, tur başına birkaç bin giriş belirteci kullanabilir. Ekli belgeler, oluşturulmuş ekran görüntüleri ve alıntılanmış kod içeren iki saatlik bir tasarım inceleme oturumu, farkına varmadan tur başına 50.000'den fazla giriş belirteci kullanabilir. Böyle bir oturumun 40. turunda, bir sonraki cevabı üretmekten çok, daha önce olanları tekrar okumaya daha fazla zaman harcıyorsunuz.

Matematik acımasız ama basit. Bir oturum 80.000 tokenlik geçmiş biriktirdiyse, her yeni tur bu 80.000 tokenlik girdinin ve üretilen her şeyin maliyetini karşılar. Bu maliyet, oturumun geri kalanında turdan tura artar.

Araç ağırlıklı oturumlar neden daha hızlı büyür?

Araç kullanımı kartopu etkisini hızlandırır. Bir model bir aracı her çağırdığında ve bir yanıt aldığında, araç çıktısı bağlama katılır. Uzun dosya okumaları, büyük arama sonuçları, çoklu dosya farkları, komut çıktıları ve görüntü oluşturma işlemleri pencereye düşer ve oturumun geri kalanında orada kalır.

Mühendislik ve analiz oturumları bağlamı en hızlı tüketir. Bir düzine dosya okuyan, birkaç test çalıştıran ve günlükleri inceleyen bir kodlama oturumu, iş başlamadan önce 200.000 tokenlik bir pencerenin %60'ını tüketebilir. Asıl görev yerine getirildiğinde, model zaten kalabalık bir odada yol alıyor demektir.

Sert sınıra ulaşmadan önce kalite düşüşü

Asıl sorun sadece bağlamın tükenmesi değil, önce gerçekleşen kademeli keskinlik kaybıdır.

Yumuşak bozulma ve sert arıza

Sert arıza gürültülüdür. Oturum yeni girdiyi reddeder veya mesajları keser. Hemen fark edersiniz ve tam olarak ne olduğunu bilirsiniz.

Yumuşak bozulma sessizdir. Model hala cevap verir. Cevaplar sadece biraz daha kötüleşir. Daha önceki hataları tekrarlamaya başlar. On mesaj önce belirlediğiniz kısıtlamaları bırakır. Yanlış ayrıntıyı alır ve onunla devam eder. Eskiden doğrudan olduğu yerlerde tereddüt eder. Oturum garip hissettirir, ancak teknik olarak hiçbir şey bozulmamıştır.

Yumuşak bozulma, tespit edilmesi daha zor olduğu için daha maliyetli bir arıza modudur.

Eski bağlamın iyi işi nasıl kirlettiği

Bağlam sadece ses seviyesi değildir. Sinyal-gürültü oranıdır. İlgili ayrıntılarla dolu ve net bir problem ifadesi içeren odaklanmış bir oturum, üç terk edilmiş fikir, o zamandan beri değişmiş iki eski kısıtlama ve tamamen başka bir konu hakkında yan konuşma içeren dağınık bir oturumdan farklı performans gösterir.

Yardımcı olmaya çalışan modeller, penceredeki her şeyi değerlendirir. Bir oturumun ortasında yön değiştirirseniz ve önceki yönü açıkça ortadan kaldırmazsanız, her iki versiyon da etki için rekabet eder. Modelin cevapları ikisi arasında uzlaşmaya başlar. Bu uzlaşma nadiren istediğiniz şeydir.

Dağınık bağlam, büyük bağlamdan daha kötüdür

Odaklanmış %60'lık bir oturum, ölü dallar ve ilgisiz işlerle dolu kaotik %30'luk bir oturumdan genellikle daha iyidir. Pencerenin doluluğu, içinde ne olduğundan daha az önemlidir.

Konu değiştirmenin verimliliği neden öldürdüğü

Her konu değiştirme kalıntı bırakır. Önceki konu bağlamdan silinmez, sadece odak noktası olmaktan çıkar. Model, sonraki her turda onu hala dikkate alır. Tek bir oturumda üç farklı görevi aynı anda yürütürseniz, modelden yalnızca birini soruyor olsanız bile, üçünü de dengelemesi isteniyor demektir.

Bu, yarı karışık çıktılar olarak ortaya çıkar. Modelin, yirmi mesaj önce tartıştığınız pazarlama metni hakkında kısmen düşünmesi nedeniyle yanlış problemi çözen kodlar. Geçici olarak bahsettiğiniz farklı bir markanın kısıtlamalarını sessizce devralan düzen önerileri.

Neden her iş akışı için tek bir oturum işe yarıyor?

En yoğun kullanıcıların üzerinde hemfikir olduğu en temiz model, her oturum için tek bir iş akışıdır. Bir sohbette marka çalışması, diğerinde mühendislik çalışması, üçüncüsünde strateji veya planlama. İş akışları arasında geçiş yapmak, aynı oturum içinde bağlam değiştirmek değil, yeni bir oturum başlatmak anlamına gelir.

Bu, aşırı titiz olmakla ilgili değil. Modelin her tür iş için temiz bir alan bulmasını sağlamakla ilgili. Yeni bir oturum başlatmanın maliyeti yaklaşık sıfırdır. Yanlış bağlamı bir karara dahil etmenin maliyeti ise yüksektir.

Bu bağlam yüzdesi eşiklerini kullanın

Çoğu insan mükemmel telemetriye ihtiyaç duymaz, devam etmeleri ve sıfırlamaları gerektiğinde onlara yol gösteren pratik eşiklere ihtiyaç duyarlar. İşte ekran görüntüsü alabileceğiniz tablo:

|--------------|--------------|-------------------------------------------------------------|----------------------------------------------|

%60 - %75 | Uyarı | Daha yavaş dönüşler, ara sıra sapmalar, daha fazla tekrar okuma | Yeni iş eklemeden önce sıkıştırın veya özetleyin |

%75 - %85 | Sürükleme | Gecikme belirgin, hatalar geri dönüyor, riskten korunma | Görevi tamamlayın, bir sonraki oturuma yeni bir başlangıç yapın |

%85 ve üzeri | Sıfırlama | Kısaltma riski, keskin kalite düşüşü, maliyetler ekonomik değil | Bir plana sıkıştırın, ardından sıfırlayın |

%0 - %40 yeşil bölge

Bunu yeni bir mutfak gibi düşünün. Özgürce pişirin. Tek iş akışı, keskin odaklanma, düşük maliyet. Kaliteli işlerin çoğu aslında burada gerçekleşir.

%40 - %60 hala sağlıklı

Uçuşun ortasındasınız. Gecikme ve maliyet artıyor, ancak oturum odaklanmış kaldıysa kalite hala mükemmel. Alakasız görevleri sürükleme dürtüsüne karşı koyun. Bu oturum, modelin kurulum maliyetini karşılıyor; bundan faydalanmaya devam etmek istiyorsunuz.

%60 ila %75 arası uyarı aralığıdır

İşler hala çalışıyor ancak model aynı işi yapmak için daha fazla iş yapıyor. İki hamle yardımcı olur: şimdiye kadar alınan kararları kısa bir özet halinde özetleyin ve açıkça ölü olan bağlamları (terk edilmiş yaklaşımlar, alakasız ekler) budayın. Burada yapılacak küçük bir sıkıştırma, daha sonra çok daha büyük bir sıfırlamayı önler.

%75 ila %85 arası sürüklenme bölgesidir

Uzun oturumlar yürüten her operatör bu aralığı hissetmeyi öğrenir. Cevaplar daha yavaş gelir. Model kendini sorgular. Sessizce kısıtlamaları bırakır. Mevcut görevi tamamlayın, sonucu bir dosyaya veya plana kaydedin ve yeni bir oturumda bir sonraki göreve başlayın.

%85'in üzeri sıkıştırma veya sıfırlama anlamına gelir

Artık azalan getiriler için yüksek fiyatlar ödüyorsunuz. Model ayrıca, sıfırdan başlamaktan daha kötü bir başarısızlık modu olan kesintiye uğramaya bir adım uzaklıkta. Önemli olanı temiz bir plana sıkıştırın, sohbetin dışında kaydedin ve sıfırlayın.

Daha erken yeni bir sohbet başlatın

Gerçek hafızanız dosyalarda, planlarda ve yapılandırılmış notlarda yaşıyorsa, yeni bir sohbet başlatmak bağlamı kaybetmek anlamına gelmez. Bu, çalışma belleğinin çalışma belleği olarak kalmasına izin verirken, uzun süreli hafızayı ait olduğu yerde tutmaktır.

Mevcut oturumu ne zaman sürdürmelisiniz?

İş tek bir sürekli görev olduğunda, bağlam penceresi %60'ın altında olduğunda, oturum tek bir iş akışında kaldığında ve model hala keskin olduğunda devam edin. Bunlar, sahip oldukları her şeyi sonuna kadar kullanmanız gereken oturumlardır.

Hemen ne zaman sıfırlamalısınız?

İş akışlarını değiştirdiğinizde, bağlam %75'i geçtiğinde, model hataları tekrarlamaya veya risk almaya başladığında veya oturum üç veya daha fazla yan dal biriktirdiğinde sıfırlayın. Ayrıca, ayrı bir görevi tamamladığınızda da sıfırlayın. Tamamlanmış bir görevi bir sonrakine taşımanın maliyeti, neredeyse her zaman temiz bir başlangıcın maliyetinden daha yüksektir.

Sistemler Kurun, Ölümsüz Sohbetler Değil

En iyi yapay zeka iş akışları, kalıcı bilgileri konuşmanın dışında depolar, böylece oturumlar taktiksel ve temiz kalır. Sohbet, arşiv değil, araçtır.

Belgeler, planlar ve kontrol listeleri kullanın

En ucuz harici bellek bir Markdown dosyasıdır. Kısa bir plan, bir karar listesi, sonraki adımların bir kontrol listesi. Bunları projenize bırakın, sohbete değil. Yeni oturumlar dosyayı okuyarak başlar; bu, 80.000 tokenlik bir sohbet geçmişini sürüklemekten çok daha az maliyetlidir.

Yeniden kullanılabilir iş akışlarını beceri olarak kaydedin

İki kereden fazla yaptığınız her şey sohbetin dışında yaşamayı hak eder. Tekrarlanabilir bir tasarım inceleme süreci, standart bir devir teslim formatı, bir araştırma iş akışı. Bunu yeniden kullanılabilir bir beceri, komut istemi şablonu veya sistem notu olarak kaydedin. Her yeni oturum, gürültüyü devralmadan iş akışını devralır.

Çalışan bir yapay zeka kurulumu, sonsuz bir dahi sohbetinden ziyade, keskin aletlere, etiketli çekmecelere ve her iş için yeni bir not defterine sahip temiz bir atölyeye benzer. Atölye çalışması devam ediyor. Not defterleri tek kullanımlık.

SSS

İnsanlar sorunun modelde değil, iş akışında olduğunu fark ettiklerinde sordukları sorular şunlardır:

Bir milyon tokenlik bağlam her şeyi çözer mi?

Hayır. Bir milyon tokenlik pencere tavanı yükseltir, ancak tabanı değil. Uzun oturumlar, sınıra ulaşmadan önce hala daha yavaş, daha pahalı ve daha az keskin hale gelir. İyileştirme, tüm bir kod tabanını veya büyük bir veri setini okumak gibi, gerçekten çok sayıda ilgili materyali aynı anda yüklemesi gereken görevler için gerçektir. Kaotik bir oturumu odaklanmış bir oturuma dönüştürmez.

Yeni bir sohbet başlatmak süreklilik için kötü müdür?

Sadece süreklilik sohbette yaşıyorsa. Kararlarınız, planlarınız ve talimatlarınız dosyalarda yaşıyorsa, yeni bir sohbet, gürültü hariç, eski sohbetin bıraktığı yerden tam olarak devam eder. Yeni bir oturumun "bağlamı kaybettiğini" hisseden çoğu operatör, aslında o bağlamın tek kopyasını kaybediyor; bu bir iş akışı sorunudur, sohbet sorunu değil.

Yapay Zeka Oturumumu Ne Sıklıkla Sıfırlamalıyım?

Sabit bir sıklık yok. Belirli bir görev tamamlandığında, iş akışları arasında geçiş yaptığınızda veya oturum %75 bağlam kullanımını aştığında sıfırlayın. Yoğun kullanıcılar için bu günde üç ila on kez olabilir. Daha az kullananlar için ise oturum başına bir kez olabilir. Tetikleyici saat değil, yapılan iştir.

Uzun sohbetlerde Yapay Zekam Neden Yavaşlıyor?

Çünkü her tur tüm konuşma geçmişini yeniden okuyor. Geçmiş büyüdükçe, her turdaki girdi boyutu da onunla birlikte büyüyor, bu nedenle her yeni cevap daha fazla işlem gücü gerektiriyor ve başlaması daha uzun sürüyor. Araç çıktıları, ekler ve büyük kod okumaları eklendiğinde, girdi boyutu konuşmanın hissettirdiğinden daha hızlı büyüyor.

Oturumları Çalışma Alanları Gibi Ele Alın

Yapay Zekayı kullanmanın en akıllı yolu, oturumların atılabilir kalmasına izin verirken kimliği ve belleği kalıcı tutmaktır.

Oturumlar çalışma alanlarıdır. Onları kurarsınız, kullanırsınız, kaldırırsınız. Önemli olan işler dosyalara, planlara ve kalıcı notlara kaydedilir. Oturumun kendisinin kalıcı olması gerekmiyor. Ucuz olması gerekiyor.

Hata, sohbeti bir ilişki gibi ele almaktır. Uzun, birikimli, ayrılması zor bir ilişki. Bu hata, altta yatan modeller daha hızlı ve daha iyi hale gelirken bile, yapay zeka kullanımının zamanla daha yavaş ve daha kötü hissettirmesine neden olur. Sohbet sizin iş ortağınız değil. Sohbet bir çalışma tezgahıdır. Temiz bir çalışma tezgahı, her zaman dağınık bir çalışma tezgahından daha hızlıdır.

Ölümsüz sohbetler yerine daha temiz sistemler kurun. Yapay zeka araçlarınız, markanız ve ürününüz etrafındaki gerçek iş akışını tasarlamada yardıma ihtiyacınız varsa, Brainy'ı işe alın adresini ziyaret edin. Biz sadece komutları değil, atölyeyi de kuruyoruz.

Build cleaner AI systems instead of immortal chats. Brainy designs the workflows, not just the prompts.

Get Started