ai for designersApril 25, 202610 min read

कॉन्टेक्स्ट विंडो की व्याख्या, लंबी एआई चैट क्यों बदतर हो जाती हैं

कॉन्टेक्स्ट विंडो वास्तव में क्या है, लंबी एआई चैट अपनी सीमा तक पहुंचने से पहले धीमी क्यों हो जाती हैं और अपनी तीक्ष्णता क्यों खो देती हैं, और वे प्रतिशत सीमाएं जो आपको बताती हैं कि कब जारी रखना है, संपीड़ित करना है या नए सिरे से शुरू करना है।

By Boone

X LinkedIn

Context window explained, why long AI chats get worse

हीरो: एक एआई चैट वर्कस्पेस का वोक्सेल दृश्य, बाईं ओर कुछ स्पष्ट ब्लॉकों के साथ एक साफ-सुथरा और केंद्रित सत्र दिखाया गया है, जबकि दाईं ओर धुंधले और अव्यवस्थित ब्लॉकों के ढेर के साथ एक अव्यवस्थित सत्र दिखाया गया है जो शोर में घुलमिल जाता है।

बड़े कॉन्टेक्स्ट विंडो ने लंबी चैट की समस्या का समाधान नहीं किया, बल्कि उसे और आगे बढ़ा दिया।

एक मॉडल जो दस लाख टोकन स्टोर कर सकता है, वह भी एक ही सेशन में जितना अधिक डेटा भरता है, उतना ही धीमा, महंगा और कम सटीक होता जाता है। असल समस्या शायद ही कभी कठोर सीमा से उत्पन्न होती है। बल्कि इसका अप्रत्यक्ष प्रभाव ही मायने रखता है। लंबी चैट धीरे-धीरे खराब होती जाती हैं, और अधिकांश ऑपरेटरों को इसका एहसास तभी होता है जब जवाब आने बंद हो जाते हैं और लागत बेमानी हो जाती है।

यह लेख इसका व्यावहारिक संस्करण है। कॉन्टेक्स्ट विंडो वास्तव में क्या है, लंबी चैट टूटने से पहले क्यों खराब होती जाती हैं, और एक प्रतिशत तालिका जिसे आप स्क्रीनशॉट लेकर आज ही उपयोग कर सकते हैं।

कॉन्टेक्स्ट विंडो कार्यशील मेमोरी है

कॉन्टेक्स्ट विंडो वह मात्रा है जितनी बातचीत, फाइलें और निर्देश एक एआई मॉडल एक बार में सक्रिय रूप से विचार कर सकता है। इसके अंदर की हर चीज मायने रखती है। आपके संदेश, मॉडल के उत्तर, सिस्टम प्रॉम्प्ट, अटैचमेंट, प्राप्त स्निपेट, टूल आउटपुट। यदि मॉडल को उत्तर देने के लिए इसे "देखने" की आवश्यकता है, तो यह विंडो में मौजूद होता है।

एक उपयोगी मानसिक मॉडल: कॉन्टेक्स्ट विंडो रैम है, स्टोरेज नहीं। यह तेज़ और सीमित है। सेशन समाप्त होते ही यह रीफ़्रेश हो जाता है। यह चैट के दौरान कुछ भी याद नहीं रखता जब तक कि आप इसे किसी स्थायी जगह पर सहेज न लें।

टोकन ही असली इकाई हैं

टोकन ही वे इकाइयाँ हैं जिन्हें मॉडल वास्तव में गिनते हैं, न कि अक्षर या शब्द। एक छोटा अंग्रेज़ी शब्द आमतौर पर एक टोकन होता है, लंबे शब्दों को दो या तीन भागों में बाँटा जाता है, और कोड, विराम चिह्न और गैर-अंग्रेज़ी टेक्स्ट अक्सर अपेक्षा से अधिक टोकन प्रति अक्षर का उपयोग करते हैं। अधिकांश आधुनिक मॉडल प्रति मिलियन इनपुट टोकन और प्रति मिलियन आउटपुट टोकन के हिसाब से कीमत तय करते हैं, जिसमें इनपुट आउटपुट से कहीं सस्ता होता है, लेकिन लंबे सेशन में यह तेज़ी से बढ़ता जाता है क्योंकि हर बार पूरी हिस्ट्री साथ चलती रहती है।

टोकन के बारे में आपको केवल एक ही बात याद रखनी है: मॉडल हर बार लगभग पूरी बातचीत को दोबारा पढ़ता है। लंबी हिस्ट्री मुफ़्त नहीं होती।

बड़ा कॉन्टेक्स्ट मतलब अनंत चैट नहीं

200K, 500K या 1M टोकन विंडो एक बजट है, लाइसेंस नहीं। मॉडल तकनीकी रूप से इसे ध्यान में रख सकता है, लेकिन व्यावहारिक प्रदर्शन इस सीमा में एक समान नहीं होता। इनपुट का आकार बढ़ने के साथ लेटेंसी भी बढ़ती है। इनपुट का आकार बढ़ने के साथ लागत भी बढ़ती है। और गुणवत्ता, जिसे कोई स्वीकार नहीं करना चाहता, वह भी बढ़ती है और फिर घटती है। अधिकांश मॉडल सत्र के प्रारंभ और अंत में मौजूद प्रासंगिक सामग्री पर सबसे अच्छा प्रदर्शन करते हैं और बीच के सघन डेटा पर सबसे खराब प्रदर्शन करते हैं, जिसे उन्हें नवीनतम प्रश्न का उत्तर देने के लिए छानना पड़ता है।

बड़ी विंडो अधिकतम सीमा को बढ़ाती हैं, न्यूनतम सीमा को नहीं।

लंबी चैट में हर बार लागत बढ़ती है

सत्र बढ़ने के साथ, मॉडल को अधिक संदर्भ को पुनः संसाधित करना पड़ता है, जिससे टोकन का उपयोग, लेटेंसी और लागत बढ़ जाती है। यह यांत्रिक है, दार्शनिक नहीं। आपके द्वारा भेजा गया प्रत्येक नया संदेश अपने साथ पिछली पूरी बातचीत को ले जाता है।

इनपुट टोकन की खपत क्यों बढ़ती है

तीन संदेशों के आदान-प्रदान वाली एक छोटी बातचीत में प्रति टर्न कुछ हज़ार इनपुट टोकन का उपयोग हो सकता है। संलग्न दस्तावेज़ों, जेनरेट किए गए स्क्रीनशॉट और उद्धृत कोड के साथ दो घंटे के डिज़ाइन समीक्षा सत्र में, आपको पता चलने से पहले ही प्रति टर्न 50,000 से अधिक इनपुट टोकन का उपयोग हो सकता है। ऐसे सेशन के 40वें टर्न तक, आप अगले उत्तर को तैयार करने की तुलना में पहले से हुई घटनाओं को दोबारा पढ़ने में अधिक समय व्यतीत कर रहे होते हैं।

गणित जटिल है, लेकिन सरल है। यदि किसी सेशन में 80,000 टोकन का इतिहास जमा हो गया है, तो प्रत्येक नए टर्न में उन 80,000 टोकन के इनपुट और उत्पन्न होने वाली हर चीज़ का भुगतान करना पड़ता है। यह लागत सेशन के शेष समय के लिए हर टर्न के साथ बढ़ती जाती है।

टूल-प्रधान सेशन तेज़ी से क्यों बढ़ते हैं

टूल का उपयोग स्नोबॉल की गति को बढ़ाता है। हर बार जब कोई मॉडल किसी टूल को कॉल करता है और प्रतिक्रिया प्राप्त करता है, तो टूल का आउटपुट कॉन्टेक्स्ट में जुड़ जाता है। लंबी फ़ाइल रीडिंग, बड़े खोज परिणाम, मल्टी-फ़ाइल डिफ़ेंस, कमांड आउटपुट और इमेज जनरेशन सभी विंडो में आ जाते हैं और सेशन के शेष समय के लिए वहीं रहते हैं।

इंजीनियरिंग और विश्लेषण सेशन कॉन्टेक्स्ट को सबसे तेज़ी से खत्म करते हैं। एक कोडिंग सेशन जो एक दर्जन फ़ाइलें पढ़ता है, कुछ परीक्षण चलाता है और लॉग की जाँच करता है, काम शुरू होने से पहले ही 200,000 टोकन की विंडो का 60% हिस्सा खर्च कर सकता है। जब तक वास्तविक कार्य शुरू होता है, तब तक मॉडल पहले से ही एक भीड़ भरे कमरे में नेविगेट कर रहा होता है।

हार्ड लिमिट से पहले गुणवत्ता में गिरावट

असली समस्या केवल संदर्भ का समाप्त होना नहीं है, बल्कि सबसे पहले होने वाली धीरे-धीरे तीक्ष्णता की कमी है।

सूक्ष्म गिरावट बनाम कठोर विफलता

कठोर विफलता स्पष्ट होती है। सत्र नया इनपुट स्वीकार नहीं करता या संदेशों को छोटा कर देता है। आपको तुरंत पता चल जाता है और आप जानते हैं कि वास्तव में क्या हुआ है।

सूक्ष्म गिरावट शांत होती है। मॉडल अभी भी प्रतिक्रिया देता है। बस प्रतिक्रियाएँ थोड़ी खराब हो जाती हैं। यह पहले की गलतियों को दोहराना शुरू कर देता है। यह उन बाधाओं को छोड़ देता है जिन्हें आपने दस संदेश पहले निर्धारित किया था। यह गलत विवरण को पकड़ लेता है और उसी के आधार पर आगे बढ़ता है। यह वहाँ अस्पष्ट हो जाता है जहाँ पहले यह सीधा होता था। सत्र में कुछ गड़बड़ी महसूस होती है, लेकिन तकनीकी रूप से कुछ भी खराब नहीं होता।

सूक्ष्म गिरावट अधिक खर्चीली विफलता है क्योंकि इसे पहचानना अधिक कठिन है।

पुराना संदर्भ अच्छे काम को कैसे दूषित करता है

संदर्भ केवल मात्रा नहीं है। यह सिग्नल-टू-नॉइज़ अनुपात है। प्रासंगिक विवरणों से भरपूर और स्पष्ट समस्या कथन वाला केंद्रित सत्र, तीन छोड़े गए विचारों, दो पुरानी बाधाओं (जो अब बदल चुकी हैं) और किसी अन्य विषय पर हुई अनौपचारिक चर्चा वाले अव्यवस्थित सत्र से अलग तरह से कार्य करता है।

मददगार बनने की कोशिश करने वाले मॉडल हर पहलू को महत्व देते हैं। यदि आप सत्र के बीच में ही दिशा बदल देते हैं और पिछली दिशा को स्पष्ट रूप से समाप्त नहीं करते हैं, तो दोनों दृष्टिकोण प्रभाव के लिए प्रतिस्पर्धा करते रहते हैं। मॉडल के उत्तर दोनों के बीच समझौता करने लगते हैं। यह समझौता शायद ही कभी वांछित होता है।

अव्यवस्थित संदर्भ बड़े संदर्भ से भी बदतर है

एक केंद्रित 60% सत्र अक्सर निरर्थक शाखाओं और असंबंधित कार्यों से भरे अव्यवस्थित 30% सत्र से बेहतर होता है। विंडो की पूर्णता से अधिक महत्वपूर्ण उसमें मौजूद सामग्री है।

विषय बदलने से दक्षता क्यों कम होती है

प्रत्येक विषय परिवर्तन कुछ अवशेष छोड़ता है। पिछला विषय संदर्भ से हटाया नहीं जाता, वह केवल फोकस से हट जाता है। मॉडल हर बार उस पर विचार करता रहता है। यदि आप एक ही सत्र में तीन असंबंधित कार्यों के बीच स्विच करते हैं, तो मॉडल से अप्रत्यक्ष रूप से तीनों कार्यों को संतुलित करने के लिए कहा जा रहा है, भले ही आप केवल एक कार्य के बारे में पूछ रहे हों।

इसका परिणाम अपूर्ण आउटपुट के रूप में सामने आता है। ऐसा कोड जो गलत समस्या का समाधान करता है क्योंकि मॉडल आंशिक रूप से उस मार्केटिंग कॉपी के बारे में सोच रहा होता है जिस पर आपने बीस संदेश पहले चर्चा की थी। लेआउट सुझाव जो चुपचाप उस ब्रांड की बाधाओं को विरासत में लेते हैं जिसका आपने संक्षेप में उल्लेख किया था।

एक वर्कस्ट्रीम के लिए एक सत्र क्यों कारगर है

अधिकांश उपयोगकर्ता जिस सबसे सरल पैटर्न को अपनाते हैं, वह है एक सत्र के लिए एक वर्कस्ट्रीम। एक चैट में ब्रांड का काम, दूसरे में इंजीनियरिंग का काम, और तीसरे में रणनीति या योजना। वर्कस्ट्रीम बदलने का मतलब है एक नया सत्र शुरू करना, न कि उसी सत्र के भीतर संदर्भ बदलना।

यह अतिशयोक्ति नहीं है। यह मॉडल को प्रत्येक प्रकार के कार्य के लिए पर्याप्त स्थान देने के बारे में है। एक नया सत्र शुरू करने की लागत लगभग शून्य है। किसी निर्णय में गलत संदर्भ को शामिल करने की लागत बहुत अधिक है।

इन संदर्भ प्रतिशत सीमाओं का उपयोग करें

अधिकांश लोगों को सटीक टेलीमेट्री की आवश्यकता नहीं होती, उन्हें व्यावहारिक सीमाओं की आवश्यकता होती है जो उन्हें यह बताएं कि कब जारी रखना है और कब रीसेट करना है। स्क्रीनशॉट के लिए तालिका यहाँ दी गई है।

|--------------|--------------|--------------------------------------------------------------|---------------------------------------------|

| 0% से 40% | हरा | सटीक उत्तर, त्वरित प्रतिक्रिया, कम लागत | जारी रखें, यह उत्पादक क्षेत्र है |

0% से 40% तक ग्रीन ज़ोन

इसे एक नए किचन की तरह समझें। बेझिझक खाना पकाएँ। सिंगल वर्कस्ट्रीम, सटीक फोकस, कम ओवरहेड। यहीं पर वास्तव में सबसे गुणवत्तापूर्ण काम होता है।

40% से 60% तक अभी भी स्वस्थ स्थिति है

आप मध्य मार्ग में हैं। विलंबता और लागत बढ़ रही है, लेकिन यदि सत्र केंद्रित रहा है तो गुणवत्ता अभी भी उत्कृष्ट है। असंबद्ध कार्यों को शामिल करने की इच्छा का विरोध करें। सत्र मॉडल की सेटअप लागत की भरपाई कर रहा है; आप इसे जारी रखना चाहते हैं।

60% से 75% तक चेतावनी क्षेत्र

चीजें अभी भी ठीक से काम कर रही हैं, लेकिन मॉडल वही काम करने के लिए अधिक काम कर रहा है। दो कदम मददगार होते हैं: अब तक लिए गए निर्णयों को एक संक्षिप्त सारांश में समेटें, और किसी भी स्पष्ट रूप से बेकार संदर्भ (छोड़े गए दृष्टिकोण, अप्रासंगिक अटैचमेंट) को हटा दें। यहाँ थोड़ा सा संपीड़न बाद में एक बड़े रीसेट से बचाता है।

75% से 85% तक का समय गतिरोध का क्षेत्र है

लंबे समय तक चलने वाले सत्रों में काम करने वाले हर ऑपरेटर को इस सीमा का अनुभव हो जाता है। उत्तर धीमी गति से आते हैं। मॉडल खुद पर संदेह करने लगता है। यह धीरे-धीरे बाधाओं को हटा देता है। वर्तमान कार्य को समाप्त करें, निष्कर्ष को किसी फ़ाइल या योजना में सहेजें और अगले सत्र में अगला कार्य शुरू करें।

85% से ऊपर का मतलब है संपीड़ित करना या रीसेट करना

अब आप घटते प्रतिफल के लिए अधिक कीमत चुका रहे हैं। मॉडल एक गलत मोड़ से ही समाप्ति के कगार पर है, जो कि नए सिरे से शुरू करने से भी बदतर विफलता है। महत्वपूर्ण जानकारी को एक साफ-सुथरी योजना में संपीड़ित करें, उसे चैट से बाहर सहेजें और रीसेट करें।

जल्द ही एक नई चैट शुरू करें

यदि आपकी वास्तविक स्मृति फ़ाइलों, योजनाओं और संरचित नोट्स में है, तो नई चैट शुरू करने का मतलब संदर्भ खोना नहीं है। इसका मतलब है कि कार्यशील स्मृति को कार्यशील स्मृति के रूप में रहने देना, जबकि दीर्घकालिक स्मृति को उसकी वास्तविक स्थिति में रखना।

वर्तमान सत्र कब जारी रखें

जब काम एक निरंतर कार्य हो, संदर्भ विंडो 60% से कम हो, सत्र एक ही वर्कस्ट्रीम पर बना रहे, और मॉडल अभी भी सटीक रूप से काम कर रहा हो, तो सत्र जारी रखें। ये वे सत्र हैं जिनसे आपको अधिकतम लाभ उठाना चाहिए।

तुरंत रीसेट कब करें

वर्कस्ट्रीम बदलते समय, संदर्भ 75% से अधिक होने पर, मॉडल गलतियाँ दोहराने या टालमटोल करने पर, या सत्र में तीन या अधिक साइड ब्रांच बनने पर रीसेट करें। साथ ही, जब भी आप कोई अलग कार्य पूरा करें, रीसेट करें। किसी पूरे हो चुके कार्य को अगले कार्य में ले जाने की लागत लगभग हमेशा नए सिरे से शुरू करने की लागत से अधिक होती है।

सिस्टम बनाएं, न कि अमर चैट

सर्वश्रेष्ठ AI वर्कफ़्लो बातचीत के बाहर स्थायी ज्ञान संग्रहीत करते हैं ताकि सत्र रणनीतिक और सुव्यवस्थित बने रहें। चैट एक उपकरण है, संग्रह नहीं।

दस्तावेज़, योजनाएँ और चेकलिस्ट का उपयोग करें

सबसे सस्ती बाहरी मेमोरी एक मार्कडाउन फ़ाइल है। एक संक्षिप्त योजना, निर्णयों की सूची, अगले चरणों की चेकलिस्ट। इन्हें चैट में नहीं, अपने प्रोजेक्ट में डालें। नए सेशन फ़ाइल को पढ़कर शुरू होते हैं, जिसकी लागत 80,000 टोकन की पूरी चैट हिस्ट्री को साथ लाने की तुलना में बहुत कम होती है।

पुन: उपयोग योग्य वर्कफ़्लो को कौशल के रूप में सहेजें

कोई भी काम जिसे आप दो बार से ज़्यादा करते हैं, उसे चैट से बाहर रखना चाहिए। जैसे कि दोहराने योग्य डिज़ाइन समीक्षा प्रक्रिया, मानक हैंडऑफ़ फ़ॉर्मेट, या शोध वर्कफ़्लो। इसे पुन: उपयोग योग्य कौशल, प्रॉम्प्ट टेम्प्लेट या सिस्टम नोट के रूप में सहेजें। प्रत्येक नया सेशन अनावश्यक डेटा को शामिल किए बिना वर्कफ़्लो को इनहेरिट करता है।

एक कार्यशील AI सेटअप किसी अनंत जीनियस चैट की तरह कम और एक साफ़-सुथरी वर्कशॉप की तरह ज़्यादा दिखता है, जिसमें तेज़ उपकरण, लेबल लगे ड्रॉअर और हर काम के लिए एक नया नोटपैड होता है। वर्कशॉप स्थायी होती है। नोटपैड डिस्पोजेबल होते हैं।

अक्सर पूछे जाने वाले प्रश्न

ये वे प्रश्न हैं जो लोग तब पूछते हैं जब उन्हें एहसास होता है कि समस्या मॉडल में नहीं, बल्कि वर्कफ़्लो में है।

क्या दस लाख टोकन का संदर्भ सब कुछ हल कर देता है?

नहीं। दस लाख टोकन की विंडो क्षमता की सीमा को बढ़ाती है, लेकिन न्यूनतम सीमा को नहीं। लंबे सेशन अपनी सीमा तक पहुँचने से पहले ही धीमे, अधिक खर्चीले और कम सटीक हो जाते हैं। यह सुधार उन कार्यों के लिए वास्तविक है जिनमें एक साथ बहुत सारी प्रासंगिक सामग्री लोड करने की आवश्यकता होती है, जैसे कि संपूर्ण कोडबेस या बड़े डेटासेट को पढ़ना। यह अव्यवस्थित सेशन को केंद्रित सेशन में नहीं बदलता।

क्या नई चैट शुरू करना निरंतरता के लिए हानिकारक है?

केवल तभी जब निरंतरता चैट में ही हो। यदि आपके निर्णय, योजनाएँ और निर्देश फ़ाइलों में हैं, तो नई चैट वहीं से शुरू होती है जहाँ पुरानी चैट समाप्त हुई थी, बस अनावश्यक जानकारी के बिना। अधिकांश ऑपरेटर जिन्हें लगता है कि नए सेशन में "संदर्भ खो रहा है", वे वास्तव में उस संदर्भ की एकमात्र प्रति खो रहे हैं, जो कि वर्कफ़्लो की समस्या है, चैट की नहीं।

मुझे अपने AI सेशन को कितनी बार रीसेट करना चाहिए?

इसकी कोई निश्चित आवृत्ति नहीं है। जब भी कोई विशिष्ट कार्य पूरा हो जाए, जब भी आप वर्कस्ट्रीम बदलें, या जब भी सेशन 75% संदर्भ उपयोग को पार कर जाए, रीसेट करें। अधिक उपयोग करने वालों के लिए यह दिन में तीन से दस बार हो सकता है। कम उपयोग करने वालों के लिए यह प्रति सेशन एक बार हो सकता है। ट्रिगर कार्य है, घड़ी नहीं।

लंबी चैट में मेरी AI धीमी क्यों हो जाती है?

क्योंकि हर बार AI पूरी बातचीत का इतिहास दोबारा पढ़ती है। जैसे-जैसे इतिहास बढ़ता है, हर बार इनपुट का आकार भी बढ़ता जाता है, इसलिए हर नए जवाब के लिए ज़्यादा कंप्यूटिंग पावर की ज़रूरत होती है और उसे शुरू होने में ज़्यादा समय लगता है। टूल आउटपुट, अटैचमेंट और बड़े कोड रीड्स को जोड़ने पर, इनपुट का आकार बातचीत की गति से भी तेज़ी से बढ़ता है।

सेशन को वर्कस्पेस की तरह समझें

AI का सबसे स्मार्ट तरीके से इस्तेमाल करने का तरीका यह है कि पहचान और मेमोरी को स्थायी रखा जाए, जबकि सेशन को डिस्पोजेबल रहने दिया जाए।

सेशन वर्कस्पेस होते हैं। आप उन्हें सेट अप करते हैं, उनका इस्तेमाल करते हैं और उन्हें खत्म कर देते हैं। ज़रूरी काम फाइलों, प्लान और स्थायी नोट्स में सेव हो जाता है। सेशन को खुद स्थायी रहने की ज़रूरत नहीं है। यह कम खर्चीला होना चाहिए।

गलती यह है कि चैट को एक रिश्ते की तरह समझा जाता है। लंबा, बढ़ता हुआ, जिससे अलग होना मुश्किल। यही गलती AI के इस्तेमाल को समय के साथ धीमा और खराब बनाती है, भले ही अंतर्निहित मॉडल तेज़ और बेहतर होते जा रहे हों। चैट आपका सहयोगी नहीं है। चैट एक वर्कबेंच है। साफ-सुथरा सिस्टम अव्यवस्थित सिस्टम से हमेशा तेज़ होता है।

अनंत चैट के बजाय स्वच्छ सिस्टम बनाएं। यदि आप अपने AI टूल्स, ब्रांड और प्रोडक्ट के लिए वास्तविक वर्कफ़्लो डिज़ाइन करने में सहायता चाहते हैं, तो किराया Brainy पर संपर्क करें। हम वर्कशॉप तैयार करते हैं, सिर्फ़ प्रॉम्प्ट्स नहीं।

Build cleaner AI systems instead of immortal chats. Brainy designs the workflows, not just the prompts.

Get Started