सुरक्षा

मेकैनिस्टिक इंटरप्रेटेबिलिटी

इसे यह भी कहते हैं: Mech Interp, यांत्रिक व्याख्यात्मकता

Neural networks के अंदर neuron/circuit/feature स्तर पर क्या होता है, इसकी reverse-engineering। सिर्फ यह नहीं कि मॉडल क्या आउटपुट करता है, बल्कि यह कैसे गणना करता है।

यह क्यों मायने रखता है

AI सुरक्षा के लिए केंद्रीय। शोधकर्ताओं ने Transformers के अंदर विशिष्ट circuits (induction heads आदि) खोजे हैं। Anthropic में प्रमुख अनुसंधान क्षेत्र।

गहन अध्ययन

Superposition: activation space में दिशाओं के रूप में कई features एनकोड किए जाते हैं। Sparse autoencoders features को अलग करते हैं। Features से circuits तक: विशिष्ट व्यवहारों के लिए information flow का अनुरेखण।

मेकैनिस्टिक इंटरप्रेटेबिलिटी

यह क्यों मायने रखता है

गहन अध्ययन

संबंधित अवधारणाएँ