Masked Cosine Similarity

Cosine similarity between feature activations restricted to tokens where one of the features fires; used to identify feature splitting relationships

Related by similarity (8)

cosine ≥ 0.65 · no typed edge

Entities in the same semantic neighborhood but without a typed relation to this one — candidates for new edges or unrecognized duplicates.

Cosine Similarity-Based Deception Detectionconcept0.819
Detection mechanism computing cosine similarity between activation vectors and steering vectors to classify deception
Cosine Similarity Measurementmethod0.814
Used to measure alignment between DIM direction and cone basis vectors to assess overlap
Cosine similarity between truth probesmethod0.797
Geometric evaluation of truth direction alignment across layers and prompt templates.
Cosine Similarity Binary Classifiermethod0.786
Classifier using cosine similarity between activation vectors and steering vectors to detect deception with 89% accuracy
Pairwise Cosine Similarity Analysismethod0.780
Used to quantify the semantic clustering of adjective-set embeddings across model families and conditions
Cosine Similarity Ranking for Instruction Discoverymethod0.752
Method to discover new reflection-inducing instructions by ranking candidate tokens by cosine similarity to steering vectors.
In Qwen-2.5-9B, only v1 has meaningful cosine similarity to DIM direction; all additional basis vectors have cosine similarities ~1e-9finding0.747
Appendix E replication of DIM alignment finding in Qwen model
Attribution Similaritymethod0.744
Correlating attribution vectors (feature activation × logit weight of next token) across model pairs to measure functional universality