import sys, os
sys.path.insert(0, os.path.abspath('..'))

import time
import torch
import matplotlib.pyplot as plt
import numpy as np

from src.plotting import apply_style
from src.tiny_models import toy_mlp, tiny_mlp, count_params

apply_style()
torch.manual_seed(0)
print('environment ready')

def stable_rank(A):
    # YOUR CODE HERE
    raise NotImplementedError

n = 50
specs = {
    'fast (2^-i)':    torch.diag(2.0 ** (-torch.arange(n).float())),
    'slow (1/(1+i))': torch.diag(1.0 / (1.0 + torch.arange(n).float())),
    'flat (all 1)':   torch.diag(torch.ones(n)),
}

for name, A in specs.items():
    r_s = stable_rank(A)
    print(f'{name:>20s}: r_s = {r_s:.2f}  (rank = {n})')

print('\nExpect: fast ≈ 1.33, slow ≈ 4, flat = 50')

def randomized_eigh(matvec, n, k, oversample=10, n_power=0, seed=0):
    # YOUR CODE HERE
    raise NotImplementedError

# Sanity check on a fast-decay matrix.
torch.manual_seed(0)
n_test = 100
true_eigs = 2.0 ** (-torch.arange(n_test).float())
Q_test = torch.linalg.qr(torch.randn(n_test, n_test))[0]
A_test = Q_test @ torch.diag(true_eigs) @ Q_test.T

eigvals, eigvecs = randomized_eigh(lambda v: A_test @ v, n=n_test, k=5,
                                    oversample=10, seed=0)
true_top5 = true_eigs.abs().sort(descending=True).values[:5]
print(f'rSVD top-5:  {eigvals.abs().tolist()}')
print(f'true top-5:  {true_top5.tolist()}')

n = 100
k = 5

def make_decay(kind):
    if kind == 'fast': eigs = 2.0 ** (-torch.arange(n).float())
    elif kind == 'slow': eigs = 1.0 / (1.0 + torch.arange(n).float())
    elif kind == 'flat': eigs = torch.ones(n)
    Q = torch.linalg.qr(torch.randn(n, n))[0]
    return Q @ torch.diag(eigs) @ Q.T, eigs.sort(descending=True).values[:k]

fig, axes = plt.subplots(1, 3, figsize=(13, 4), sharey=True)
for ax, kind in zip(axes, ['fast', 'slow', 'flat']):
    torch.manual_seed(7)
    A, true_top = make_decay(kind)
    for p in [0, 5, 10, 20]:
        errs = []
        for trial in range(5):
            ev, _ = randomized_eigh(lambda v: A @ v, n=n, k=k, oversample=p, seed=trial)
            errs.append((ev.abs() - true_top).abs().max().item())
        ax.semilogy([p]*5, errs, 'o', alpha=0.5)
        ax.semilogy([p], [sum(errs)/5], 'k_', markersize=18)
    ax.set_title(f'{kind} decay')
    ax.set_xlabel('oversampling p'); ax.set_ylabel('top-k max abs err')
plt.tight_layout(); plt.show()

torch.manual_seed(0)
A_slow, true_top_slow = make_decay('slow')

fig, ax = plt.subplots()
for q in [0, 1, 2, 4]:
    errs = []
    for trial in range(5):
        ev, _ = randomized_eigh(lambda v: A_slow @ v, n=n, k=k,
                                oversample=5, n_power=q, seed=trial)
        errs.append((ev.abs() - true_top_slow).abs().max().item())
    ax.semilogy([q]*5, errs, 'o', alpha=0.5)
    ax.semilogy([q], [sum(errs)/5], 'k_', markersize=18)
ax.set_xlabel('power iterations q'); ax.set_ylabel('top-k max abs err')
ax.set_title('Power iterations amplify dominant subspace (slow-decay matrix)')
plt.show()

from torch.func import functional_call, grad, jvp, jacrev

def entk_matvec(model, X, v):
    # YOUR CODE HERE
    raise NotImplementedError

# Verify against the explicit eNTK on a tiny case.
def entk_explicit(model, X):
    params = {n: p.detach() for n, p in model.named_parameters()}
    def f_scalar(pd):
        return functional_call(model, pd, (X,)).sum(dim=-1)
    J_dict = jacrev(f_scalar)(params)
    J = torch.cat([j.reshape(j.shape[0], -1) for j in J_dict.values()], dim=1)
    return J @ J.T

torch.manual_seed(0)
model = toy_mlp(seed=1)
X = torch.randn(12, 20)
v = torch.randn(12)

K = entk_explicit(model, X)
Kv_explicit = K @ v
Kv_matrixfree = entk_matvec(model, X, v)

print(f'max |Δ| = {(Kv_explicit - Kv_matrixfree).abs().max():.2e}')
assert torch.allclose(Kv_explicit, Kv_matrixfree, atol=1e-4)
print('matrix-free matches explicit ✓')

torch.manual_seed(0)
model_t = toy_mlp(seed=1)
P = count_params(model_t)
print(f'model: P = {P} params')

Ns = [8, 32, 128, 512]
t_matrixfree, t_explicit = [], []
for N in Ns:
    X = torch.randn(N, 20)
    v = torch.randn(N)

    # warmup
    entk_matvec(model_t, X, v)
    t0 = time.perf_counter()
    for _ in range(3):
        entk_matvec(model_t, X, v)
    t_matrixfree.append((time.perf_counter() - t0) / 3)

    entk_explicit(model_t, X)
    t0 = time.perf_counter()
    for _ in range(3):
        K = entk_explicit(model_t, X)
        Kv = K @ v
    t_explicit.append((time.perf_counter() - t0) / 3)
    print(f'N={N:4d}: matrix-free {t_matrixfree[-1]*1e3:7.1f} ms,  '
          f'explicit {t_explicit[-1]*1e3:7.1f} ms')

plt.figure(figsize=(7, 4.5))
plt.loglog(Ns, t_matrixfree, 'o-', label='matrix-free (1 VJP + 1 JVP)')
plt.loglog(Ns, t_explicit,    's-', label='explicit (build J, then K v)')
plt.xlabel('N (number of samples)'); plt.ylabel('matvec time (s)')
plt.title('Money plot: eNTK matvec cost vs N')
plt.legend(); plt.show()

from src.data import load_mnist_7x7

torch.manual_seed(0)
model_m = tiny_mlp(seed=0)
X_mnist, y_mnist = load_mnist_7x7(n=200, seed=0)

# Define K's matvec via closures.
def K_matvec(v):
    return entk_matvec(model_m, X_mnist, v)

# Top-6 eigenfunctions via rSVD.
eigvals, eigvecs = randomized_eigh(K_matvec, n=200, k=6, oversample=10, n_power=1, seed=0)
print(f'top-6 eNTK eigenvalues: {eigvals.tolist()}')

fig, axes = plt.subplots(2, 3, figsize=(9, 6))
for ax, k_idx in zip(axes.flat, range(6)):
    u_k = eigvecs[:, k_idx]
    # YOUR CODE HERE: form an "eigenfunction image" from u_k and X_mnist.
    eig_img = (u_k[:, None] * X_mnist).sum(dim=0).reshape(7, 7)
    ax.imshow(eig_img, cmap='RdBu_r')
    ax.set_title(f'eigenfn {k_idx+1}\nλ = {eigvals[k_idx]:.2g}')
    ax.set_xticks([]); ax.set_yticks([])
plt.suptitle('Top-6 eNTK eigenfunctions (tiny_mlp at init)')
plt.tight_layout(); plt.show()

Cost	Notebook 2
eNTK matvec (matrix-free)	O(forward + backward) — flat in N
rSVD, top-k, oversample p	(k+p) matvecs + O(n(k+p)²) for QR/eigh
rSVD with q power iters	(k+p)(2q+1) matvecs

Notebook 2 — Randomized methods and the empirical NTK¶

0. When randomization wins: stable rank¶

Exercise 0.1: Compute stable rank for three spectra (🔴⚪⚪⚪⚪, 5 min)¶

1. Why randomize?¶

2. Randomized SVD on a toy matrix¶

Exercise 2.1: Implement randomized_eigh (🔴🔴🔴⚪⚪, 20 min)¶

Exercise 2.2: Sweep oversampling on three decay regimes (🔴🔴⚪⚪⚪, 12 min)¶

Exercise 2.3: Power iterations rescue slow decay (🔴🔴⚪⚪⚪, 10 min)¶

3. The eNTK without materializing¶

The Novak et al. trick¶

Exercise 3.1: Implement entk_matvec (🔴🔴🔴🔴⚪, 25 min)¶

Exercise 3.2: The money plot — time vs N (🔴🔴⚪⚪⚪, 10 min)¶

4. rSVD on the eNTK: top-k eigenfunctions¶

Exercise 4.1: Visualize top eigenfunctions as 7×7 images (🔴🔴⚪⚪⚪, 8 min)¶

Wrap-up¶