What Textbooks Don't Tell You About Curve Fitting

Artem Kirsanov

Mar 31, 2025

5 notes

5 Notes in this Video

Probabilistic View of Linear Regression and Least Squares
Likelihood Maximization, Log-Likelihood, and Optimization in Regression
Regularization as Prior Beliefs About Regression Coefficients
Gaussian Priors and L2 (Ridge) Regularization
Laplace Priors and L1 (Lasso) Regularization for Sparsity

Probabilistic View of Linear Regression and Least Squares

LinearRegression ProbabilisticModel LeastSquares GaussianNoise

Linear regression is reframed as a probabilistic generative model in which outputs are generated by a linear function of inputs plus Gaussian noise, rather than as a purely geometric line-fitting exercise.

Likelihood Maximization, Log-Likelihood, and Optimization in Regression

Likelihood LogLikelihood Optimization MaximumLikelihood

06:00

The same regression problem can be approached geometrically or probabilistically; the probabilistic framing uses likelihood and log-likelihood as the optimization objective.

Regularization as Prior Beliefs About Regression Coefficients

Regularization Priors RidgeRegression Lasso

12:00

When multiple weight vectors (w) fit the data equally well, our prior beliefs about plausible coefficient values help select among them, leading to regularization terms in the objective.

Gaussian Priors and L2 (Ridge) Regularization

GaussianPrior L2Regularization RidgeRegression WeightDecay

16:30

A common assumption in regression is that each coefficient (w_i) is drawn from a zero-centered Gaussian distribution—most features have small effects, with larger weights increasingly unlikely.

Laplace Priors and L1 (Lasso) Regularization for Sparsity

LaplacePrior L1Regularization Lasso Sparsity

20:30

In many domains—genomics, neuroscience, high-dimensional feature spaces—we expect only a handful of features to matter, with most coefficients exactly zero, motivating sparse models.