deep-learning-algo-impls/autograd_8hpp_source.html

#pragma once


#include <functional>

#include <memory>

#include <vector>

#include <unordered_set>

#include "matrix.hpp"


namespace utils {


    template<typename T>

    class Variable;


    template<typename T>


    class Function {

    public:

        virtual ~Function() = default;


        virtual Matrix<T> forward(const std::vector<Variable<T>>& inputs) = 0;


        virtual std::vector<Matrix<T>> backward(const Matrix<T>& grad_output) = 0;


        virtual void save_for_backward(const std::vector<Matrix<T>>& tensors) {

            saved_tensors_ = tensors;

        }


    protected:

        std::vector<Matrix<T>> saved_tensors_;

    };


    template<typename T>


    class Variable {

    public:


        Variable(const Matrix<T>& data, bool requires_grad = false)

            : data_(data), requires_grad_(requires_grad), grad_fn_(nullptr) {

            if (requires_grad_) {

                grad_ = Matrix<T>::zeros(data.rows(), data.cols());

            }

        }


        Variable(const Matrix<T>& data, std::shared_ptr<Function<T>> grad_fn)

            : data_(data), requires_grad_(true), grad_fn_(grad_fn) {

            grad_ = Matrix<T>::zeros(data.rows(), data.cols());

        }


        // Getters

        const Matrix<T>& data() const { return data_; }

        Matrix<T>& data() { return data_; }

        const Matrix<T>& grad() const { return grad_; }

        Matrix<T>& grad() { return grad_; }

        bool requires_grad() const { return requires_grad_; }

        std::shared_ptr<Function<T>> grad_fn() const { return grad_fn_; }


        void backward(const Matrix<T>& gradient = Matrix<T>());


        void zero_grad() {

            if (requires_grad_) {

                grad_ = Matrix<T>::zeros(data_.rows(), data_.cols());

            }

        }


        Variable<T> detach() const {

            return Variable<T>(data_, false);

        }


        // Arithmetic operations

        Variable<T> operator+(const Variable<T>& other) const;

        Variable<T> operator-(const Variable<T>& other) const;

        Variable<T> operator*(const Variable<T>& other) const;


        // Matrix operations

        Variable<T> dot(const Variable<T>& other) const;

        Variable<T> transpose() const;

        Variable<T> sum() const;

        Variable<T> mean() const;


        // Activation functions

        Variable<T> sigmoid() const;

        Variable<T> tanh() const;

        Variable<T> relu() const;

        Variable<T> exp() const;

        Variable<T> log() const;


        // Element access

        T& operator()(size_t row, size_t col) { return data_(row, col); }

        const T& operator()(size_t row, size_t col) const { return data_(row, col); }


        size_t rows() const { return data_.rows(); }

        size_t cols() const { return data_.cols(); }


    private:

        Matrix<T> data_;

        Matrix<T> grad_;

        bool requires_grad_;

        std::shared_ptr<Function<T>> grad_fn_;

        std::vector<Variable<T>> inputs_; // For backward pass

    };


    // Specific function implementations


    template<typename T>


    class AddFunction : public Function<T> {

    public:


        Matrix<T> forward(const std::vector<Variable<T>>& inputs) override {

            return inputs[0].data() + inputs[1].data();

        }


        std::vector<Matrix<T>> backward(const Matrix<T>& grad_output) override {

            return {grad_output, grad_output};

        }


    };


    template<typename T>


    class SubFunction : public Function<T> {

    public:


        Matrix<T> forward(const std::vector<Variable<T>>& inputs) override {

            return inputs[0].data() - inputs[1].data();

        }


        std::vector<Matrix<T>> backward(const Matrix<T>& grad_output) override {

            return {grad_output, grad_output * Matrix<T>(grad_output.rows(), grad_output.cols(), -1.0)};

        }


    };


    template<typename T>


    class MulFunction : public Function<T> {

    public:


        Matrix<T> forward(const std::vector<Variable<T>>& inputs) override {

            this->save_for_backward({inputs[0].data(), inputs[1].data()});

            return inputs[0].data() * inputs[1].data();

        }


        std::vector<Matrix<T>> backward(const Matrix<T>& grad_output) override {

            return {grad_output * this->saved_tensors_[1], grad_output * this->saved_tensors_[0]};

        }


    };


    template<typename T>


    class DotFunction : public Function<T> {

    public:


        Matrix<T> forward(const std::vector<Variable<T>>& inputs) override {

            this->save_for_backward({inputs[0].data(), inputs[1].data()});

            return dot(inputs[0].data(), inputs[1].data());

        }


        std::vector<Matrix<T>> backward(const Matrix<T>& grad_output) override {

            return {

                dot(grad_output, this->saved_tensors_[1].transpose()),

                dot(this->saved_tensors_[0].transpose(), grad_output)

            };

        }


    };


    template<typename T>


    class TransposeFunction : public Function<T> {

    public:


        Matrix<T> forward(const std::vector<Variable<T>>& inputs) override {

            return inputs[0].data().transpose();

        }


        std::vector<Matrix<T>> backward(const Matrix<T>& grad_output) override {

            return {grad_output.transpose()};

        }


    };


    template<typename T>


    class SigmoidFunction : public Function<T> {

    public:


        Matrix<T> forward(const std::vector<Variable<T>>& inputs) override {

            Matrix<T> result(inputs[0].rows(), inputs[0].cols());

            for (size_t i = 0; i < inputs[0].rows(); ++i) {

                for (size_t j = 0; j < inputs[0].cols(); ++j) {

                    result(i, j) = 1.0 / (1.0 + std::exp(-inputs[0](i, j)));

                }

            }

            this->save_for_backward({result});

            return result;

        }


        std::vector<Matrix<T>> backward(const Matrix<T>& grad_output) override {

            const auto& sigmoid_output = this->saved_tensors_[0];

            Matrix<T> grad_input(sigmoid_output.rows(), sigmoid_output.cols());

            for (size_t i = 0; i < sigmoid_output.rows(); ++i) {

                for (size_t j = 0; j < sigmoid_output.cols(); ++j) {

                    grad_input(i, j) = grad_output(i, j) * sigmoid_output(i, j) * (1.0 - sigmoid_output(i, j));

                }

            }

            return {grad_input};

        }


    };


    template<typename T>


    class SumFunction : public Function<T> {

    public:


        Matrix<T> forward(const std::vector<Variable<T>>& inputs) override {

            this->save_for_backward({inputs[0].data()});

            T sum_val = sum(inputs[0].data());

            return Matrix<T>(1, 1, sum_val);

        }


        std::vector<Matrix<T>> backward(const Matrix<T>& grad_output) override {

            const auto& input_shape = this->saved_tensors_[0];

            return {Matrix<T>(input_shape.rows(), input_shape.cols(), grad_output(0, 0))};

        }


    };


    // Type aliases

    using VariableF = Variable<float>;

    using VariableD = Variable<double>;


} // namespace utils


utils::AddFunction
Addition function.
Definition autograd.hpp:149

utils::AddFunction::backward
std::vector< Matrix< T > > backward(const Matrix< T > &grad_output) override
Backward pass computation.
Definition autograd.hpp:155

utils::AddFunction::forward
Matrix< T > forward(const std::vector< Variable< T > > &inputs) override
Forward pass computation.
Definition autograd.hpp:151

utils::DotFunction
Matrix multiplication function.
Definition autograd.hpp:195

utils::DotFunction::backward
std::vector< Matrix< T > > backward(const Matrix< T > &grad_output) override
Backward pass computation.
Definition autograd.hpp:202

utils::DotFunction::forward
Matrix< T > forward(const std::vector< Variable< T > > &inputs) override
Forward pass computation.
Definition autograd.hpp:197

utils::Function
Function node in the computational graph.
Definition autograd.hpp:25

utils::Function::~Function
virtual ~Function()=default

utils::Function::backward
virtual std::vector< Matrix< T > > backward(const Matrix< T > &grad_output)=0
Backward pass computation.

utils::Function::save_for_backward
virtual void save_for_backward(const std::vector< Matrix< T > > &tensors)
Set saved tensors for backward pass.
Definition autograd.hpp:46

utils::Function::saved_tensors_
std::vector< Matrix< T > > saved_tensors_
Definition autograd.hpp:51

utils::Function::forward
virtual Matrix< T > forward(const std::vector< Variable< T > > &inputs)=0
Forward pass computation.

utils::Matrix
Definition matrix.hpp:46

utils::Matrix::zeros
static Matrix zeros(size_t rows, size_t cols)
Create a matrix filled with zeros.
Definition matrix.cpp:121

utils::Matrix::cols
size_t cols() const
Get the number of columns.
Definition matrix.hpp:200

utils::Matrix::transpose
Matrix transpose() const
Compute the transpose of the matrix.
Definition matrix.cpp:78

utils::Matrix::rows
size_t rows() const
Get the number of rows.
Definition matrix.hpp:194

utils::MulFunction
Element-wise multiplication function.
Definition autograd.hpp:179

utils::MulFunction::forward
Matrix< T > forward(const std::vector< Variable< T > > &inputs) override
Forward pass computation.
Definition autograd.hpp:181

utils::MulFunction::backward
std::vector< Matrix< T > > backward(const Matrix< T > &grad_output) override
Backward pass computation.
Definition autograd.hpp:186

utils::SigmoidFunction
Sigmoid function.
Definition autograd.hpp:229

utils::SigmoidFunction::forward
Matrix< T > forward(const std::vector< Variable< T > > &inputs) override
Forward pass computation.
Definition autograd.hpp:231

utils::SigmoidFunction::backward
std::vector< Matrix< T > > backward(const Matrix< T > &grad_output) override
Backward pass computation.
Definition autograd.hpp:242

utils::SubFunction
Subtraction function.
Definition autograd.hpp:164

utils::SubFunction::backward
std::vector< Matrix< T > > backward(const Matrix< T > &grad_output) override
Backward pass computation.
Definition autograd.hpp:170

utils::SubFunction::forward
Matrix< T > forward(const std::vector< Variable< T > > &inputs) override
Forward pass computation.
Definition autograd.hpp:166

utils::SumFunction
Sum function.
Definition autograd.hpp:258

utils::SumFunction::forward
Matrix< T > forward(const std::vector< Variable< T > > &inputs) override
Forward pass computation.
Definition autograd.hpp:260

utils::SumFunction::backward
std::vector< Matrix< T > > backward(const Matrix< T > &grad_output) override
Backward pass computation.
Definition autograd.hpp:266

utils::TransposeFunction
Transpose function.
Definition autograd.hpp:214

utils::TransposeFunction::backward
std::vector< Matrix< T > > backward(const Matrix< T > &grad_output) override
Backward pass computation.
Definition autograd.hpp:220

utils::TransposeFunction::forward
Matrix< T > forward(const std::vector< Variable< T > > &inputs) override
Forward pass computation.
Definition autograd.hpp:216

utils::Variable
Variable class that supports automatic differentiation.
Definition autograd.hpp:58

utils::Variable::mean
Variable< T > mean() const
Definition autograd.cpp:102

utils::Variable::operator-
Variable< T > operator-(const Variable< T > &other) const
Definition autograd.cpp:47

utils::Variable::operator+
Variable< T > operator+(const Variable< T > &other) const
Definition autograd.cpp:36

utils::Variable::operator()
const T & operator()(size_t row, size_t col) const
Definition autograd.hpp:130

utils::Variable::detach
Variable< T > detach() const
Detach from computational graph.
Definition autograd.hpp:106

utils::Variable::data
Matrix< T > & data()
Definition autograd.hpp:82

utils::Variable::cols
size_t cols() const
Definition autograd.hpp:133

utils::Variable::grad
Matrix< T > & grad()
Definition autograd.hpp:84

utils::Variable::sigmoid
Variable< T > sigmoid() const
Definition autograd.cpp:113

utils::Variable::requires_grad
bool requires_grad() const
Definition autograd.hpp:85

utils::Variable::log
Variable< T > log() const
Definition autograd.cpp:158

utils::Variable::Variable
Variable(const Matrix< T > &data, std::shared_ptr< Function< T > > grad_fn)
Constructor with gradient function.
Definition autograd.hpp:75

utils::Variable::dot
Variable< T > dot(const Variable< T > &other) const
Definition autograd.cpp:69

utils::Variable::grad_fn
std::shared_ptr< Function< T > > grad_fn() const
Definition autograd.hpp:86

utils::Variable::rows
size_t rows() const
Definition autograd.hpp:132

utils::Variable::exp
Variable< T > exp() const
Definition autograd.cpp:147

utils::Variable::tanh
Variable< T > tanh() const
Definition autograd.cpp:124

utils::Variable::transpose
Variable< T > transpose() const
Definition autograd.cpp:80

utils::Variable::backward
void backward(const Matrix< T > &gradient=Matrix< T >())
Perform backward pass.
Definition autograd.cpp:10

utils::Variable::sum
Variable< T > sum() const
Definition autograd.cpp:91

utils::Variable::operator*
Variable< T > operator*(const Variable< T > &other) const
Definition autograd.cpp:58

utils::Variable::data
const Matrix< T > & data() const
Definition autograd.hpp:81

utils::Variable::grad
const Matrix< T > & grad() const
Definition autograd.hpp:83

utils::Variable::zero_grad
void zero_grad()
Zero the gradients.
Definition autograd.hpp:97

utils::Variable::relu
Variable< T > relu() const
Definition autograd.cpp:136

utils::Variable::Variable
Variable(const Matrix< T > &data, bool requires_grad=false)
Constructor.
Definition autograd.hpp:65

utils::Variable::operator()
T & operator()(size_t row, size_t col)
Definition autograd.hpp:129

matrix.hpp
Matrix utility class for deep learning operations.

utils
Definition autograd.hpp:16

utils::sum
T sum(const Matrix< T > &matrix)
Calculate sum of all matrix elements.
Definition matrix.cpp:166

utils::dot
Matrix< T > dot(const Matrix< T > &a, const Matrix< T > &b)
Compute dot product of two matrices.
Definition matrix.cpp:155