deep-learning-algo-impls/autograd_8cpp_source.html

#include "utils/autograd.hpp"

#include <algorithm>

#include <cmath>

#include <queue>

#include <unordered_set>


namespace utils {


    template<typename T>


    void Variable<T>::backward(const Matrix<T>& gradient) {

        if (!requires_grad_) {

            return;

        }


        // Initialize gradient if not provided

        Matrix<T> grad = gradient;

        if (gradient.rows() == 0 || gradient.cols() == 0) {

            // Scalar case - gradient is 1

            grad = Matrix<T>::ones(data_.rows(), data_.cols());

        }


        // Accumulate gradient

        grad_ = grad_ + grad;


        // If this variable has a gradient function, propagate backwards

        if (grad_fn_) {

            auto input_grads = grad_fn_->backward(grad);


            // Propagate to inputs (this would require storing input variables)

            // For now, this is a simplified implementation

            // In a full implementation, we'd need to store the computational graph

        }

    }


    template<typename T>


    Variable<T> Variable<T>::operator+(const Variable<T>& other) const {

        auto add_fn = std::make_shared<AddFunction<T>>();

        Matrix<T> result = add_fn->forward({*this, other});


        if (requires_grad_ || other.requires_grad_) {

            return Variable<T>(result, add_fn);

        }

        return Variable<T>(result, false);

    }


    template<typename T>


    Variable<T> Variable<T>::operator-(const Variable<T>& other) const {

        auto sub_fn = std::make_shared<SubFunction<T>>();

        Matrix<T> result = sub_fn->forward({*this, other});


        if (requires_grad_ || other.requires_grad_) {

            return Variable<T>(result, sub_fn);

        }

        return Variable<T>(result, false);

    }


    template<typename T>


    Variable<T> Variable<T>::operator*(const Variable<T>& other) const {

        auto mul_fn = std::make_shared<MulFunction<T>>();

        Matrix<T> result = mul_fn->forward({*this, other});


        if (requires_grad_ || other.requires_grad_) {

            return Variable<T>(result, mul_fn);

        }

        return Variable<T>(result, false);

    }


    template<typename T>


    Variable<T> Variable<T>::dot(const Variable<T>& other) const {

        auto dot_fn = std::make_shared<DotFunction<T>>();

        Matrix<T> result = dot_fn->forward({*this, other});


        if (requires_grad_ || other.requires_grad_) {

            return Variable<T>(result, dot_fn);

        }

        return Variable<T>(result, false);

    }


    template<typename T>


    Variable<T> Variable<T>::transpose() const {

        auto transpose_fn = std::make_shared<TransposeFunction<T>>();

        Matrix<T> result = transpose_fn->forward({*this});


        if (requires_grad_) {

            return Variable<T>(result, transpose_fn);

        }

        return Variable<T>(result, false);

    }


    template<typename T>


    Variable<T> Variable<T>::sum() const {

        auto sum_fn = std::make_shared<SumFunction<T>>();

        Matrix<T> result = sum_fn->forward({*this});


        if (requires_grad_) {

            return Variable<T>(result, sum_fn);

        }

        return Variable<T>(result, false);

    }


    template<typename T>


    Variable<T> Variable<T>::mean() const {

        auto sum_result = sum();

        T count = static_cast<T>(data_.rows() * data_.cols());

        Matrix<T> count_matrix(1, 1, count);

        Variable<T> count_var(count_matrix, false);


        // mean = sum / count

        return sum_result * Variable<T>(Matrix<T>(1, 1, 1.0 / count), false);

    }


    template<typename T>


    Variable<T> Variable<T>::sigmoid() const {

        auto sigmoid_fn = std::make_shared<SigmoidFunction<T>>();

        Matrix<T> result = sigmoid_fn->forward({*this});


        if (requires_grad_) {

            return Variable<T>(result, sigmoid_fn);

        }

        return Variable<T>(result, false);

    }


    template<typename T>


    Variable<T> Variable<T>::tanh() const {

        // tanh(x) = (exp(2x) - 1) / (exp(2x) + 1)

        Matrix<T> result(data_.rows(), data_.cols());

        for (size_t i = 0; i < data_.rows(); ++i) {

            for (size_t j = 0; j < data_.cols(); ++j) {

                result(i, j) = std::tanh(data_(i, j));

            }

        }

        return Variable<T>(result, requires_grad_);

    }


    template<typename T>


    Variable<T> Variable<T>::relu() const {

        Matrix<T> result(data_.rows(), data_.cols());

        for (size_t i = 0; i < data_.rows(); ++i) {

            for (size_t j = 0; j < data_.cols(); ++j) {

                result(i, j) = std::max(static_cast<T>(0), data_(i, j));

            }

        }

        return Variable<T>(result, requires_grad_);

    }


    template<typename T>


    Variable<T> Variable<T>::exp() const {

        Matrix<T> result(data_.rows(), data_.cols());

        for (size_t i = 0; i < data_.rows(); ++i) {

            for (size_t j = 0; j < data_.cols(); ++j) {

                result(i, j) = std::exp(data_(i, j));

            }

        }

        return Variable<T>(result, requires_grad_);

    }


    template<typename T>


    Variable<T> Variable<T>::log() const {

        Matrix<T> result(data_.rows(), data_.cols());

        for (size_t i = 0; i < data_.rows(); ++i) {

            for (size_t j = 0; j < data_.cols(); ++j) {

                result(i, j) = std::log(data_(i, j));

            }

        }

        return Variable<T>(result, requires_grad_);

    }


    // Explicit template instantiations

    template class Variable<float>;

    template class Variable<double>;

    template class Function<float>;

    template class Function<double>;

    template class AddFunction<float>;

    template class AddFunction<double>;

    template class SubFunction<float>;

    template class SubFunction<double>;

    template class MulFunction<float>;

    template class MulFunction<double>;

    template class DotFunction<float>;

    template class DotFunction<double>;

    template class TransposeFunction<float>;

    template class TransposeFunction<double>;

    template class SigmoidFunction<float>;

    template class SigmoidFunction<double>;

    template class SumFunction<float>;

    template class SumFunction<double>;


} // namespace utils

autograd.hpp
PyTorch-like automatic differentiation engine.

utils::AddFunction
Addition function.
Definition autograd.hpp:149

utils::DotFunction
Matrix multiplication function.
Definition autograd.hpp:195

utils::Function
Function node in the computational graph.
Definition autograd.hpp:25

utils::Matrix
Definition matrix.hpp:46

utils::Matrix::cols
size_t cols() const
Get the number of columns.
Definition matrix.hpp:200

utils::Matrix::ones
static Matrix ones(size_t rows, size_t cols)
Create a matrix filled with ones.
Definition matrix.cpp:128

utils::Matrix::rows
size_t rows() const
Get the number of rows.
Definition matrix.hpp:194

utils::MulFunction
Element-wise multiplication function.
Definition autograd.hpp:179

utils::SigmoidFunction
Sigmoid function.
Definition autograd.hpp:229

utils::SubFunction
Subtraction function.
Definition autograd.hpp:164

utils::SumFunction
Sum function.
Definition autograd.hpp:258

utils::TransposeFunction
Transpose function.
Definition autograd.hpp:214

utils::Variable
Variable class that supports automatic differentiation.
Definition autograd.hpp:58

utils::Variable::mean
Variable< T > mean() const
Definition autograd.cpp:102

utils::Variable::operator-
Variable< T > operator-(const Variable< T > &other) const
Definition autograd.cpp:47

utils::Variable::operator+
Variable< T > operator+(const Variable< T > &other) const
Definition autograd.cpp:36

utils::Variable::sigmoid
Variable< T > sigmoid() const
Definition autograd.cpp:113

utils::Variable::log
Variable< T > log() const
Definition autograd.cpp:158

utils::Variable::dot
Variable< T > dot(const Variable< T > &other) const
Definition autograd.cpp:69

utils::Variable::exp
Variable< T > exp() const
Definition autograd.cpp:147

utils::Variable::tanh
Variable< T > tanh() const
Definition autograd.cpp:124

utils::Variable::transpose
Variable< T > transpose() const
Definition autograd.cpp:80

utils::Variable::backward
void backward(const Matrix< T > &gradient=Matrix< T >())
Perform backward pass.
Definition autograd.cpp:10

utils::Variable::sum
Variable< T > sum() const
Definition autograd.cpp:91

utils::Variable::operator*
Variable< T > operator*(const Variable< T > &other) const
Definition autograd.cpp:58

utils::Variable::relu
Variable< T > relu() const
Definition autograd.cpp:136

utils
Definition autograd.hpp:16

utils::sum
T sum(const Matrix< T > &matrix)
Calculate sum of all matrix elements.
Definition matrix.cpp:166