libpromeki/matrix3x3_8h_source.html

#pragma once


#include <promeki/config.h>

#if PROMEKI_ENABLE_CORE

#include <cmath>

#include <promeki/platform.h>

#if defined(PROMEKI_HAS_SSE2)

#include <immintrin.h>

#elif defined(PROMEKI_HAS_NEON)

#include <arm_neon.h>

#endif

#include <promeki/namespace.h>


PROMEKI_NAMESPACE_BEGIN


class Matrix3x3 {

        public:

                static constexpr float IdentityMatrix[3][3] = {

                        {1.0f, 0.0f, 0.0f}, {0.0f, 1.0f, 0.0f}, {0.0f, 0.0f, 1.0f}};


                static Matrix3x3 scalingMatrix(float scale_x, float scale_y, float scale_z) {

                        Matrix3x3 result;

                        result.data[0][0] = scale_x;

                        result.data[1][1] = scale_y;

                        result.data[2][2] = scale_z;

                        return result;

                }


                static Matrix3x3 rotationMatrix(float angle, char axis) {

                        Matrix3x3 result;

                        float     cos_angle = std::cos(angle);

                        float     sin_angle = std::sin(angle);

                        switch (axis) {

                                case 'x':

                                        result.data[0][0] = 1.0f;

                                        result.data[1][1] = cos_angle;

                                        result.data[1][2] = -sin_angle;

                                        result.data[2][1] = sin_angle;

                                        result.data[2][2] = cos_angle;

                                        break;

                                case 'y':

                                        result.data[0][0] = cos_angle;

                                        result.data[0][2] = sin_angle;

                                        result.data[1][1] = 1.0f;

                                        result.data[2][0] = -sin_angle;

                                        result.data[2][2] = cos_angle;

                                        break;

                                case 'z':

                                        result.data[0][0] = cos_angle;

                                        result.data[0][1] = -sin_angle;

                                        result.data[1][0] = sin_angle;

                                        result.data[1][1] = cos_angle;

                                        result.data[2][2] = 1.0f;

                                        break;

                                default:

                                        // Invalid axis, return identity matrix

                                        result.data[0][0] = 1.0f;

                                        result.data[1][1] = 1.0f;

                                        result.data[2][2] = 1.0f;

                                        break;

                        }

                        return result;

                }


                Matrix3x3() { zero(); }


                Matrix3x3(float val[3][3]) { set(val); }


                Matrix3x3 operator+(const Matrix3x3 &other) const {

                        Matrix3x3 result;

                        for (int i = 0; i < 3; ++i) {

#if defined(PROMEKI_HAS_SSE2)

                                __m128 row = _mm_loadu_ps(data[i]);

                                __m128 other_row = _mm_loadu_ps(other.data[i]);

                                _mm_storeu_ps(result.data[i], _mm_add_ps(row, other_row));

#elif defined(PROMEKI_HAS_NEON)

                                float32x4_t row = vld1q_f32(data[i]);

                                float32x4_t other_row = vld1q_f32(other.data[i]);

                                vst1q_f32(result.data[i], vaddq_f32(row, other_row));

#else

                                for (int j = 0; j < 4; ++j) {

                                        result.data[i][j] = data[i][j] + other.data[i][j];

                                }

#endif

                        }

                        return result;

                }


                Matrix3x3 operator-(const Matrix3x3 &other) const {

                        Matrix3x3 result;

                        for (int i = 0; i < 3; ++i) {

#if defined(PROMEKI_HAS_SSE2)

                                __m128 row = _mm_loadu_ps(data[i]);

                                __m128 other_row = _mm_loadu_ps(other.data[i]);

                                _mm_storeu_ps(result.data[i], _mm_sub_ps(row, other_row));

#elif defined(PROMEKI_HAS_NEON)

                                float32x4_t row = vld1q_f32(data[i]);

                                float32x4_t other_row = vld1q_f32(other.data[i]);

                                vst1q_f32(result.data[i], vsubq_f32(row, other_row));

#else

                                for (int j = 0; j < 4; ++j) {

                                        result.data[i][j] = data[i][j] - other.data[i][j];

                                }

#endif

                        }

                        return result;

                }


                Matrix3x3 operator*(const Matrix3x3 &other) const {

                        Matrix3x3 result;

                        for (int i = 0; i < 3; ++i) {

                                for (int j = 0; j < 3; ++j) {

                                        float sum = 0.0f;

                                        for (int k = 0; k < 3; ++k) {

                                                sum += data[i][k] * other.data[k][j];

                                        }

                                        result.data[i][j] = sum;

                                }

                        }

                        return result;

                }


                float dot(int row1, int row2) const {

                        // Column 3 is always zero (class invariant), so a full

                        // 4-lane multiply contributes nothing extra to the sum.

#if defined(PROMEKI_HAS_SSE3)

                        __m128 vec1 = _mm_loadu_ps(data[row1]);

                        __m128 vec2 = _mm_loadu_ps(data[row2]);

                        __m128 mul = _mm_mul_ps(vec1, vec2);

                        mul = _mm_hadd_ps(mul, mul);

                        mul = _mm_hadd_ps(mul, mul);

                        return _mm_cvtss_f32(mul);

#elif defined(PROMEKI_HAS_NEON) && defined(PROMEKI_ARCH_AARCH64)

                        float32x4_t vec1 = vld1q_f32(data[row1]);

                        float32x4_t vec2 = vld1q_f32(data[row2]);

                        return vaddvq_f32(vmulq_f32(vec1, vec2));

#else

                        return data[row1][0] * data[row2][0] +

                               data[row1][1] * data[row2][1] +

                               data[row1][2] * data[row2][2];

#endif

                }


                void zero() {

                        for (int i = 0; i < 3; ++i) {

                                for (int j = 0; j < 4; ++j) {

                                        data[i][j] = 0.0f;

                                }

                        }

                        return;

                }


                void set(float val[3][3]) {

                        for (int i = 0; i < 3; ++i) {

                                for (int j = 0; j < 3; ++j) {

                                        data[i][j] = val[i][j];

                                }

                                data[i][3] = 0.0f;

                        }

                        return;

                }


                Matrix3x3 transpose() const {

                        Matrix3x3 result;

                        for (int i = 0; i < 3; ++i) {

                                for (int j = 0; j < 3; ++j) {

                                        result.data[i][j] = data[j][i];

                                }

                        }

                        return result;

                }


                float determinant() const {

                        return data[0][0] * (data[1][1] * data[2][2] - data[1][2] * data[2][1]) -

                               data[0][1] * (data[1][0] * data[2][2] - data[1][2] * data[2][0]) +

                               data[0][2] * (data[1][0] * data[2][1] - data[1][1] * data[2][0]);

                }


                Matrix3x3 inverse() const {

                        Matrix3x3 result;

                        float     det = determinant();

                        if (det == 0.0f) {

                                // Singular matrix, inverse does not exist

                                return result; // Return zero matrix

                        }

                        float inv_det = 1.0f / det;

                        result.data[0][0] = (data[1][1] * data[2][2] - data[1][2] * data[2][1]) * inv_det;

                        result.data[0][1] = (data[0][2] * data[2][1] - data[0][1] * data[2][2]) * inv_det;

                        result.data[0][2] = (data[0][1] * data[1][2] - data[0][2] * data[1][1]) * inv_det;

                        result.data[1][0] = (data[1][2] * data[2][0] - data[1][0] * data[2][2]) * inv_det;

                        result.data[1][1] = (data[0][0] * data[2][2] - data[0][2] * data[2][0]) * inv_det;

                        result.data[1][2] = (data[0][2] * data[1][0] - data[0][0] * data[1][2]) * inv_det;

                        result.data[2][0] = (data[1][0] * data[2][1] - data[1][1] * data[2][0]) * inv_det;

                        result.data[2][1] = (data[0][1] * data[2][0] - data[0][0] * data[2][1]) * inv_det;

                        result.data[2][2] = (data[0][0] * data[1][1] - data[0][1] * data[1][0]) * inv_det;

                        return result;

                }


                float trace() const { return data[0][0] + data[1][1] + data[2][2]; }


                Matrix3x3 operator*(float scalar) const {

                        Matrix3x3 result;

                        for (int i = 0; i < 3; ++i) {

                                for (int j = 0; j < 3; ++j) {

                                        result.data[i][j] = data[i][j] * scalar;

                                }

                        }

                        return result;

                }


                Matrix3x3 operator/(float scalar) const {

                        Matrix3x3 result;

                        if (scalar != 0.0f) {

                                float inv_scalar = 1.0f / scalar;

                                for (int i = 0; i < 3; ++i) {

                                        for (int j = 0; j < 3; ++j) {

                                                result.data[i][j] = data[i][j] * inv_scalar;

                                        }

                                }

                        }

                        return result;

                }


                bool operator==(const Matrix3x3 &other) const {

                        for (int i = 0; i < 3; ++i) {

                                for (int j = 0; j < 3; ++j) {

                                        if (data[i][j] != other.data[i][j]) {

                                                return false;

                                        }

                                }

                        }

                        return true;

                }


                bool operator!=(const Matrix3x3 &other) const { return !(*this == other); }


                float get(int row, int col) const {

                        if (row >= 0 && row < 3 && col >= 0 && col < 3) {

                                return data[row][col];

                        }

                        return 0.0f; // Invalid row or column, return 0.0f

                }


                void set(int row, int col, float value) {

                        if (row >= 0 && row < 3 && col >= 0 && col < 3) {

                                data[row][col] = value;

                        }

                }


                Matrix3x3 elementMultiply(const Matrix3x3 &other) const {

                        Matrix3x3 result;

                        for (int i = 0; i < 3; ++i) {

#if defined(PROMEKI_HAS_SSE2)

                                __m128 row = _mm_loadu_ps(data[i]);

                                __m128 other_row = _mm_loadu_ps(other.data[i]);

                                _mm_storeu_ps(result.data[i], _mm_mul_ps(row, other_row));

#elif defined(PROMEKI_HAS_NEON)

                                float32x4_t row = vld1q_f32(data[i]);

                                float32x4_t other_row = vld1q_f32(other.data[i]);

                                vst1q_f32(result.data[i], vmulq_f32(row, other_row));

#else

                                for (int j = 0; j < 3; ++j) {

                                        result.data[i][j] = data[i][j] * other.data[i][j];

                                }

#endif

                        }

                        return result;

                }


                Matrix3x3 elementDivide(const Matrix3x3 &other) const {

                        Matrix3x3 result;

                        for (int i = 0; i < 3; ++i) {

#if defined(PROMEKI_HAS_SSE2)

                                __m128 row = _mm_loadu_ps(data[i]);

                                __m128 other_row = _mm_loadu_ps(other.data[i]);

                                // Mask out lanes where the divisor is zero so

                                // we return 0.0f for those rather than NaN/inf.

                                __m128 mask = _mm_cmpneq_ps(other_row, _mm_set1_ps(0.0f));

                                __m128 div = _mm_and_ps(_mm_div_ps(row, other_row), mask);

                                _mm_storeu_ps(result.data[i], div);

#elif defined(PROMEKI_HAS_NEON) && defined(PROMEKI_ARCH_AARCH64)

                                float32x4_t row = vld1q_f32(data[i]);

                                float32x4_t other_row = vld1q_f32(other.data[i]);

                                // Mask out lanes where the divisor is zero

                                // before dividing, since on aarch64 a NaN-only

                                // result is still a real divide.

                                uint32x4_t zero_mask = vceqq_f32(other_row, vdupq_n_f32(0.0f));

                                float32x4_t div = vdivq_f32(row, other_row);

                                uint32x4_t bits = vbicq_u32(vreinterpretq_u32_f32(div), zero_mask);

                                vst1q_f32(result.data[i], vreinterpretq_f32_u32(bits));

#else

                                for (int j = 0; j < 3; ++j) {

                                        result.data[i][j] = other.data[i][j] != 0.0f

                                                ? data[i][j] / other.data[i][j]

                                                : 0.0f;

                                }

#endif

                        }

                        return result;

                }


                void vectorTransform(float vector[3]) const {

                        float result[3];

                        result[0] = data[0][0] * vector[0] + data[0][1] * vector[1] + data[0][2] * vector[2];

                        result[1] = data[1][0] * vector[0] + data[1][1] * vector[1] + data[1][2] * vector[2];

                        result[2] = data[2][0] * vector[0] + data[2][1] * vector[1] + data[2][2] * vector[2];

                        vector[0] = result[0];

                        vector[1] = result[1];

                        vector[2] = result[2];

                }


        private:

                // Padded to 4 columns so the 128-bit SIMD load/store paths

                // never read or write past the row.  Column 3 is always zero

                // and the SIMD ops preserve that invariant.

                float data[3][4];

};


PROMEKI_NAMESPACE_END


#endif // PROMEKI_ENABLE_CORE

namespace.h

platform.h