darknet/gru__layer_8c_source.html

 #include "gru_layer.h"
 #include "connected_layer.h"
 #include "utils.h"
 #include "cuda.h"
 #include "blas.h"
 #include "gemm.h"

 #include <math.h>
 #include <stdio.h>
 #include <stdlib.h>
 #include <string.h>

 static void increment_layer(layer *l, int steps)
 {
     int num = l->outputs*l->batch*steps;
     l->output += num;
     l->delta += num;
     l->x += num;
     l->x_norm += num;

 #ifdef GPU
     l->output_gpu += num;
     l->delta_gpu += num;
     l->x_gpu += num;
     l->x_norm_gpu += num;
 #endif
 }

 layer make_gru_layer(int batch, int inputs, int outputs, int steps, int batch_normalize, int adam)
 {
     fprintf(stderr, "GRU Layer: %d inputs, %d outputs\n", inputs, outputs);
     batch = batch / steps;
     layer l = {0};
     l.batch = batch;
     l.type = GRU;
     l.steps = steps;
     l.inputs = inputs;

     l.uz = malloc(sizeof(layer));
     fprintf(stderr, "\t\t");
     *(l.uz) = make_connected_layer(batch*steps, inputs, outputs, LINEAR, batch_normalize, adam);
     l.uz->batch = batch;

     l.wz = malloc(sizeof(layer));
     fprintf(stderr, "\t\t");
     *(l.wz) = make_connected_layer(batch*steps, outputs, outputs, LINEAR, batch_normalize, adam);
     l.wz->batch = batch;

     l.ur = malloc(sizeof(layer));
     fprintf(stderr, "\t\t");
     *(l.ur) = make_connected_layer(batch*steps, inputs, outputs, LINEAR, batch_normalize, adam);
     l.ur->batch = batch;

     l.wr = malloc(sizeof(layer));
     fprintf(stderr, "\t\t");
     *(l.wr) = make_connected_layer(batch*steps, outputs, outputs, LINEAR, batch_normalize, adam);
     l.wr->batch = batch;


     l.uh = malloc(sizeof(layer));
     fprintf(stderr, "\t\t");
     *(l.uh) = make_connected_layer(batch*steps, inputs, outputs, LINEAR, batch_normalize, adam);
     l.uh->batch = batch;

     l.wh = malloc(sizeof(layer));
     fprintf(stderr, "\t\t");
     *(l.wh) = make_connected_layer(batch*steps, outputs, outputs, LINEAR, batch_normalize, adam);
     l.wh->batch = batch;

     l.batch_normalize = batch_normalize;


     l.outputs = outputs;
     l.output = calloc(outputs*batch*steps, sizeof(float));
     l.delta = calloc(outputs*batch*steps, sizeof(float));
     l.state = calloc(outputs*batch, sizeof(float));
     l.prev_state = calloc(outputs*batch, sizeof(float));
     l.forgot_state = calloc(outputs*batch, sizeof(float));
     l.forgot_delta = calloc(outputs*batch, sizeof(float));

     l.r_cpu = calloc(outputs*batch, sizeof(float));
     l.z_cpu = calloc(outputs*batch, sizeof(float));
     l.h_cpu = calloc(outputs*batch, sizeof(float));

     l.forward = forward_gru_layer;
     l.backward = backward_gru_layer;
     l.update = update_gru_layer;

 #ifdef GPU
     l.forward_gpu = forward_gru_layer_gpu;
     l.backward_gpu = backward_gru_layer_gpu;
     l.update_gpu = update_gru_layer_gpu;

     l.forgot_state_gpu = cuda_make_array(0, batch*outputs);
     l.forgot_delta_gpu = cuda_make_array(0, batch*outputs);
     l.prev_state_gpu = cuda_make_array(0, batch*outputs);
     l.state_gpu = cuda_make_array(0, batch*outputs);
     l.output_gpu = cuda_make_array(0, batch*outputs*steps);
     l.delta_gpu = cuda_make_array(0, batch*outputs*steps);
     l.r_gpu = cuda_make_array(0, batch*outputs);
     l.z_gpu = cuda_make_array(0, batch*outputs);
     l.h_gpu = cuda_make_array(0, batch*outputs);

 #ifdef CUDNN
     cudnnSetTensor4dDescriptor(l.uz->dstTensorDesc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batch, l.uz->out_c, l.uz->out_h, l.uz->out_w);
     cudnnSetTensor4dDescriptor(l.uh->dstTensorDesc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batch, l.uh->out_c, l.uh->out_h, l.uh->out_w);
     cudnnSetTensor4dDescriptor(l.ur->dstTensorDesc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batch, l.ur->out_c, l.ur->out_h, l.ur->out_w);
     cudnnSetTensor4dDescriptor(l.wz->dstTensorDesc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batch, l.wz->out_c, l.wz->out_h, l.wz->out_w);
     cudnnSetTensor4dDescriptor(l.wh->dstTensorDesc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batch, l.wh->out_c, l.wh->out_h, l.wh->out_w);
     cudnnSetTensor4dDescriptor(l.wr->dstTensorDesc, CUDNN_TENSOR_NCHW, CUDNN_DATA_FLOAT, batch, l.wr->out_c, l.wr->out_h, l.wr->out_w);
 #endif
 #endif

     return l;
 }

 void update_gru_layer(layer l, update_args a)
 {
     update_connected_layer(*(l.ur), a);
     update_connected_layer(*(l.uz), a);
     update_connected_layer(*(l.uh), a);
     update_connected_layer(*(l.wr), a);
     update_connected_layer(*(l.wz), a);
     update_connected_layer(*(l.wh), a);
 }

 void forward_gru_layer(layer l, network net)
 {
     network s = net;
     s.train = net.train;
     int i;
     layer uz = *(l.uz);
     layer ur = *(l.ur);
     layer uh = *(l.uh);

     layer wz = *(l.wz);
     layer wr = *(l.wr);
     layer wh = *(l.wh);

     fill_cpu(l.outputs * l.batch * l.steps, 0, uz.delta, 1);
     fill_cpu(l.outputs * l.batch * l.steps, 0, ur.delta, 1);
     fill_cpu(l.outputs * l.batch * l.steps, 0, uh.delta, 1);

     fill_cpu(l.outputs * l.batch * l.steps, 0, wz.delta, 1);
     fill_cpu(l.outputs * l.batch * l.steps, 0, wr.delta, 1);
     fill_cpu(l.outputs * l.batch * l.steps, 0, wh.delta, 1);
     if(net.train) {
         fill_cpu(l.outputs * l.batch * l.steps, 0, l.delta, 1);
         copy_cpu(l.outputs*l.batch, l.state, 1, l.prev_state, 1);
     }

     for (i = 0; i < l.steps; ++i) {
         s.input = l.state;
         forward_connected_layer(wz, s);
         forward_connected_layer(wr, s);

         s.input = net.input;
         forward_connected_layer(uz, s);
         forward_connected_layer(ur, s);
         forward_connected_layer(uh, s);


         copy_cpu(l.outputs*l.batch, uz.output, 1, l.z_cpu, 1);
         axpy_cpu(l.outputs*l.batch, 1, wz.output, 1, l.z_cpu, 1);

         copy_cpu(l.outputs*l.batch, ur.output, 1, l.r_cpu, 1);
         axpy_cpu(l.outputs*l.batch, 1, wr.output, 1, l.r_cpu, 1);

         activate_array(l.z_cpu, l.outputs*l.batch, LOGISTIC);
         activate_array(l.r_cpu, l.outputs*l.batch, LOGISTIC);

         copy_cpu(l.outputs*l.batch, l.state, 1, l.forgot_state, 1);
         mul_cpu(l.outputs*l.batch, l.r_cpu, 1, l.forgot_state, 1);

         s.input = l.forgot_state;
         forward_connected_layer(wh, s);

         copy_cpu(l.outputs*l.batch, uh.output, 1, l.h_cpu, 1);
         axpy_cpu(l.outputs*l.batch, 1, wh.output, 1, l.h_cpu, 1);

         if(l.tanh){
             activate_array(l.h_cpu, l.outputs*l.batch, TANH);
         } else {
             activate_array(l.h_cpu, l.outputs*l.batch, LOGISTIC);
         }

         weighted_sum_cpu(l.state, l.h_cpu, l.z_cpu, l.outputs*l.batch, l.output);

         copy_cpu(l.outputs*l.batch, l.output, 1, l.state, 1);

         net.input += l.inputs*l.batch;
         l.output += l.outputs*l.batch;
         increment_layer(&uz, 1);
         increment_layer(&ur, 1);
         increment_layer(&uh, 1);

         increment_layer(&wz, 1);
         increment_layer(&wr, 1);
         increment_layer(&wh, 1);
     }
 }

 void backward_gru_layer(layer l, network net)
 {
 }

 #ifdef GPU

 void pull_gru_layer(layer l)
 {
 }

 void push_gru_layer(layer l)
 {
 }

 void update_gru_layer_gpu(layer l, update_args a)
 {
     update_connected_layer_gpu(*(l.ur), a);
     update_connected_layer_gpu(*(l.uz), a);
     update_connected_layer_gpu(*(l.uh), a);
     update_connected_layer_gpu(*(l.wr), a);
     update_connected_layer_gpu(*(l.wz), a);
     update_connected_layer_gpu(*(l.wh), a);
 }

 void forward_gru_layer_gpu(layer l, network net)
 {
     network s = {0};
     s.train = net.train;
     int i;
     layer uz = *(l.uz);
     layer ur = *(l.ur);
     layer uh = *(l.uh);

     layer wz = *(l.wz);
     layer wr = *(l.wr);
     layer wh = *(l.wh);

     fill_gpu(l.outputs * l.batch * l.steps, 0, uz.delta_gpu, 1);
     fill_gpu(l.outputs * l.batch * l.steps, 0, ur.delta_gpu, 1);
     fill_gpu(l.outputs * l.batch * l.steps, 0, uh.delta_gpu, 1);

     fill_gpu(l.outputs * l.batch * l.steps, 0, wz.delta_gpu, 1);
     fill_gpu(l.outputs * l.batch * l.steps, 0, wr.delta_gpu, 1);
     fill_gpu(l.outputs * l.batch * l.steps, 0, wh.delta_gpu, 1);
     if(net.train) {
         fill_gpu(l.outputs * l.batch * l.steps, 0, l.delta_gpu, 1);
         copy_gpu(l.outputs*l.batch, l.state_gpu, 1, l.prev_state_gpu, 1);
     }

     for (i = 0; i < l.steps; ++i) {
         s.input_gpu = l.state_gpu;
         forward_connected_layer_gpu(wz, s);
         forward_connected_layer_gpu(wr, s);

         s.input_gpu = net.input_gpu;
         forward_connected_layer_gpu(uz, s);
         forward_connected_layer_gpu(ur, s);
         forward_connected_layer_gpu(uh, s);

         copy_gpu(l.outputs*l.batch, uz.output_gpu, 1, l.z_gpu, 1);
         axpy_gpu(l.outputs*l.batch, 1, wz.output_gpu, 1, l.z_gpu, 1);

         copy_gpu(l.outputs*l.batch, ur.output_gpu, 1, l.r_gpu, 1);
         axpy_gpu(l.outputs*l.batch, 1, wr.output_gpu, 1, l.r_gpu, 1);

         activate_array_gpu(l.z_gpu, l.outputs*l.batch, LOGISTIC);
         activate_array_gpu(l.r_gpu, l.outputs*l.batch, LOGISTIC);

         copy_gpu(l.outputs*l.batch, l.state_gpu, 1, l.forgot_state_gpu, 1);
         mul_gpu(l.outputs*l.batch, l.r_gpu, 1, l.forgot_state_gpu, 1);

         s.input_gpu = l.forgot_state_gpu;
         forward_connected_layer_gpu(wh, s);

         copy_gpu(l.outputs*l.batch, uh.output_gpu, 1, l.h_gpu, 1);
         axpy_gpu(l.outputs*l.batch, 1, wh.output_gpu, 1, l.h_gpu, 1);

         if(l.tanh){
             activate_array_gpu(l.h_gpu, l.outputs*l.batch, TANH);
         } else {
             activate_array_gpu(l.h_gpu, l.outputs*l.batch, LOGISTIC);
         }

         weighted_sum_gpu(l.state_gpu, l.h_gpu, l.z_gpu, l.outputs*l.batch, l.output_gpu);
         copy_gpu(l.outputs*l.batch, l.output_gpu, 1, l.state_gpu, 1);

         net.input_gpu += l.inputs*l.batch;
         l.output_gpu += l.outputs*l.batch;
         increment_layer(&uz, 1);
         increment_layer(&ur, 1);
         increment_layer(&uh, 1);

         increment_layer(&wz, 1);
         increment_layer(&wr, 1);
         increment_layer(&wh, 1);
     }
 }

 void backward_gru_layer_gpu(layer l, network net)
 {
     network s = {0};
     s.train = net.train;
     int i;
     layer uz = *(l.uz);
     layer ur = *(l.ur);
     layer uh = *(l.uh);

     layer wz = *(l.wz);
     layer wr = *(l.wr);
     layer wh = *(l.wh);

     increment_layer(&uz, l.steps - 1);
     increment_layer(&ur, l.steps - 1);
     increment_layer(&uh, l.steps - 1);

     increment_layer(&wz, l.steps - 1);
     increment_layer(&wr, l.steps - 1);
     increment_layer(&wh, l.steps - 1);

     net.input_gpu += l.inputs*l.batch*(l.steps-1);
     if(net.delta_gpu) net.delta_gpu += l.inputs*l.batch*(l.steps-1);
     l.output_gpu += l.outputs*l.batch*(l.steps-1);
     l.delta_gpu += l.outputs*l.batch*(l.steps-1);
     float *end_state = l.output_gpu;
     for (i = l.steps-1; i >= 0; --i) {
         if(i != 0) copy_gpu(l.outputs*l.batch, l.output_gpu - l.outputs*l.batch, 1, l.state_gpu, 1);
         else copy_gpu(l.outputs*l.batch, l.prev_state_gpu, 1, l.state_gpu, 1);
         float *prev_delta_gpu = (i == 0) ? 0 : l.delta_gpu - l.outputs*l.batch;

         copy_gpu(l.outputs*l.batch, uz.output_gpu, 1, l.z_gpu, 1);
         axpy_gpu(l.outputs*l.batch, 1, wz.output_gpu, 1, l.z_gpu, 1);

         copy_gpu(l.outputs*l.batch, ur.output_gpu, 1, l.r_gpu, 1);
         axpy_gpu(l.outputs*l.batch, 1, wr.output_gpu, 1, l.r_gpu, 1);

         activate_array_gpu(l.z_gpu, l.outputs*l.batch, LOGISTIC);
         activate_array_gpu(l.r_gpu, l.outputs*l.batch, LOGISTIC);

         copy_gpu(l.outputs*l.batch, uh.output_gpu, 1, l.h_gpu, 1);
         axpy_gpu(l.outputs*l.batch, 1, wh.output_gpu, 1, l.h_gpu, 1);

         if(l.tanh){
             activate_array_gpu(l.h_gpu, l.outputs*l.batch, TANH);
         } else {
             activate_array_gpu(l.h_gpu, l.outputs*l.batch, LOGISTIC);
         }

         weighted_delta_gpu(l.state_gpu, l.h_gpu, l.z_gpu, prev_delta_gpu, uh.delta_gpu, uz.delta_gpu, l.outputs*l.batch, l.delta_gpu);

         if(l.tanh){
             gradient_array_gpu(l.h_gpu, l.outputs*l.batch, TANH, uh.delta_gpu);
         } else {
             gradient_array_gpu(l.h_gpu, l.outputs*l.batch, LOGISTIC, uh.delta_gpu);
         }

         copy_gpu(l.outputs*l.batch, uh.delta_gpu, 1, wh.delta_gpu, 1);

         copy_gpu(l.outputs*l.batch, l.state_gpu, 1, l.forgot_state_gpu, 1);
         mul_gpu(l.outputs*l.batch, l.r_gpu, 1, l.forgot_state_gpu, 1);
         fill_gpu(l.outputs*l.batch, 0, l.forgot_delta_gpu, 1);

         s.input_gpu = l.forgot_state_gpu;
         s.delta_gpu = l.forgot_delta_gpu;

         backward_connected_layer_gpu(wh, s);
         if(prev_delta_gpu) mult_add_into_gpu(l.outputs*l.batch, l.forgot_delta_gpu, l.r_gpu, prev_delta_gpu);
         mult_add_into_gpu(l.outputs*l.batch, l.forgot_delta_gpu, l.state_gpu, ur.delta_gpu);

         gradient_array_gpu(l.r_gpu, l.outputs*l.batch, LOGISTIC, ur.delta_gpu);
         copy_gpu(l.outputs*l.batch, ur.delta_gpu, 1, wr.delta_gpu, 1);

         gradient_array_gpu(l.z_gpu, l.outputs*l.batch, LOGISTIC, uz.delta_gpu);
         copy_gpu(l.outputs*l.batch, uz.delta_gpu, 1, wz.delta_gpu, 1);

         s.input_gpu = l.state_gpu;
         s.delta_gpu = prev_delta_gpu;

         backward_connected_layer_gpu(wr, s);
         backward_connected_layer_gpu(wz, s);

         s.input_gpu = net.input_gpu;
         s.delta_gpu = net.delta_gpu;

         backward_connected_layer_gpu(uh, s);
         backward_connected_layer_gpu(ur, s);
         backward_connected_layer_gpu(uz, s);


         net.input_gpu -= l.inputs*l.batch;
         if(net.delta_gpu) net.delta_gpu -= l.inputs*l.batch;
         l.output_gpu -= l.outputs*l.batch;
         l.delta_gpu -= l.outputs*l.batch;
         increment_layer(&uz, -1);
         increment_layer(&ur, -1);
         increment_layer(&uh, -1);

         increment_layer(&wz, -1);
         increment_layer(&wr, -1);
         increment_layer(&wh, -1);
     }
     copy_gpu(l.outputs*l.batch, end_state, 1, l.state_gpu, 1);
 }
 #endif
layer::steps
int steps
Definition: darknet.h:157

update_connected_layer
void update_connected_layer(layer l, update_args a)
Definition: connected_layer.c:132

gru_layer.h

blas.h

LOGISTIC
Definition: darknet.h:57

layer::update
void(* update)(struct layer, update_args)
Definition: darknet.h:125

layer::forward_gpu
void(* forward_gpu)(struct layer, struct network)
Definition: darknet.h:126

layer::forgot_state
float * forgot_state
Definition: darknet.h:225

layer::backward_gpu
void(* backward_gpu)(struct layer, struct network)
Definition: darknet.h:127

layer::x
float * x
Definition: darknet.h:261

axpy_gpu
void axpy_gpu(int N, float ALPHA, float *X, int INCX, float *Y, int INCY)
Definition: blas_kernels.cu:585

layer::update_gpu
void(* update_gpu)(struct layer, update_args)
Definition: darknet.h:128

layer::uz
struct layer * uz
Definition: darknet.h:320

mul_cpu
void mul_cpu(int N, float *X, int INCX, float *Y, int INCY)
Definition: blas.c:166

layer::forward
void(* forward)(struct layer, struct network)
Definition: darknet.h:123

layer::out_w
int out_w
Definition: darknet.h:141

layer::uh
struct layer * uh
Definition: darknet.h:324

layer::out_c
int out_c
Definition: darknet.h:141

utils.h

mul_gpu
void mul_gpu(int N, float *X, int INCX, float *Y, int INCY)
Definition: blas_kernels.cu:607

fill_gpu
void fill_gpu(int N, float ALPHA, float *X, int INCX)
Definition: blas_kernels.cu:705

layer::wh
struct layer * wh
Definition: darknet.h:323

make_gru_layer
layer make_gru_layer(int batch, int inputs, int outputs, int steps, int batch_normalize, int adam)
Definition: gru_layer.c:29

network
Definition: darknet.h:434

forward_connected_layer
void forward_connected_layer(layer l, network net)
Definition: connected_layer.c:151

update_args
Definition: darknet.h:101

layer::h_cpu
float * h_cpu
Definition: darknet.h:275

layer::batch_normalize
int batch_normalize
Definition: darknet.h:129

layer::z_cpu
float * z_cpu
Definition: darknet.h:273

fill_cpu
void fill_cpu(int N, float ALPHA, float *X, int INCX)
Definition: blas.c:190

layer::state
float * state
Definition: darknet.h:223

network::train
int train
Definition: darknet.h:488

layer::delta
float * delta
Definition: darknet.h:245

layer::out_h
int out_h
Definition: darknet.h:141

layer::inputs
int inputs
Definition: darknet.h:134

TANH
Definition: darknet.h:57

axpy_cpu
void axpy_cpu(int N, float ALPHA, float *X, int INCX, float *Y, int INCY)
Definition: blas.c:178

layer::backward
void(* backward)(struct layer, struct network)
Definition: darknet.h:124

layer::x_norm
float * x_norm
Definition: darknet.h:262

mult_add_into_gpu
void mult_add_into_gpu(int num, float *a, float *b, float *c)
Definition: blas_kernels.cu:932

layer::wz
struct layer * wz
Definition: darknet.h:319

layer::batch
int batch
Definition: darknet.h:131

layer::ur
struct layer * ur
Definition: darknet.h:322

layer::output
float * output
Definition: darknet.h:246

update_gru_layer
void update_gru_layer(layer l, update_args a)
Definition: gru_layer.c:118

layer::r_cpu
float * r_cpu
Definition: darknet.h:274

copy_gpu
void copy_gpu(int N, float *X, int INCX, float *Y, int INCY)
Definition: blas_kernels.cu:602

connected_layer.h

layer::wr
struct layer * wr
Definition: darknet.h:321

backward_gru_layer
void backward_gru_layer(layer l, network net)
Definition: gru_layer.c:204

cuda.h

activate_array
void activate_array(float *x, const int n, const ACTIVATION a)
Definition: activations.c:100

copy_cpu
void copy_cpu(int N, float *X, int INCX, float *Y, int INCY)
Definition: blas.c:226

detector-scipy-opencv.net
net
Definition: detector-scipy-opencv.py:39

layer::forgot_delta
float * forgot_delta
Definition: darknet.h:226

make_connected_layer
layer make_connected_layer(int batch, int inputs, int outputs, ACTIVATION activation, int batch_normalize, int adam)
Definition: connected_layer.c:14

layer::type
LAYER_TYPE type
Definition: darknet.h:120

network::input
float * input
Definition: darknet.h:484

activate_array_gpu
void activate_array_gpu(float *x, int n, ACTIVATION a)
Definition: activation_kernels.cu:196

layer::prev_state
float * prev_state
Definition: darknet.h:224

gemm.h

layer::tanh
int tanh
Definition: darknet.h:181

GRU
Definition: darknet.h:81

layer::outputs
int outputs
Definition: darknet.h:135

weighted_sum_cpu
void weighted_sum_cpu(float *a, float *b, float *s, int n, float *c)
Definition: blas.c:50

gradient_array_gpu
void gradient_array_gpu(float *x, int n, ACTIVATION a, float *delta)
Definition: activation_kernels.cu:202

layer
Definition: darknet.h:119

forward_gru_layer
void forward_gru_layer(layer l, network net)
Definition: gru_layer.c:128

weighted_sum_gpu
void weighted_sum_gpu(float *a, float *b, float *s, int num, float *c)
Definition: blas_kernels.cu:902

weighted_delta_gpu
void weighted_delta_gpu(float *a, float *b, float *s, float *da, float *db, float *ds, int num, float *dc)
Definition: blas_kernels.cu:918

LINEAR
Definition: darknet.h:57