device buffer random functions

2026-04-14 21:55:31 -04:00
parent 361ee4c6da
commit 1691b2c415
4 changed files with 261 additions and 0 deletions
--- a/build_linux64/libamsculib3.linux64.a
+++ b/build_linux64/libamsculib3.linux64.a
--- a/build_linux64/objstore/amscurandom1_dbuff.o
+++ b/build_linux64/objstore/amscurandom1_dbuff.o
--- a/build_linux64/test
+++ b/build_linux64/test
--- a/src/amsculib3/random/amscurandom1_dbuff.cu
+++ b/src/amsculib3/random/amscurandom1_dbuff.cu
@ -5,5 +5,266 @@ namespace amscuda
 namespace random
 {
    __global__ void dbuff_randf_kf(float *dbuffer, int size, randstate_t *dstates)
    {
        int I;
        int index = threadIdx.x + blockIdx.x*blockDim.x;
        randstate_t dstate = dstates[index];
        for(I=index;I<size;I+=blockDim.x*gridDim.x)
        {
            dbuffer[I] = randf(&dstate);
        }
        return;
    }
    __host__ int dbuff_randf(float *dbuffer, int size, randstate_t *state)
    {
        int ret = amscu_success;
        int nthreads = 128;
        int nblocks = (size+nthreads)/nthreads;
        int I;
        cuarray<randstate_t> states;
        randstate_t *dstates = NULL;
        cudaError_t err = cudaSuccess;
        states.resize(nblocks*nthreads);
        cudaMalloc(&dstates,sizeof(randstate_t)*states.length);
        cudaMemcpy(dstates,states.data,sizeof(randstate_t)*states.length,cudaMemcpyHostToDevice);
        for(I=0;I<nblocks*nthreads;I++)
        {
            states[I] = *state;
            rand_state_increment(I,&(states[I]));
        }
        rand_state_increment(I,state);
        dbuff_randf_kf<<<nblocks,nthreads>>>(dbuffer,size,dstates);
        cudaDeviceSynchronize();
        err = cudaGetLastError();
        if(err!=cudaSuccess)
        {
            printf("dbuff_randf: cuda error %s\n",cudaGetErrorString(err));
        }
        cudaFree(dstates); dstates=NULL;
        return ret;
    }
    __global__ void dbuff_rand_kf(double *dbuffer, int size, randstate_t *dstates)
    {
        int I;
        int index = threadIdx.x + blockIdx.x*blockDim.x;
        randstate_t dstate = dstates[index];
        for(I=index;I<size;I+=blockDim.x*gridDim.x)
        {
            dbuffer[I] = rand(&dstate);
        }
        return;
    }
    __host__ int dbuff_rand(double *dbuffer, int size, randstate_t *state)
    {
        int ret = amscu_success;
        int nthreads = 128;
        int nblocks = (size+nthreads)/nthreads;
        int I;
        cuarray<randstate_t> states;
        randstate_t *dstates = NULL;
        cudaError_t err = cudaSuccess;
        states.resize(nblocks*nthreads);
        cudaMalloc(&dstates,sizeof(randstate_t)*states.length);
        cudaMemcpy(dstates,states.data,sizeof(randstate_t)*states.length,cudaMemcpyHostToDevice);
        for(I=0;I<nblocks*nthreads;I++)
        {
            states[I] = *state;
            rand_state_increment(I,&(states[I]));
        }
        rand_state_increment(I,state);
        dbuff_rand_kf<<<nblocks,nthreads>>>(dbuffer,size,dstates);
        cudaDeviceSynchronize();
        err = cudaGetLastError();
        if(err!=cudaSuccess)
        {
            printf("dbuff_randf: cuda error %s\n",cudaGetErrorString(err));
        }
        cudaFree(dstates); dstates=NULL;
        return ret;
    }
    __global__ void dbuff_randnf_kf(float *dbuffer, int size, randstate_t *dstates)
    {
        int I;
        int index = threadIdx.x + blockIdx.x*blockDim.x;
        randstate_t dstate = dstates[index];
        for(I=index;I<size;I+=blockDim.x*gridDim.x)
        {
            dbuffer[I] = randnf(&dstate);
        }
        return;
    }
    __global__ void dbuff_randn_kf(double *dbuffer, int size, randstate_t *dstates)
    {
        int I;
        int index = threadIdx.x + blockIdx.x*blockDim.x;
        randstate_t dstate = dstates[index];
        for(I=index;I<size;I+=blockDim.x*gridDim.x)
        {
            dbuffer[I] = randn(&dstate);
        }
        return;
    }
    __host__ int dbuff_randnf(float *dbuffer, int size, randstate_t *state)
    {
        int ret = amscu_success;
        int nthreads = 128;
        int nblocks = (size+nthreads)/nthreads;
        int I;
        cuarray<randstate_t> states;
        randstate_t *dstates = NULL;
        cudaError_t err = cudaSuccess;
        states.resize(nblocks*nthreads);
        cudaMalloc(&dstates,sizeof(randstate_t)*states.length);
        cudaMemcpy(dstates,states.data,sizeof(randstate_t)*states.length,cudaMemcpyHostToDevice);
        for(I=0;I<nblocks*nthreads;I++)
        {
            states[I] = *state;
            rand_state_increment(I,&(states[I]));
        }
        rand_state_increment(I,state);
        dbuff_randnf_kf<<<nblocks,nthreads>>>(dbuffer,size,dstates);
        cudaDeviceSynchronize();
        err = cudaGetLastError();
        if(err!=cudaSuccess)
        {
            printf("dbuff_randf: cuda error %s\n",cudaGetErrorString(err));
        }
        cudaFree(dstates); dstates=NULL;
        return ret;
    }
    __host__ int dbuff_randn(double *dbuffer, int size, randstate_t *state)
    {
        int ret = amscu_success;
        int nthreads = 128;
        int nblocks = (size+nthreads)/nthreads;
        int I;
        cuarray<randstate_t> states;
        randstate_t *dstates = NULL;
        cudaError_t err = cudaSuccess;
        states.resize(nblocks*nthreads);
        cudaMalloc(&dstates,sizeof(randstate_t)*states.length);
        cudaMemcpy(dstates,states.data,sizeof(randstate_t)*states.length,cudaMemcpyHostToDevice);
        for(I=0;I<nblocks*nthreads;I++)
        {
            states[I] = *state;
            rand_state_increment(I,&(states[I]));
        }
        rand_state_increment(I,state);
        dbuff_randn_kf<<<nblocks,nthreads>>>(dbuffer,size,dstates);
        cudaDeviceSynchronize();
        err = cudaGetLastError();
        if(err!=cudaSuccess)
        {
            printf("dbuff_randf: cuda error %s\n",cudaGetErrorString(err));
        }
        cudaFree(dstates); dstates=NULL;
        return ret;
    }
    __global__ void dbuff_randint_kf(int *dbuffer, int size, int low, int high, randstate_t *dstates)
    {
        int I;
        int index = threadIdx.x + blockIdx.x*blockDim.x;
        randstate_t dstate = dstates[index];
        for(I=index;I<size;I+=blockDim.x*gridDim.x)
        {
            dbuffer[I] = randint(low,high,&dstate);
        }
        return;
    }
    __host__ int dbuff_randint(int *dbuffer, int size, int low, int high, randstate_t *state)
    {
        int ret = amscu_success;
        int nthreads = 128;
        int nblocks = (size+nthreads)/nthreads;
        int I;
        cuarray<randstate_t> states;
        randstate_t *dstates = NULL;
        cudaError_t err = cudaSuccess;
        states.resize(nblocks*nthreads);
        cudaMalloc(&dstates,sizeof(randstate_t)*states.length);
        cudaMemcpy(dstates,states.data,sizeof(randstate_t)*states.length,cudaMemcpyHostToDevice);
        for(I=0;I<nblocks*nthreads;I++)
        {
            states[I] = *state;
            rand_state_increment(I,&(states[I]));
        }
        rand_state_increment(I,state);
        dbuff_randint_kf<<<nblocks,nthreads>>>(dbuffer,size,low,high,dstates);
        cudaDeviceSynchronize();
        err = cudaGetLastError();
        if(err!=cudaSuccess)
        {
            printf("dbuff_randf: cuda error %s\n",cudaGetErrorString(err));
        }
        cudaFree(dstates); dstates=NULL;
        return ret;
    }
 }; //end namespaces
 };