Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
remove some codacy warnings
[simgrid.git] / src / smpi / colls / smpi_mvapich2_selector.cpp
1 /* selector for collective algorithms based on mvapich decision logic */
2
3 /* Copyright (c) 2009-2019. The SimGrid Team.
4  * All rights reserved.                                                     */
5
6 /* This program is free software; you can redistribute it and/or modify it
7  * under the terms of the license (GNU LGPL) which comes with this package. */
8
9 #include "colls_private.hpp"
10
11 #include "smpi_mvapich2_selector_stampede.hpp"
12
13 namespace simgrid{
14 namespace smpi{
15
16
17 int Coll_alltoall_mvapich2::alltoall( void *sendbuf, int sendcount,
18     MPI_Datatype sendtype,
19     void* recvbuf, int recvcount,
20     MPI_Datatype recvtype,
21     MPI_Comm comm)
22 {
23
24   if(mv2_alltoall_table_ppn_conf==NULL)
25     init_mv2_alltoall_tables_stampede();
26
27   int sendtype_size, recvtype_size, comm_size;
28   char * tmp_buf = NULL;
29   int mpi_errno=MPI_SUCCESS;
30   int range = 0;
31   int range_threshold = 0;
32   int conf_index = 0;
33   comm_size =  comm->size();
34
35   sendtype_size=sendtype->size();
36   recvtype_size=recvtype->size();
37   long nbytes = sendtype_size * sendcount;
38
39   /* check if safe to use partial subscription mode */
40
41   /* Search for the corresponding system size inside the tuning table */
42   while ((range < (mv2_size_alltoall_tuning_table[conf_index] - 1)) &&
43       (comm_size > mv2_alltoall_thresholds_table[conf_index][range].numproc)) {
44       range++;
45   }
46   /* Search for corresponding inter-leader function */
47   while ((range_threshold < (mv2_alltoall_thresholds_table[conf_index][range].size_table - 1))
48       && (nbytes >
49   mv2_alltoall_thresholds_table[conf_index][range].algo_table[range_threshold].max)
50   && (mv2_alltoall_thresholds_table[conf_index][range].algo_table[range_threshold].max != -1)) {
51       range_threshold++;
52   }
53   MV2_Alltoall_function = mv2_alltoall_thresholds_table[conf_index][range].algo_table[range_threshold]
54                                                                                       .MV2_pt_Alltoall_function;
55
56   if(sendbuf != MPI_IN_PLACE) {
57       mpi_errno = MV2_Alltoall_function(sendbuf, sendcount, sendtype,
58           recvbuf, recvcount, recvtype,
59           comm);
60   } else {
61       range_threshold = 0;
62       if(nbytes <
63           mv2_alltoall_thresholds_table[conf_index][range].in_place_algo_table[range_threshold].min
64           ||nbytes > mv2_alltoall_thresholds_table[conf_index][range].in_place_algo_table[range_threshold].max
65       ) {
66           tmp_buf = (char *)smpi_get_tmp_sendbuffer( comm_size * recvcount * recvtype_size );
67           Datatype::copy((char *)recvbuf,
68               comm_size*recvcount, recvtype,
69               (char *)tmp_buf,
70               comm_size*recvcount, recvtype);
71
72           mpi_errno = MV2_Alltoall_function(tmp_buf, recvcount, recvtype,
73               recvbuf, recvcount, recvtype,
74               comm );
75           smpi_free_tmp_buffer(tmp_buf);
76       } else {
77           mpi_errno = MPIR_Alltoall_inplace_MV2(sendbuf, sendcount, sendtype,
78               recvbuf, recvcount, recvtype,
79               comm );
80       }
81   }
82
83
84   return (mpi_errno);
85 }
86
87 int Coll_allgather_mvapich2::allgather(void *sendbuf, int sendcount, MPI_Datatype sendtype,
88     void *recvbuf, int recvcount, MPI_Datatype recvtype,
89     MPI_Comm comm)
90 {
91
92   int mpi_errno = MPI_SUCCESS;
93   long nbytes = 0, comm_size, recvtype_size;
94   int range = 0;
95   int partial_sub_ok = 0;
96   int conf_index = 0;
97   int range_threshold = 0;
98   int is_two_level = 0;
99   MPI_Comm shmem_comm;
100   //MPI_Comm *shmem_commptr=NULL;
101   /* Get the size of the communicator */
102   comm_size = comm->size();
103   recvtype_size=recvtype->size();
104   nbytes = recvtype_size * recvcount;
105
106   if(mv2_allgather_table_ppn_conf==NULL)
107     init_mv2_allgather_tables_stampede();
108
109   if(comm->get_leaders_comm()==MPI_COMM_NULL){
110     comm->init_smp();
111   }
112
113   if (comm->is_uniform()){
114     shmem_comm = comm->get_intra_comm();
115     int local_size = shmem_comm->size();
116     int i          = 0;
117     if (mv2_allgather_table_ppn_conf[0] == -1) {
118       // Indicating user defined tuning
119       conf_index = 0;
120       goto conf_check_end;
121     }
122     do {
123       if (local_size == mv2_allgather_table_ppn_conf[i]) {
124         conf_index = i;
125         partial_sub_ok = 1;
126         break;
127       }
128       i++;
129     } while(i < mv2_allgather_num_ppn_conf);
130   }
131   conf_check_end:
132   if (partial_sub_ok != 1) {
133     conf_index = 0;
134   }
135
136   /* Search for the corresponding system size inside the tuning table */
137   while ((range < (mv2_size_allgather_tuning_table[conf_index] - 1)) &&
138       (comm_size >
139   mv2_allgather_thresholds_table[conf_index][range].numproc)) {
140       range++;
141   }
142   /* Search for corresponding inter-leader function */
143   while ((range_threshold <
144       (mv2_allgather_thresholds_table[conf_index][range].size_inter_table - 1))
145       && (nbytes > mv2_allgather_thresholds_table[conf_index][range].inter_leader[range_threshold].max)
146       && (mv2_allgather_thresholds_table[conf_index][range].inter_leader[range_threshold].max !=
147           -1)) {
148       range_threshold++;
149   }
150
151   /* Set inter-leader pt */
152   MV2_Allgatherction =
153       mv2_allgather_thresholds_table[conf_index][range].inter_leader[range_threshold].
154       MV2_pt_Allgatherction;
155
156   is_two_level =  mv2_allgather_thresholds_table[conf_index][range].two_level[range_threshold];
157
158   /* intracommunicator */
159   if(is_two_level ==1){
160     if(partial_sub_ok ==1){
161       if (comm->is_blocked()){
162       mpi_errno = MPIR_2lvl_Allgather_MV2(sendbuf, sendcount, sendtype,
163                             recvbuf, recvcount, recvtype,
164                             comm);
165       }else{
166       mpi_errno = Coll_allgather_mpich::allgather(sendbuf, sendcount, sendtype,
167                             recvbuf, recvcount, recvtype,
168                             comm);
169       }
170     } else {
171       mpi_errno = MPIR_Allgather_RD_MV2(sendbuf, sendcount, sendtype,
172           recvbuf, recvcount, recvtype,
173           comm);
174     }
175   } else if(MV2_Allgatherction == &MPIR_Allgather_Bruck_MV2
176       || MV2_Allgatherction == &MPIR_Allgather_RD_MV2
177       || MV2_Allgatherction == &MPIR_Allgather_Ring_MV2) {
178       mpi_errno = MV2_Allgatherction(sendbuf, sendcount, sendtype,
179           recvbuf, recvcount, recvtype,
180           comm);
181   }else{
182       return MPI_ERR_OTHER;
183   }
184
185   return mpi_errno;
186 }
187
188 int Coll_gather_mvapich2::gather(void *sendbuf,
189     int sendcnt,
190     MPI_Datatype sendtype,
191     void *recvbuf,
192     int recvcnt,
193     MPI_Datatype recvtype,
194     int root, MPI_Comm  comm)
195 {
196   if(mv2_gather_thresholds_table==NULL)
197     init_mv2_gather_tables_stampede();
198
199   int mpi_errno = MPI_SUCCESS;
200   int range = 0;
201   int range_threshold = 0;
202   int range_intra_threshold = 0;
203   long nbytes = 0;
204   int comm_size = comm->size();
205   int rank      = comm->rank();
206
207   if (rank == root) {
208     int recvtype_size = recvtype->size();
209     nbytes            = recvcnt * recvtype_size;
210   } else {
211     int sendtype_size = sendtype->size();
212     nbytes            = sendcnt * sendtype_size;
213   }
214
215   /* Search for the corresponding system size inside the tuning table */
216   while ((range < (mv2_size_gather_tuning_table - 1)) &&
217       (comm_size > mv2_gather_thresholds_table[range].numproc)) {
218       range++;
219   }
220   /* Search for corresponding inter-leader function */
221   while ((range_threshold < (mv2_gather_thresholds_table[range].size_inter_table - 1))
222       && (nbytes >
223   mv2_gather_thresholds_table[range].inter_leader[range_threshold].max)
224   && (mv2_gather_thresholds_table[range].inter_leader[range_threshold].max !=
225       -1)) {
226       range_threshold++;
227   }
228
229   /* Search for corresponding intra node function */
230   while ((range_intra_threshold < (mv2_gather_thresholds_table[range].size_intra_table - 1))
231       && (nbytes >
232   mv2_gather_thresholds_table[range].intra_node[range_intra_threshold].max)
233   && (mv2_gather_thresholds_table[range].intra_node[range_intra_threshold].max !=
234       -1)) {
235       range_intra_threshold++;
236   }
237
238     if (comm->is_blocked() ) {
239         // Set intra-node function pt for gather_two_level
240         MV2_Gather_intra_node_function =
241                               mv2_gather_thresholds_table[range].intra_node[range_intra_threshold].
242                               MV2_pt_Gather_function;
243         //Set inter-leader pt
244         MV2_Gather_inter_leader_function =
245                               mv2_gather_thresholds_table[range].inter_leader[range_threshold].
246                               MV2_pt_Gather_function;
247         // We call Gather function
248         mpi_errno =
249             MV2_Gather_inter_leader_function(sendbuf, sendcnt, sendtype, recvbuf, recvcnt,
250                                              recvtype, root, comm);
251
252     } else {
253   // Indeed, direct (non SMP-aware)gather is MPICH one
254   mpi_errno = Coll_gather_mpich::gather(sendbuf, sendcnt, sendtype,
255       recvbuf, recvcnt, recvtype,
256       root, comm);
257   }
258
259   return mpi_errno;
260 }
261
262 int Coll_allgatherv_mvapich2::allgatherv(void *sendbuf, int sendcount, MPI_Datatype sendtype,
263     void *recvbuf, int *recvcounts, int *displs,
264     MPI_Datatype recvtype, MPI_Comm  comm )
265 {
266   int mpi_errno = MPI_SUCCESS;
267   int range = 0, comm_size, total_count, recvtype_size, i;
268   int range_threshold = 0;
269   long nbytes = 0;
270
271   if(mv2_allgatherv_thresholds_table==NULL)
272     init_mv2_allgatherv_tables_stampede();
273
274   comm_size = comm->size();
275   total_count = 0;
276   for (i = 0; i < comm_size; i++)
277     total_count += recvcounts[i];
278
279   recvtype_size=recvtype->size();
280   nbytes = total_count * recvtype_size;
281
282   /* Search for the corresponding system size inside the tuning table */
283   while ((range < (mv2_size_allgatherv_tuning_table - 1)) &&
284       (comm_size > mv2_allgatherv_thresholds_table[range].numproc)) {
285       range++;
286   }
287   /* Search for corresponding inter-leader function */
288   while ((range_threshold < (mv2_allgatherv_thresholds_table[range].size_inter_table - 1))
289       && (nbytes >
290   comm_size * mv2_allgatherv_thresholds_table[range].inter_leader[range_threshold].max)
291   && (mv2_allgatherv_thresholds_table[range].inter_leader[range_threshold].max !=
292       -1)) {
293       range_threshold++;
294   }
295   /* Set inter-leader pt */
296   MV2_Allgatherv_function =
297       mv2_allgatherv_thresholds_table[range].inter_leader[range_threshold].
298       MV2_pt_Allgatherv_function;
299
300   if (MV2_Allgatherv_function == &MPIR_Allgatherv_Rec_Doubling_MV2)
301     {
302     if (not(comm_size & (comm_size - 1))) {
303       mpi_errno =
304           MPIR_Allgatherv_Rec_Doubling_MV2(sendbuf, sendcount, sendtype, recvbuf, recvcounts, displs, recvtype, comm);
305         } else {
306             mpi_errno =
307                 MPIR_Allgatherv_Bruck_MV2(sendbuf, sendcount,
308                     sendtype, recvbuf,
309                     recvcounts, displs,
310                     recvtype, comm);
311         }
312     } else {
313         mpi_errno =
314             MV2_Allgatherv_function(sendbuf, sendcount, sendtype,
315                 recvbuf, recvcounts, displs,
316                 recvtype, comm);
317     }
318
319   return mpi_errno;
320 }
321
322
323
324 int Coll_allreduce_mvapich2::allreduce(void *sendbuf,
325     void *recvbuf,
326     int count,
327     MPI_Datatype datatype,
328     MPI_Op op, MPI_Comm comm)
329 {
330
331   int mpi_errno = MPI_SUCCESS;
332   //int rank = 0,
333   int comm_size = 0;
334
335   comm_size = comm->size();
336   //rank = comm->rank();
337
338   if (count == 0) {
339       return MPI_SUCCESS;
340   }
341
342   if (mv2_allreduce_thresholds_table == NULL)
343     init_mv2_allreduce_tables_stampede();
344
345   /* check if multiple threads are calling this collective function */
346
347   MPI_Aint sendtype_size = 0;
348   long nbytes = 0;
349   int is_commutative = 0;
350   MPI_Aint true_lb, true_extent;
351
352   sendtype_size=datatype->size();
353   nbytes = count * sendtype_size;
354
355   datatype->extent(&true_lb, &true_extent);
356   //MPI_Op *op_ptr;
357   is_commutative = op->is_commutative();
358
359   {
360     int range = 0, range_threshold = 0, range_threshold_intra = 0;
361     int is_two_level = 0;
362
363     /* Search for the corresponding system size inside the tuning table */
364     while ((range < (mv2_size_allreduce_tuning_table - 1)) &&
365         (comm_size > mv2_allreduce_thresholds_table[range].numproc)) {
366         range++;
367     }
368     /* Search for corresponding inter-leader function */
369     /* skip mcast poiters if mcast is not available */
370     if(mv2_allreduce_thresholds_table[range].mcast_enabled != 1){
371         while ((range_threshold < (mv2_allreduce_thresholds_table[range].size_inter_table - 1))
372             && ((mv2_allreduce_thresholds_table[range].
373                 inter_leader[range_threshold].MV2_pt_Allreducection
374                 == &MPIR_Allreduce_mcst_reduce_redscat_gather_MV2) ||
375                 (mv2_allreduce_thresholds_table[range].
376                     inter_leader[range_threshold].MV2_pt_Allreducection
377                     == &MPIR_Allreduce_mcst_reduce_two_level_helper_MV2)
378             )) {
379             range_threshold++;
380         }
381     }
382     while ((range_threshold < (mv2_allreduce_thresholds_table[range].size_inter_table - 1))
383         && (nbytes >
384     mv2_allreduce_thresholds_table[range].inter_leader[range_threshold].max)
385     && (mv2_allreduce_thresholds_table[range].inter_leader[range_threshold].max != -1)) {
386         range_threshold++;
387     }
388     if(mv2_allreduce_thresholds_table[range].is_two_level_allreduce[range_threshold] == 1){
389         is_two_level = 1;
390     }
391     /* Search for corresponding intra-node function */
392     while ((range_threshold_intra <
393         (mv2_allreduce_thresholds_table[range].size_intra_table - 1))
394         && (nbytes >
395     mv2_allreduce_thresholds_table[range].intra_node[range_threshold_intra].max)
396     && (mv2_allreduce_thresholds_table[range].intra_node[range_threshold_intra].max !=
397         -1)) {
398         range_threshold_intra++;
399     }
400
401     MV2_Allreducection = mv2_allreduce_thresholds_table[range].inter_leader[range_threshold]
402                                                                                 .MV2_pt_Allreducection;
403
404     MV2_Allreduce_intra_function = mv2_allreduce_thresholds_table[range].intra_node[range_threshold_intra]
405                                                                                     .MV2_pt_Allreducection;
406
407     /* check if mcast is ready, otherwise replace mcast with other algorithm */
408     if((MV2_Allreducection == &MPIR_Allreduce_mcst_reduce_redscat_gather_MV2)||
409         (MV2_Allreducection == &MPIR_Allreduce_mcst_reduce_two_level_helper_MV2)){
410         {
411           MV2_Allreducection = &MPIR_Allreduce_pt2pt_rd_MV2;
412         }
413         if(is_two_level != 1) {
414             MV2_Allreducection = &MPIR_Allreduce_pt2pt_rd_MV2;
415         }
416     }
417
418     if(is_two_level == 1){
419         // check if shm is ready, if not use other algorithm first
420         if (is_commutative) {
421           if(comm->get_leaders_comm()==MPI_COMM_NULL){
422             comm->init_smp();
423           }
424           mpi_errno = MPIR_Allreduce_two_level_MV2(sendbuf, recvbuf, count,
425                                                      datatype, op, comm);
426                 } else {
427         mpi_errno = MPIR_Allreduce_pt2pt_rd_MV2(sendbuf, recvbuf, count,
428             datatype, op, comm);
429         }
430     } else {
431         mpi_errno = MV2_Allreducection(sendbuf, recvbuf, count,
432             datatype, op, comm);
433     }
434   }
435
436   //comm->ch.intra_node_done=0;
437
438   return (mpi_errno);
439
440
441 }
442
443
444 int Coll_alltoallv_mvapich2::alltoallv(void *sbuf, int *scounts, int *sdisps,
445     MPI_Datatype sdtype,
446     void *rbuf, int *rcounts, int *rdisps,
447     MPI_Datatype rdtype,
448     MPI_Comm  comm
449 )
450 {
451
452   if (sbuf == MPI_IN_PLACE) {
453       return Coll_alltoallv_ompi_basic_linear::alltoallv(sbuf, scounts, sdisps, sdtype,
454           rbuf, rcounts, rdisps,rdtype,
455           comm);
456   } else     /* For starters, just keep the original algorithm. */
457   return Coll_alltoallv_ring::alltoallv(sbuf, scounts, sdisps, sdtype,
458       rbuf, rcounts, rdisps,rdtype,
459       comm);
460 }
461
462
463 int Coll_barrier_mvapich2::barrier(MPI_Comm  comm)
464 {
465   return Coll_barrier_mvapich2_pair::barrier(comm);
466 }
467
468
469
470
471 int Coll_bcast_mvapich2::bcast(void *buffer,
472     int count,
473     MPI_Datatype datatype,
474     int root, MPI_Comm comm)
475 {
476     int mpi_errno = MPI_SUCCESS;
477     int comm_size/*, rank*/;
478     int two_level_bcast = 1;
479     long nbytes = 0;
480     int range = 0;
481     int range_threshold = 0;
482     int range_threshold_intra = 0;
483     int is_homogeneous;
484 //, is_contig;
485     MPI_Aint type_size;
486     //, position;
487     void *tmp_buf = NULL;
488     MPI_Comm shmem_comm;
489     //MPID_Datatype *dtp;
490
491     if (count == 0)
492         return MPI_SUCCESS;
493     if(comm->get_leaders_comm()==MPI_COMM_NULL){
494       comm->init_smp();
495     }
496     if (not mv2_bcast_thresholds_table)
497       init_mv2_bcast_tables_stampede();
498     comm_size = comm->size();
499     //rank = comm->rank();
500
501     //is_contig=1;
502 /*    if (HANDLE_GET_KIND(datatype) == HANDLE_KIND_BUILTIN)*/
503 /*        is_contig = 1;*/
504 /*    else {*/
505 /*        MPID_Datatype_get_ptr(datatype, dtp);*/
506 /*        is_contig = dtp->is_contig;*/
507 /*    }*/
508
509     is_homogeneous = 1;
510
511     /* MPI_Type_size() might not give the accurate size of the packed
512      * datatype for heterogeneous systems (because of padding, encoding,
513      * etc). On the other hand, MPI_Pack_size() can become very
514      * expensive, depending on the implementation, especially for
515      * heterogeneous systems. We want to use MPI_Type_size() wherever
516      * possible, and MPI_Pack_size() in other places.
517      */
518     //if (is_homogeneous) {
519         type_size=datatype->size();
520
521    /* } else {
522         MPIR_Pack_size_impl(1, datatype, &type_size);
523     }*/
524     nbytes =  (count) * (type_size);
525
526     /* Search for the corresponding system size inside the tuning table */
527     while ((range < (mv2_size_bcast_tuning_table - 1)) &&
528            (comm_size > mv2_bcast_thresholds_table[range].numproc)) {
529         range++;
530     }
531     /* Search for corresponding inter-leader function */
532     while ((range_threshold < (mv2_bcast_thresholds_table[range].size_inter_table - 1))
533            && (nbytes >
534                mv2_bcast_thresholds_table[range].inter_leader[range_threshold].max)
535            && (mv2_bcast_thresholds_table[range].inter_leader[range_threshold].max != -1)) {
536         range_threshold++;
537     }
538
539     /* Search for corresponding intra-node function */
540     while ((range_threshold_intra <
541             (mv2_bcast_thresholds_table[range].size_intra_table - 1))
542            && (nbytes >
543                mv2_bcast_thresholds_table[range].intra_node[range_threshold_intra].max)
544            && (mv2_bcast_thresholds_table[range].intra_node[range_threshold_intra].max !=
545                -1)) {
546         range_threshold_intra++;
547     }
548
549     MV2_Bcast_function =
550         mv2_bcast_thresholds_table[range].inter_leader[range_threshold].
551         MV2_pt_Bcast_function;
552
553     MV2_Bcast_intra_node_function =
554         mv2_bcast_thresholds_table[range].
555         intra_node[range_threshold_intra].MV2_pt_Bcast_function;
556
557 /*    if (mv2_user_bcast_intra == NULL && */
558 /*            MV2_Bcast_intra_node_function == &MPIR_Knomial_Bcast_intra_node_MV2) {*/
559 /*            MV2_Bcast_intra_node_function = &MPIR_Shmem_Bcast_MV2;*/
560 /*    }*/
561
562     if (mv2_bcast_thresholds_table[range].inter_leader[range_threshold].
563         zcpy_pipelined_knomial_factor != -1) {
564         zcpy_knomial_factor =
565             mv2_bcast_thresholds_table[range].inter_leader[range_threshold].
566             zcpy_pipelined_knomial_factor;
567     }
568
569     if (mv2_pipelined_zcpy_knomial_factor != -1) {
570         zcpy_knomial_factor = mv2_pipelined_zcpy_knomial_factor;
571     }
572
573     if(MV2_Bcast_intra_node_function == NULL) {
574         /* if tuning table do not have any intra selection, set func pointer to
575         ** default one for mcast intra node */
576         MV2_Bcast_intra_node_function = &MPIR_Shmem_Bcast_MV2;
577     }
578
579     /* Set value of pipeline segment size */
580     bcast_segment_size = mv2_bcast_thresholds_table[range].bcast_segment_size;
581
582     /* Set value of inter node knomial factor */
583     mv2_inter_node_knomial_factor = mv2_bcast_thresholds_table[range].inter_node_knomial_factor;
584
585     /* Set value of intra node knomial factor */
586     mv2_intra_node_knomial_factor = mv2_bcast_thresholds_table[range].intra_node_knomial_factor;
587
588     /* Check if we will use a two level algorithm or not */
589     two_level_bcast =
590 #if defined(_MCST_SUPPORT_)
591         mv2_bcast_thresholds_table[range].is_two_level_bcast[range_threshold]
592         || comm->ch.is_mcast_ok;
593 #else
594         mv2_bcast_thresholds_table[range].is_two_level_bcast[range_threshold];
595 #endif
596      if (two_level_bcast == 1) {
597        if (not is_homogeneous) {
598        //if (not is_contig || not is_homogeneous) {
599          tmp_buf = (void*)smpi_get_tmp_sendbuffer(nbytes);
600
601          /*            position = 0;*/
602          /*            if (rank == root) {*/
603          /*                mpi_errno =*/
604          /*                    MPIR_Pack_impl(buffer, count, datatype, tmp_buf, nbytes, &position);*/
605          /*                if (mpi_errno)*/
606          /*                    MPIU_ERR_POP(mpi_errno);*/
607          /*            }*/
608         }
609 #ifdef CHANNEL_MRAIL_GEN2
610         if ((mv2_enable_zcpy_bcast == 1) &&
611               (&MPIR_Pipelined_Bcast_Zcpy_MV2 == MV2_Bcast_function)) {
612           if (not is_homogeneous) {
613           //if (not is_contig || not is_homogeneous) {
614             mpi_errno = MPIR_Pipelined_Bcast_Zcpy_MV2(tmp_buf, nbytes, MPI_BYTE, root, comm);
615             } else {
616                 mpi_errno = MPIR_Pipelined_Bcast_Zcpy_MV2(buffer, count, datatype,
617                                                  root, comm);
618             }
619         } else
620 #endif /* defined(CHANNEL_MRAIL_GEN2) */
621         {
622             shmem_comm = comm->get_intra_comm();
623             if (not is_homogeneous) {
624             //if (not is_contig || not is_homogeneous) {
625               MPIR_Bcast_tune_inter_node_helper_MV2(tmp_buf, nbytes, MPI_BYTE, root, comm);
626             } else {
627               MPIR_Bcast_tune_inter_node_helper_MV2(buffer, count, datatype, root, comm);
628             }
629
630             /* We are now done with the inter-node phase */
631
632
633                     root = INTRA_NODE_ROOT;
634
635                     //if (not is_contig || not is_homogeneous) {
636                     if (not is_homogeneous) {
637                       mpi_errno = MV2_Bcast_intra_node_function(tmp_buf, nbytes, MPI_BYTE, root, shmem_comm);
638                 } else {
639                     mpi_errno = MV2_Bcast_intra_node_function(buffer, count,
640                                                               datatype, root, shmem_comm);
641
642                 }
643         }
644         /*        if (not is_contig || not is_homogeneous) {*/
645         /*            if (rank != root) {*/
646         /*                position = 0;*/
647         /*                mpi_errno = MPIR_Unpack_impl(tmp_buf, nbytes, &position, buffer,*/
648         /*                                             count, datatype);*/
649         /*            }*/
650         /*        }*/
651     } else {
652         /* We use Knomial for intra node */
653         MV2_Bcast_intra_node_function = &MPIR_Knomial_Bcast_intra_node_MV2;
654 /*        if (mv2_enable_shmem_bcast == 0) {*/
655             /* Fall back to non-tuned version */
656 /*            MPIR_Bcast_intra_MV2(buffer, count, datatype, root, comm);*/
657 /*        } else {*/
658             mpi_errno = MV2_Bcast_function(buffer, count, datatype, root,
659                                            comm);
660
661 /*        }*/
662     }
663
664
665     return mpi_errno;
666
667 }
668
669
670
671 int Coll_reduce_mvapich2::reduce( void *sendbuf,
672     void *recvbuf,
673     int count,
674     MPI_Datatype datatype,
675     MPI_Op op, int root, MPI_Comm comm)
676 {
677   if(mv2_reduce_thresholds_table == NULL)
678     init_mv2_reduce_tables_stampede();
679
680   int mpi_errno = MPI_SUCCESS;
681   int range = 0;
682   int range_threshold = 0;
683   int range_intra_threshold = 0;
684   int is_commutative, pof2;
685   int comm_size = 0;
686   long nbytes = 0;
687   int sendtype_size;
688   int is_two_level = 0;
689
690   comm_size = comm->size();
691   sendtype_size=datatype->size();
692   nbytes = count * sendtype_size;
693
694   if (count == 0)
695     return MPI_SUCCESS;
696
697   is_commutative = (op==MPI_OP_NULL || op->is_commutative());
698
699   /* find nearest power-of-two less than or equal to comm_size */
700   for( pof2 = 1; pof2 <= comm_size; pof2 <<= 1 );
701   pof2 >>=1;
702
703
704   /* Search for the corresponding system size inside the tuning table */
705   while ((range < (mv2_size_reduce_tuning_table - 1)) &&
706       (comm_size > mv2_reduce_thresholds_table[range].numproc)) {
707       range++;
708   }
709   /* Search for corresponding inter-leader function */
710   while ((range_threshold < (mv2_reduce_thresholds_table[range].size_inter_table - 1))
711       && (nbytes >
712   mv2_reduce_thresholds_table[range].inter_leader[range_threshold].max)
713   && (mv2_reduce_thresholds_table[range].inter_leader[range_threshold].max !=
714       -1)) {
715       range_threshold++;
716   }
717
718   /* Search for corresponding intra node function */
719   while ((range_intra_threshold < (mv2_reduce_thresholds_table[range].size_intra_table - 1))
720       && (nbytes >
721   mv2_reduce_thresholds_table[range].intra_node[range_intra_threshold].max)
722   && (mv2_reduce_thresholds_table[range].intra_node[range_intra_threshold].max !=
723       -1)) {
724       range_intra_threshold++;
725   }
726
727   /* Set intra-node function pt for reduce_two_level */
728   MV2_Reduce_intra_function =
729       mv2_reduce_thresholds_table[range].intra_node[range_intra_threshold].
730       MV2_pt_Reduce_function;
731   /* Set inter-leader pt */
732   MV2_Reduce_function =
733       mv2_reduce_thresholds_table[range].inter_leader[range_threshold].
734       MV2_pt_Reduce_function;
735
736   if(mv2_reduce_intra_knomial_factor<0)
737     {
738       mv2_reduce_intra_knomial_factor = mv2_reduce_thresholds_table[range].intra_k_degree;
739     }
740   if(mv2_reduce_inter_knomial_factor<0)
741     {
742       mv2_reduce_inter_knomial_factor = mv2_reduce_thresholds_table[range].inter_k_degree;
743     }
744   if(mv2_reduce_thresholds_table[range].is_two_level_reduce[range_threshold] == 1){
745       is_two_level = 1;
746   }
747   /* We call Reduce function */
748   if(is_two_level == 1)
749     {
750        if (is_commutative == 1) {
751          if(comm->get_leaders_comm()==MPI_COMM_NULL){
752            comm->init_smp();
753          }
754          mpi_errno = MPIR_Reduce_two_level_helper_MV2(sendbuf, recvbuf, count,
755                                            datatype, op, root, comm);
756         } else {
757       mpi_errno = MPIR_Reduce_binomial_MV2(sendbuf, recvbuf, count,
758           datatype, op, root, comm);
759       }
760     } else if(MV2_Reduce_function == &MPIR_Reduce_inter_knomial_wrapper_MV2 ){
761         if(is_commutative ==1)
762           {
763             mpi_errno = MV2_Reduce_function(sendbuf, recvbuf, count,
764                 datatype, op, root, comm);
765           } else {
766               mpi_errno = MPIR_Reduce_binomial_MV2(sendbuf, recvbuf, count,
767                   datatype, op, root, comm);
768           }
769     } else if(MV2_Reduce_function == &MPIR_Reduce_redscat_gather_MV2){
770         if (/*(HANDLE_GET_KIND(op) == HANDLE_KIND_BUILTIN) &&*/ (count >= pof2))
771           {
772             mpi_errno = MV2_Reduce_function(sendbuf, recvbuf, count,
773                 datatype, op, root, comm);
774           } else {
775               mpi_errno = MPIR_Reduce_binomial_MV2(sendbuf, recvbuf, count,
776                   datatype, op, root, comm);
777           }
778     } else {
779         mpi_errno = MV2_Reduce_function(sendbuf, recvbuf, count,
780             datatype, op, root, comm);
781     }
782
783
784   return mpi_errno;
785
786 }
787
788
789 int Coll_reduce_scatter_mvapich2::reduce_scatter(void *sendbuf, void *recvbuf, int *recvcnts,
790     MPI_Datatype datatype, MPI_Op op,
791     MPI_Comm comm)
792 {
793   int mpi_errno = MPI_SUCCESS;
794   int i = 0, comm_size = comm->size(), total_count = 0, type_size =
795       0, nbytes = 0;
796   int is_commutative = 0;
797   int* disps          = new int[comm_size];
798
799   if(mv2_red_scat_thresholds_table==NULL)
800     init_mv2_reduce_scatter_tables_stampede();
801
802   is_commutative=(op==MPI_OP_NULL || op->is_commutative());
803   for (i = 0; i < comm_size; i++) {
804       disps[i] = total_count;
805       total_count += recvcnts[i];
806   }
807
808   type_size=datatype->size();
809   nbytes = total_count * type_size;
810
811   if (is_commutative) {
812     int range           = 0;
813     int range_threshold = 0;
814
815       /* Search for the corresponding system size inside the tuning table */
816       while ((range < (mv2_size_red_scat_tuning_table - 1)) &&
817           (comm_size > mv2_red_scat_thresholds_table[range].numproc)) {
818           range++;
819       }
820       /* Search for corresponding inter-leader function */
821       while ((range_threshold < (mv2_red_scat_thresholds_table[range].size_inter_table - 1))
822           && (nbytes >
823       mv2_red_scat_thresholds_table[range].inter_leader[range_threshold].max)
824       && (mv2_red_scat_thresholds_table[range].inter_leader[range_threshold].max !=
825           -1)) {
826           range_threshold++;
827       }
828
829       /* Set inter-leader pt */
830       MV2_Red_scat_function =
831           mv2_red_scat_thresholds_table[range].inter_leader[range_threshold].
832           MV2_pt_Red_scat_function;
833
834       mpi_errno = MV2_Red_scat_function(sendbuf, recvbuf,
835           recvcnts, datatype,
836           op, comm);
837   } else {
838       int is_block_regular = 1;
839       for (i = 0; i < (comm_size - 1); ++i) {
840           if (recvcnts[i] != recvcnts[i+1]) {
841               is_block_regular = 0;
842               break;
843           }
844       }
845       int pof2 = 1;
846       while (pof2 < comm_size) pof2 <<= 1;
847       if (pof2 == comm_size && is_block_regular) {
848           /* noncommutative, pof2 size, and block regular */
849           MPIR_Reduce_scatter_non_comm_MV2(sendbuf, recvbuf,
850               recvcnts, datatype,
851               op, comm);
852       }
853       mpi_errno =  Coll_reduce_scatter_mpich_rdb::reduce_scatter(sendbuf, recvbuf,
854           recvcnts, datatype,
855           op, comm);
856   }
857   delete[] disps;
858   return mpi_errno;
859
860 }
861
862
863
864 int Coll_scatter_mvapich2::scatter(void *sendbuf,
865     int sendcnt,
866     MPI_Datatype sendtype,
867     void *recvbuf,
868     int recvcnt,
869     MPI_Datatype recvtype,
870     int root, MPI_Comm comm)
871 {
872   int range = 0, range_threshold = 0, range_threshold_intra = 0;
873   int mpi_errno = MPI_SUCCESS;
874   //   int mpi_errno_ret = MPI_SUCCESS;
875   int rank, nbytes, comm_size;
876   int partial_sub_ok = 0;
877   int conf_index = 0;
878      MPI_Comm shmem_comm;
879   //    MPID_Comm *shmem_commptr=NULL;
880   if(mv2_scatter_thresholds_table==NULL)
881     init_mv2_scatter_tables_stampede();
882
883   if(comm->get_leaders_comm()==MPI_COMM_NULL){
884     comm->init_smp();
885   }
886
887   comm_size = comm->size();
888
889   rank = comm->rank();
890
891   if (rank == root) {
892     int sendtype_size = sendtype->size();
893     nbytes            = sendcnt * sendtype_size;
894   } else {
895     int recvtype_size = recvtype->size();
896     nbytes            = recvcnt * recvtype_size;
897   }
898
899     // check if safe to use partial subscription mode
900     if (comm->is_uniform()) {
901
902         shmem_comm = comm->get_intra_comm();
903         if (mv2_scatter_table_ppn_conf[0] == -1) {
904             // Indicating user defined tuning
905             conf_index = 0;
906         }else{
907           int local_size = shmem_comm->size();
908           int i          = 0;
909             do {
910                 if (local_size == mv2_scatter_table_ppn_conf[i]) {
911                     conf_index = i;
912                     partial_sub_ok = 1;
913                     break;
914                 }
915                 i++;
916             } while(i < mv2_scatter_num_ppn_conf);
917         }
918     }
919
920   if (partial_sub_ok != 1) {
921       conf_index = 0;
922   }
923
924   /* Search for the corresponding system size inside the tuning table */
925   while ((range < (mv2_size_scatter_tuning_table[conf_index] - 1)) &&
926       (comm_size > mv2_scatter_thresholds_table[conf_index][range].numproc)) {
927       range++;
928   }
929   /* Search for corresponding inter-leader function */
930   while ((range_threshold < (mv2_scatter_thresholds_table[conf_index][range].size_inter_table - 1))
931       && (nbytes >
932   mv2_scatter_thresholds_table[conf_index][range].inter_leader[range_threshold].max)
933   && (mv2_scatter_thresholds_table[conf_index][range].inter_leader[range_threshold].max != -1)) {
934       range_threshold++;
935   }
936
937   /* Search for corresponding intra-node function */
938   while ((range_threshold_intra <
939       (mv2_scatter_thresholds_table[conf_index][range].size_intra_table - 1))
940       && (nbytes >
941   mv2_scatter_thresholds_table[conf_index][range].intra_node[range_threshold_intra].max)
942   && (mv2_scatter_thresholds_table[conf_index][range].intra_node[range_threshold_intra].max !=
943       -1)) {
944       range_threshold_intra++;
945   }
946
947   MV2_Scatter_function = mv2_scatter_thresholds_table[conf_index][range].inter_leader[range_threshold]
948                                                                                       .MV2_pt_Scatter_function;
949
950   if(MV2_Scatter_function == &MPIR_Scatter_mcst_wrap_MV2) {
951 #if defined(_MCST_SUPPORT_)
952       if(comm->ch.is_mcast_ok == 1
953           && mv2_use_mcast_scatter == 1
954           && comm->ch.shmem_coll_ok == 1) {
955           MV2_Scatter_function = &MPIR_Scatter_mcst_MV2;
956       } else
957 #endif /*#if defined(_MCST_SUPPORT_) */
958         {
959           if(mv2_scatter_thresholds_table[conf_index][range].inter_leader[range_threshold + 1].
960               MV2_pt_Scatter_function != NULL) {
961               MV2_Scatter_function = mv2_scatter_thresholds_table[conf_index][range].inter_leader[range_threshold + 1]
962                                                                                                   .MV2_pt_Scatter_function;
963           } else {
964               /* Fallback! */
965               MV2_Scatter_function = &MPIR_Scatter_MV2_Binomial;
966           }
967         }
968   }
969
970   if( (MV2_Scatter_function == &MPIR_Scatter_MV2_two_level_Direct) ||
971       (MV2_Scatter_function == &MPIR_Scatter_MV2_two_level_Binomial)) {
972        if( comm->is_blocked()) {
973              MV2_Scatter_intra_function = mv2_scatter_thresholds_table[conf_index][range].intra_node[range_threshold_intra]
974                                 .MV2_pt_Scatter_function;
975
976              mpi_errno =
977                    MV2_Scatter_function(sendbuf, sendcnt, sendtype,
978                                         recvbuf, recvcnt, recvtype, root,
979                                         comm);
980          } else {
981       mpi_errno = MPIR_Scatter_MV2_Binomial(sendbuf, sendcnt, sendtype,
982           recvbuf, recvcnt, recvtype, root,
983           comm);
984
985       }
986   } else {
987       mpi_errno = MV2_Scatter_function(sendbuf, sendcnt, sendtype,
988           recvbuf, recvcnt, recvtype, root,
989           comm);
990   }
991   return (mpi_errno);
992 }
993
994 }
995 }
996
997 void smpi_coll_cleanup_mvapich2()
998 {
999   if (mv2_alltoall_thresholds_table)
1000     delete[] mv2_alltoall_thresholds_table[0];
1001   delete[] mv2_alltoall_thresholds_table;
1002   delete[] mv2_size_alltoall_tuning_table;
1003   delete[] mv2_alltoall_table_ppn_conf;
1004
1005   delete[] mv2_gather_thresholds_table;
1006   if (mv2_allgather_thresholds_table)
1007     delete[] mv2_allgather_thresholds_table[0];
1008   delete[] mv2_size_allgather_tuning_table;
1009   delete[] mv2_allgather_table_ppn_conf;
1010   delete[] mv2_allgather_thresholds_table;
1011
1012   delete[] mv2_allgatherv_thresholds_table;
1013   delete[] mv2_reduce_thresholds_table;
1014   delete[] mv2_red_scat_thresholds_table;
1015   delete[] mv2_allreduce_thresholds_table;
1016   delete[] mv2_bcast_thresholds_table;
1017   if (mv2_scatter_thresholds_table)
1018     delete[] mv2_scatter_thresholds_table[0];
1019   delete[] mv2_scatter_thresholds_table;
1020   delete[] mv2_size_scatter_tuning_table;
1021   delete[] mv2_scatter_table_ppn_conf;
1022 }