Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
whining at CRITICAL level is not enough. Let's kill every body around
[simgrid.git] / src / amok / Bandwidth / bandwidth.c
index 415ba4b..6811ee0 100644 (file)
@@ -25,8 +25,6 @@ static short _amok_bw_initialized = 0;
 /** @brief module initialization; all participating nodes must run this */
 void amok_bw_init(void) {
 
-  amok_base_init();
-
   if (! _amok_bw_initialized) {
     amok_bw_bw_init();
     amok_bw_sat_init();
@@ -136,6 +134,9 @@ void amok_bw_test(gras_socket_t peer,
   int port;
   bw_request_t request,request_ack;
   xbt_ex_t e;
+  int first_pass; 
+  int nb_messages = (exp_size % msg_size == 0) ? 
+    (exp_size / msg_size) : (exp_size / msg_size + 1); 
   
   for (port = 5000; port < 10000 && measMasterIn == NULL; port++) {
     TRY {
@@ -152,11 +153,11 @@ void amok_bw_test(gras_socket_t peer,
   
   request=xbt_new0(s_bw_request_t,1);
   request->buf_size=buf_size;
-  request->exp_size=exp_size;
+  request->exp_size=msg_size * nb_messages;
   request->msg_size=msg_size;
   request->peer.name = NULL;
   request->peer.port = gras_socket_my_port(measMasterIn);
-  DEBUG5("Handshaking with %s:%d to connect it back on my %d (expsize=%ld byte= %ld b)", 
+  DEBUG5("Handshaking with %s:%d to connect it back on my %d (bufsize=%ld byte= %ld b)", 
        gras_socket_peer_name(peer),gras_socket_peer_port(peer), request->peer.port,
        buf_size,request->buf_size);
 
@@ -176,22 +177,49 @@ void amok_bw_test(gras_socket_t peer,
     RETHROW2("Error encountered while opening the measurement socket to %s:%d for BW test: %s",
             gras_socket_peer_name(peer),request_ack->peer.port);
   }
-  DEBUG1("Got ACK; conduct the experiment (msg_size=%ld)",request->msg_size);
+  DEBUG2("Got ACK; conduct the experiment (exp_size = %ld, msg_size=%ld)",
+        request->exp_size, request->msg_size);
 
   *sec = 0;
+  first_pass = 1;
   do {
-    if (*sec>0) {
+    if (first_pass == 0) {
       double meas_duration=*sec;
-      request->exp_size = request->exp_size * (min_duration / meas_duration) * 1.1;
-      request->msg_size = request->msg_size * (min_duration / meas_duration) * 1.1;
-      if (request->msg_size > 64*1024*1024)
+      double increase;
+      if (*sec != 0.0 ) {
+        increase = (min_duration / meas_duration) * 1.1;
+      } else {
+        increase = 4; 
+      }
+      /* Do not increase the exp size too fast since our decision would be based on wrong measurements*/
+      if (increase > 20)
+        increase = 20; 
+           
+      request->msg_size = request->msg_size * increase;
+
+      /* Do not do too large experiments messages or the sensors 
+        will start to swap to store one of them.
+        And then increase the number of messages to compensate */
+      if (request->msg_size > 64*1024*1024) {
+       nb_messages = ( (request->msg_size / ((double)64*1024*1024)) 
+                       * nb_messages ) + 1; 
        request->msg_size = 64*1024*1024;
+      }
+
+      VERB6("The experiment was too short (%f sec<%f sec). Redo it with exp_size=%lu msg_size=%lu (nb_messages=%d) (got %fkb/s)",
+           meas_duration, min_duration, 
+           request->exp_size, request->msg_size, nb_messages, 
+           ((double)request->exp_size) / *sec/1024);
+
+      xbt_assert0(request->exp_size > request->msg_size * nb_messages,
+                 "Overflow on the experiment size! You must have a *really* fat pipe. Please fix your platform");
+      request->exp_size = request->msg_size * nb_messages;
+
 
-      VERB5("The experiment was too short (%f sec<%f sec). Redo it with exp_size=%ld msg_size=%ld (got %fkb/s)",
-            meas_duration,min_duration,request->exp_size,request->msg_size,((double)exp_size) / *sec/1024);
       gras_msg_rpccall(peer, 60, gras_msgtype_by_name("BW reask"),&request, NULL);      
     }
 
+    first_pass = 0;
     *sec=gras_os_time();
     TRY {
       gras_socket_meas_send(measOut,120,request->exp_size,request->msg_size);
@@ -203,10 +231,13 @@ void amok_bw_test(gras_socket_t peer,
       gras_socket_close(measIn);
       RETHROW0("Unable to conduct the experiment: %s");
     }
-    DEBUG0("Experiment done");
-
     *sec = gras_os_time() - *sec;
-    *bw = ((double)request->exp_size) / *sec;
+    if (*sec != 0.0) { *bw = ((double)request->exp_size) / *sec; }
+    DEBUG1("Experiment done ; it took %f sec", *sec);
+    if (*sec <= 0) {
+      CRITICAL1("Nonpositive value (%f) found for BW test time.", *sec);
+    }
+
   } while (*sec < min_duration);
 
   DEBUG2("This measurement was long enough (%f sec; found %f b/s). Stop peer",