Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
more informative error message in some obscure error settings
[simgrid.git] / src / smpi / smpi_bench.c
index 393c850..c5997c8 100644 (file)
@@ -78,6 +78,8 @@ int smpi_loaded_page = -1;
 char* start_data_exe = NULL;
 int size_data_exe = 0;
 int smpi_privatize_global_variables;
+double smpi_total_benched_time = 0;
+
 
 smpi_privatisation_region_t smpi_privatisation_regions;
 
@@ -151,7 +153,7 @@ void smpi_execute_(double *duration)
 }
 
 void smpi_execute_flops(double flops) {
-  smx_action_t action;
+  smx_synchro_t action;
   smx_host_t host;
   host = SIMIX_host_self();
   XBT_DEBUG("Handle real computation time: %f flops", flops);
@@ -160,6 +162,7 @@ void smpi_execute_flops(double flops) {
   simcall_set_category (action, TRACE_internal_smpi_get_category());
 #endif
   simcall_host_execution_wait(action);
+  smpi_switch_data_segment(smpi_process_index());
 }
 
 void smpi_execute(double duration)
@@ -192,7 +195,7 @@ void smpi_bench_begin(void)
 {
   smpi_switch_data_segment(smpi_process_index());
 
-  if(MC_is_active())
+  if (MC_is_active() || MC_record_replay_is_active())
     return;
 
   xbt_os_threadtimer_start(smpi_process_timer());
@@ -201,7 +204,7 @@ void smpi_bench_begin(void)
 void smpi_bench_end(void)
 {
 
-  if(MC_is_active())
+  if (MC_is_active() || MC_record_replay_is_active())
     return;
 
   xbt_os_timer_t timer = smpi_process_timer();
@@ -217,6 +220,8 @@ void smpi_bench_end(void)
   if (sg_cfg_get_boolean("smpi/simulate_computation")) {
     smpi_execute(xbt_os_timer_elapsed(timer));
   }
+
+  smpi_total_benched_time += xbt_os_timer_elapsed(timer);
 }
 
 /* Private sleep function used by smpi_sleep() and smpi_usleep() */
@@ -602,23 +607,29 @@ void* smpi_shared_set_call(const char* func, const char* input, void* data) {
 #define TOPAGE(addr) (void *)(((unsigned long)(addr) / xbt_pagesize) * xbt_pagesize)
 
 
-/*
- * - read the executable data+bss section addresses and sizes
- * - for each process create a copy of these sections with mmap
- * - store them in a dynar
- *
+/** Map a given SMPI privatization segment (make a SMPI process active)
  */
+void smpi_switch_data_segment(int dest){
 
+  if (smpi_loaded_page==dest)//no need to switch either
+   return;
 
+  // So the job:
+  smpi_really_switch_data_segment(dest);
+}
 
-void smpi_switch_data_segment(int dest){
+/** Map a given SMPI privatization segment (make a SMPI process active)
+ *  even if SMPI thinks it is already active
+ *
+ *  When doing a state restoration, the state of the restored variables
+ *  might not be consistent with the state of the virtual memory.
+ *  In this case, we to change the data segment.
+ */
+void smpi_really_switch_data_segment(int dest) {
 
   if(size_data_exe == 0)//no need to switch
     return;
 
-  if (smpi_loaded_page==dest)//no need to switch either
-    return;
-
 #ifdef HAVE_MMAP
   int i;
   if(smpi_loaded_page==-1){//initial switch, do the copy from the real page here
@@ -626,8 +637,9 @@ void smpi_switch_data_segment(int dest){
       memcpy(smpi_privatisation_regions[i].address,TOPAGE(start_data_exe),size_data_exe);
     }
   }
+
   int current = smpi_privatisation_regions[dest].file_descriptor;
-  XBT_VERB("Switching data frame to the one of process %d", dest);
+  XBT_DEBUG("Switching data frame to the one of process %d", dest);
   void* tmp = mmap (TOPAGE(start_data_exe), size_data_exe, PROT_READ | PROT_WRITE, MAP_FIXED | MAP_SHARED, current, 0);
   if (tmp != TOPAGE(start_data_exe))
     xbt_die("Couldn't map the new region");
@@ -635,6 +647,11 @@ void smpi_switch_data_segment(int dest){
 #endif
 }
 
+int smpi_is_privatisation_file(char* file)
+{
+  return strncmp("/dev/shm/my-buffer-", file, 19) == 0;
+}
+
 void smpi_get_executable_global_size(){
   int size_bss_binary=0;
   int size_data_binary=0;
@@ -736,8 +753,24 @@ void smpi_initialize_global_memory_segments(){
       int status;
 
       int file_descriptor= mkstemp (path);
-      if (file_descriptor < 0)
-        xbt_die("Impossible to create temporary file for memory mapping");
+      if (file_descriptor < 0) {
+         if (errno==EMFILE) {
+                 xbt_die("Impossible to create temporary file for memory mapping: %s\n\
+The open() system call failed with the EMFILE error code (too many files). \n\n\
+This means that you reached the system limits concerning the amount of files per process. \
+This is not a surprise if you are trying to virtualize many processes on top of SMPI. \
+Don't panic -- you should simply increase your system limits and try again. \n\n\
+First, check what your limits are:\n\
+  cat /proc/sys/fs/file-max # gives you the system-wide limit\n\
+  ulimit -Hn                # gives you the per process hard limit\n\
+  ulimit -Sn                # gives you the per process soft limit\n\n\
+If one of these values is less than the amount of MPI processes that you try to run, then you got the explanation of this error. \
+Ask the Internet about tutorials on how to increase the files limit such as: https://rtcamp.com/tutorials/linux/increase-open-files-limit/",
+             strerror(errno));
+         }
+        xbt_die("Impossible to create temporary file for memory mapping: %s",
+                       strerror(errno));
+      }
 
       status = unlink (path);
       if (status)