Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
add the ability to tesh to mess with the processes' environment
[simgrid.git] / tools / tesh / run_context.c
index 966d44a..7a91873 100644 (file)
 #include <sys/types.h>
 #include <sys/wait.h>
 
-
 XBT_LOG_EXTERNAL_DEFAULT_CATEGORY(tesh);
 
 xbt_dynar_t bg_jobs = NULL;
+rctx_t armageddon_initiator = NULL;
+xbt_os_mutex_t armageddon_mutex = NULL;
 
 /* 
  * Module management
  */
 
-static void join_it(void*t) {  
-  xbt_thread_t th = *(xbt_thread_t*)t;
-  VERB1("Join thread %p which were running a background cmd",th);
-  xbt_thread_join(th,NULL);
+static void kill_it(void*r) {  
+  rctx_t rctx = *(rctx_t*)r;
+
+  VERB2("Join thread %p which were running background cmd <%s>",rctx->runner,rctx->filepos);
+  xbt_os_thread_join(rctx->runner,NULL);
+  rctx_free(rctx);
 }
 
 void rctx_init(void) {
-  bg_jobs = xbt_dynar_new(sizeof(xbt_thread_t),join_it);
+  bg_jobs = xbt_dynar_new_sync(sizeof(rctx_t),kill_it);
+  armageddon_mutex = xbt_os_mutex_init();
+  armageddon_initiator = NULL;
 }
 
 void rctx_exit(void) {
-  xbt_dynar_free(&bg_jobs);
+  if (bg_jobs) {
+    /* Do not use xbt_dynar_free or it will lock the dynar, preventing armageddon from working */
+    while (xbt_dynar_length(bg_jobs)) {
+       rctx_t rctx;
+       xbt_dynar_pop(bg_jobs,&rctx);
+       kill_it(&rctx);
+    }
+    xbt_dynar_free(&bg_jobs);
+  }
+  xbt_os_mutex_destroy(armageddon_mutex);
 }
 
 void rctx_wait_bg(void) {
-  xbt_dynar_free(&bg_jobs);
-  bg_jobs = xbt_dynar_new(sizeof(xbt_thread_t),join_it);
+  if (bg_jobs) {
+    /* Do not use xbt_dynar_free or it will lock the dynar, preventing armageddon from working */
+    while (xbt_dynar_length(bg_jobs)) {
+       rctx_t rctx;
+       xbt_dynar_pop(bg_jobs,&rctx);
+       kill_it(&rctx);
+    }
+    xbt_dynar_free(&bg_jobs);
+  }
+  bg_jobs = xbt_dynar_new_sync(sizeof(rctx_t),kill_it);
+}
+
+void rctx_armageddon(rctx_t initiator, int exitcode) {
+  rctx_t rctx;
+
+  DEBUG2("Armageddon request by <%s> (exit=%d)",initiator->filepos,exitcode);
+  xbt_os_mutex_acquire(armageddon_mutex);
+  if (armageddon_initiator != NULL) {
+    VERB0("Armageddon already started. Let it go");
+    xbt_os_mutex_release(initiator->interruption);
+    xbt_os_mutex_release(armageddon_mutex);
+    return;
+  }
+  DEBUG1("Armageddon request by <%s> got the lock. Let's go amok",initiator->filepos);
+  armageddon_initiator = initiator;
+  xbt_os_mutex_release(armageddon_mutex);
+
+  /* Kill any background commands */
+  while (xbt_dynar_length(bg_jobs)) {
+    xbt_dynar_pop(bg_jobs,&rctx);
+    if (rctx != initiator) {
+      INFO2("Kill <%s> because <%s> failed",rctx->filepos,initiator->filepos);
+      xbt_os_mutex_acquire(rctx->interruption);
+      rctx->interrupted = 1;
+      xbt_os_mutex_release(rctx->interruption);
+      if (!rctx->reader_done) {
+       kill(rctx->pid,SIGTERM);
+       usleep(100);
+       kill(rctx->pid,SIGKILL);          
+      }
+    }
+  }
+
+  VERB0("Shut everything down!");
+  exit(exitcode);
 }
 
 /*
@@ -46,26 +103,46 @@ void rctx_wait_bg(void) {
  */
 
 void rctx_empty(rctx_t rc) {
+  int i;
+  char **env_it=environ;
+   
   if (rc->cmd)
     free(rc->cmd);
   rc->cmd = NULL;
+  if (rc->filepos)
+    free(rc->filepos);
+  if (rc->env)
+     free(rc->env);
+   
+  for (i=0;*env_it;i++,env_it++);
+  i++;
+  rc->env_size = i;
+  rc->env = malloc(i*sizeof(char*));
+  memcpy(rc->env,environ,i*sizeof(char*)); 
+
+  rc->filepos = NULL;
   rc->is_empty = 1;
   rc->is_background = 0;
   rc->is_stoppable = 0;
-  rc->check_output = 1;
+  rc->output = e_output_check;
   rc->brokenpipe = 0;
   rc->timeout = 0;
-  buff_empty(rc->input);
-  buff_empty(rc->output_wanted);
-  buff_empty(rc->output_got);
+  rc->interrupted = 0;
+  xbt_strbuff_empty(rc->input);
+  xbt_strbuff_empty(rc->output_wanted);
+  xbt_strbuff_empty(rc->output_got);
 }
 
+/* the environment, as specified by the opengroup */
+extern char **environ;
+
 rctx_t rctx_new() {
   rctx_t res = xbt_new0(s_rctx_t,1);
 
-  res->input=buff_new();
-  res->output_wanted=buff_new();
-  res->output_got=buff_new();
+  res->input=xbt_strbuff_new();
+  res->output_wanted=xbt_strbuff_new();
+  res->output_got=xbt_strbuff_new();
+  res->interruption = xbt_os_mutex_init();
   rctx_empty(res);
   return res;
 }
@@ -78,9 +155,14 @@ void rctx_free(rctx_t rctx) {
 
   if (rctx->cmd)
     free(rctx->cmd);
-  buff_free(rctx->input);
-  buff_free(rctx->output_got);
-  buff_free(rctx->output_wanted);
+  if (rctx->filepos)
+    free(rctx->filepos);
+  if (rctx->env)
+    free(rctx->env);
+  xbt_os_mutex_destroy(rctx->interruption);
+  xbt_strbuff_free(rctx->input);
+  xbt_strbuff_free(rctx->output_got);
+  xbt_strbuff_free(rctx->output_wanted);
   free(rctx);
 }
 
@@ -109,7 +191,9 @@ void rctx_pushline(const char* filepos, char kind, char *line) {
        ERROR2("[%s] More than one command in this chunk of lines (previous: %s).\n"
               " Dunno which input/output belongs to which command.",
               filepos,rctx->cmd);
-       exit(1);
+       ERROR1("Test suite `%s': NOK (syntax error)",testsuite_name);
+       rctx_armageddon(rctx,1);
+       return;
       }
       rctx_start();
       VERB1("[%s] More than one command in this chunk of lines",filepos);
@@ -120,29 +204,33 @@ void rctx_pushline(const char* filepos, char kind, char *line) {
       rctx->is_background = 0;
       
     rctx->cmd = xbt_strdup(line);
-    INFO3("[%s] %s%s",filepos,line,
+    rctx->filepos = xbt_strdup(filepos);
+    INFO3("[%s] %s%s",filepos,rctx->cmd,
          ((rctx->is_background)?" (background command)":""));
 
     break;
     
   case '<':
     rctx->is_empty = 0;
-    buff_append(rctx->input,line);
-    buff_append(rctx->input,"\n");
+    xbt_strbuff_append(rctx->input,line);
+    xbt_strbuff_append(rctx->input,"\n");
     break;
 
   case '>':
     rctx->is_empty = 0;
-    buff_append(rctx->output_wanted,line);
-    buff_append(rctx->output_wanted,"\n");
+    xbt_strbuff_append(rctx->output_wanted,line);
+    xbt_strbuff_append(rctx->output_wanted,"\n");
     break;
 
   case '!':
     if (rctx->cmd)
       rctx_start();
 
-    if (!strncmp(line,"set timeout ",strlen("set timeout "))) {
-      timeout_value=atoi(line+strlen("set timeout"));
+    if (!strncmp(line,"timeout no",strlen("timeout no"))) {
+      VERB1("[%s] (disable timeout)", filepos);
+      timeout_value = -1;
+    } else if (!strncmp(line,"timeout ",strlen("timeout "))) {
+      timeout_value=atoi(line+strlen("timeout"));
       VERB2("[%s] (new timeout value: %d)",
             filepos,timeout_value);
 
@@ -157,13 +245,25 @@ void rctx_pushline(const char* filepos, char kind, char *line) {
       VERB2("[%s] (next command must return code %d)",
            filepos, rctx->expected_return);
 
-    } else if (!strncmp(line,"ignore output",strlen("ignore output"))) {
-      rctx->check_output = 0;
+    } else if (!strncmp(line,"output ignore",strlen("output ignore"))) {
+      rctx->output = e_output_ignore;
+      VERB1("[%s] (ignore output of next command)", filepos);
+       
+    } else if (!strncmp(line,"output display",strlen("output display"))) {
+      rctx->output = e_output_display;
+      VERB1("[%s] (ignore output of next command)", filepos);
+
+    } else if (!strncmp(line,"setenv ",strlen("setenv "))) {
+      rctx->env = realloc(rctx->env,++(rctx->env_size)*sizeof(char*));
+      rctx->env[rctx->env_size-2] = xbt_strdup(line+strlen("setenv "));
+      rctx->env[rctx->env_size-1] = NULL;
       VERB1("[%s] (ignore output of next command)", filepos);
        
     } else {
       ERROR2("%s: Malformed metacommand: %s",filepos,line);
-      exit(1);
+      ERROR1("Test suite `%s': NOK (syntax error)",testsuite_name);
+      rctx_armageddon(rctx,1);
+      return;
     }
     break;
   }
@@ -190,7 +290,9 @@ static void* thread_writer(void *r) {
        rctx->brokenpipe = 1;
       } else if (errno!=EINTR && errno!=EAGAIN && errno!=EPIPE) {
        perror("Error while writing input to child");
-         exit(4);
+       ERROR1("Test suite `%s': NOK (system error)",testsuite_name);
+       rctx_armageddon(rctx,4);
+       return NULL;
       }
     }
     DEBUG1("written %d chars so far",posw);
@@ -207,22 +309,34 @@ static void* thread_writer(void *r) {
 static void *thread_reader(void *r) {
   rctx_t rctx = (rctx_t)r;
   char *buffout=malloc(4096);
-  int posr;
+  int posr, got_pid;
 
   do {
     posr=read(rctx->child_from,buffout,4095);
     if (posr<0 && errno!=EINTR && errno!=EAGAIN) {
       perror("Error while reading output of child");
-      exit(4);
+      ERROR1("Test suite `%s': NOK (system error)", testsuite_name);
+      rctx_armageddon(rctx,4);
+      return NULL;
     }
     if (posr>0) {
       buffout[posr]='\0';
-      buff_append(rctx->output_got,buffout);
+      xbt_strbuff_append(rctx->output_got,buffout);
     } else {
       usleep(100);
     }
   } while (!rctx->timeout && posr!=0);
   free(buffout);
+
+  /* let this thread wait for the child so that the main thread can detect the timeout without blocking on the wait */
+  got_pid = waitpid(rctx->pid,&rctx->status,0);
+  if (got_pid != rctx->pid) {
+    perror(bprintf("Cannot wait for the child %s",rctx->cmd));
+    ERROR1("Test suite `%s': NOK (system error)", testsuite_name);
+    rctx_armageddon(rctx,4);
+    return NULL;
+  }
+   
   rctx->reader_done = 1;
   return NULL;
 } 
@@ -238,13 +352,16 @@ void rctx_start(void) {
   VERB2("Start %s %s",rctx->cmd,(rctx->is_background?"(background job)":""));
   if (pipe(child_in) || pipe(child_out)) {
     perror("Cannot open the pipes");
-    exit(4);
+    ERROR1("Test suite `%s': NOK (system error)", testsuite_name);
+    rctx_armageddon(rctx,4);
   }
 
   rctx->pid=fork();
   if (rctx->pid<0) {
     perror("Cannot fork the command");
-    exit(4);
+    ERROR1("Test suite `%s': NOK (system error)", testsuite_name);
+    rctx_armageddon(rctx,4);
+    return;
   }
 
   if (rctx->pid) { /* father */
@@ -254,10 +371,14 @@ void rctx_start(void) {
     close(child_out[1]);
     rctx->child_from = child_out[0];
 
-    rctx->end_time = time(NULL) + timeout_value;
+    if (timeout_value > 0)
+       rctx->end_time = time(NULL) + timeout_value;
+    else 
+       rctx->end_time = -1;
 
-    rctx->reader = xbt_thread_create(thread_reader,(void*)rctx);
-    rctx->writer = xbt_thread_create(thread_writer,(void*)rctx);
+    rctx->reader_done = 0;
+    rctx->reader = xbt_os_thread_create("reader",thread_reader,(void*)rctx);
+    rctx->writer = xbt_os_thread_create("writer",thread_writer,(void*)rctx);
 
   } else { /* child */
 
@@ -270,7 +391,7 @@ void rctx_start(void) {
     dup2(child_out[1],2);
     close(child_out[1]);
 
-    execlp ("/bin/sh", "sh", "-c", rctx->cmd, NULL);
+    execle ("/bin/sh", "sh", "-c", rctx->cmd, NULL, rctx->env);
   }
 
   rctx->is_stoppable = 1;
@@ -280,29 +401,29 @@ void rctx_start(void) {
   } else {
     /* Damn. Copy the rctx and launch a thread to handle it */
     rctx_t old = rctx;
-    xbt_thread_t runner;
+    xbt_os_thread_t runner;
 
     rctx = rctx_new();
     DEBUG2("RCTX: new bg=%p, new fg=%p",old,rctx);
 
     DEBUG2("Launch a thread to wait for %s %d",old->cmd,old->pid);
-    runner = xbt_thread_create(rctx_wait,(void*)old);
+    runner = xbt_os_thread_create(old->cmd,rctx_wait,(void*)old);
+    old->runner = runner;
     VERB3("Launched thread %p to wait for %s %d",
          runner,old->cmd, old->pid);
-    xbt_dynar_push(bg_jobs,&runner);
+    xbt_dynar_push(bg_jobs,&old);
   }
 }
 
 /* Waits for the child to end (or to timeout), and check its 
    ending conditions. This is launched from rctx_start but either in main
    thread (for foreground jobs) or in a separate one for background jobs. 
-   That explains the prototype, forced by xbt_thread_create. */
+   That explains the prototype, forced by xbt_os_thread_create. */
 
 void *rctx_wait(void* r) {
   rctx_t rctx = (rctx_t)r;
   int errcode = 0;
-  int res;
-  int status;
+  int now = time(NULL);
     
   rctx_dump(rctx,"wait");
 
@@ -310,21 +431,37 @@ void *rctx_wait(void* r) {
     THROW1(unknown_error,0,"Cmd '%s' not started yet. Cannot wait it",
           rctx->cmd);
 
-  /* Wait for the child to die or the timeout to happen */
-  while (!rctx->reader_done && rctx->end_time > time(NULL)) {
+  /* Wait for the child to die or the timeout to happen (or an armageddon to happen) */
+  while (!rctx->interrupted && !rctx->reader_done && (rctx->end_time <0 ||rctx->end_time >= now)) {
     usleep(100);
+    now = time(NULL);
   }
-
-  if (!rctx->reader_done) {
-    INFO1("Child '%s' timeouted. Kill it",rctx->cmd);
+   
+  xbt_os_mutex_acquire(rctx->interruption);
+  if (!rctx->interrupted && rctx->end_time > 0 && rctx->end_time < now) {    
+    INFO1("<%s> timeouted. Kill the process.",rctx->filepos);
     rctx->timeout = 1;
-    kill(rctx->pid,SIGKILL);
+    kill(rctx->pid,SIGTERM);
+    usleep(100);
+    kill(rctx->pid,SIGKILL);    
+    rctx->reader_done = 1;
   }
+   
   /* Make sure helper threads die.
      Cannot block since they wait for the child we just killed
      if not already dead. */
-  xbt_thread_join(rctx->writer,NULL);
-  xbt_thread_join(rctx->reader,NULL);
+  xbt_os_thread_join(rctx->writer,NULL);
+  xbt_os_thread_join(rctx->reader,NULL);
+
+  /*  xbt_os_mutex_release(rctx->interruption);
+  if (rctx->interrupted)
+    return NULL;
+    xbt_os_mutex_acquire(rctx->interruption);*/
+  xbt_strbuff_chomp(rctx->output_got);
+  xbt_strbuff_chomp(rctx->output_wanted);
+  xbt_strbuff_trim(rctx->output_got);
+  xbt_strbuff_trim(rctx->output_wanted);
 
   /* Check for broken pipe */
   if (rctx->brokenpipe)
@@ -332,82 +469,108 @@ void *rctx_wait(void* r) {
 
   /* Check for timeouts */
   if (rctx->timeout) {
-    ERROR1("Child timeouted (waited %d sec)",timeout_value);
-    exit(3);
+    if (rctx->output_got->data[0])
+      INFO2("<%s> Output on timeout:\n%s",
+           rctx->filepos,rctx->output_got->data);
+    else
+      INFO1("<%s> No output before timeout",
+           rctx->filepos);
+    ERROR3("Test suite `%s': NOK (<%s> timeout after %d sec)", 
+          testsuite_name,rctx->filepos,timeout_value);
+    DEBUG2("<%s> Interrupted = %d", rctx->filepos, rctx->interrupted);
+    if (!rctx->interrupted) {
+      rctx_armageddon(rctx, 3);
+      return NULL;
+    }
   }
       
-  DEBUG2("Wait for %s (%d)",rctx->cmd,rctx->pid);
-  res = waitpid(rctx->pid,&status,0);
-  if (res != rctx->pid) {
-    perror(bprintf("Cannot wait for the child %s",rctx->cmd));
-    exit(1);
-  }
   DEBUG2("RCTX=%p (pid=%d)",rctx,rctx->pid);
-  DEBUG3("Status(%s|%d)=%d",rctx->cmd,rctx->pid,status);
-
-  if (WIFSIGNALED(status) && !rctx->expected_signal) {
-    ERROR2("Child \"%s\" got signal %s.", rctx->cmd,
-           signal_name(WTERMSIG(status),NULL));
-    errcode = WTERMSIG(status)+4;      
-  }
-
-  if (WIFSIGNALED(status) && rctx->expected_signal &&
-      strcmp(signal_name(WTERMSIG(status),rctx->expected_signal),
-            rctx->expected_signal)) {
-    ERROR3("Child \"%s\" got signal %s instead of signal %s", rctx->cmd,
-           signal_name(WTERMSIG(status),rctx->expected_signal),
-           rctx->expected_signal);
-    errcode = WTERMSIG(status)+4;      
-  }
-  
-  if (!WIFSIGNALED(status) && rctx->expected_signal) {
-    ERROR2("Child \"%s\" didn't got expected signal %s",
-          rctx->cmd, rctx->expected_signal);
-    errcode = 5;
-  }
-
-  if (WIFEXITED(status) && WEXITSTATUS(status) != rctx->expected_return ) {
-    if (rctx->expected_return) 
-      ERROR3("Child \"%s\" returned code %d instead of %d", rctx->cmd,
-            WEXITSTATUS(status), rctx->expected_return);
-    else
-      ERROR2("Child \"%s\" returned code %d", rctx->cmd, WEXITSTATUS(status));
-    errcode = 40+WEXITSTATUS(status);
-  }
-  rctx->expected_return = 0;
+  DEBUG3("Status(%s|%d)=%d",rctx->cmd,rctx->pid,rctx->status);
+
+  if (!rctx->interrupted) {
+    if (WIFSIGNALED(rctx->status) && !rctx->expected_signal) {
+      ERROR3("Test suite `%s': NOK (<%s> got signal %s)", 
+            testsuite_name, rctx->filepos,
+            signal_name(WTERMSIG(rctx->status),NULL));
+      errcode = WTERMSIG(rctx->status)+4;      
+    }
+    
+    if (WIFSIGNALED(rctx->status) && rctx->expected_signal &&
+       strcmp(signal_name(WTERMSIG(rctx->status),rctx->expected_signal),
+              rctx->expected_signal)) {
+      ERROR4("Test suite `%s': NOK (%s got signal %s instead of %s)", 
+            testsuite_name, rctx->filepos,
+            signal_name(WTERMSIG(rctx->status),rctx->expected_signal),
+            rctx->expected_signal);
+      errcode = WTERMSIG(rctx->status)+4;      
+    }
+    
+    if (!WIFSIGNALED(rctx->status) && rctx->expected_signal) {
+      ERROR3("Test suite `%s': NOK (child %s expected signal %s)", 
+            testsuite_name, rctx->filepos,
+            rctx->expected_signal);
+      errcode = 5;
+    }
+    
+    if (WIFEXITED(rctx->status) && WEXITSTATUS(rctx->status) != rctx->expected_return ) {
+      if (rctx->expected_return) 
+       ERROR4("Test suite `%s': NOK (<%s> returned code %d instead of %d)",
+              testsuite_name, rctx->filepos,
+              WEXITSTATUS(rctx->status), rctx->expected_return);
+      else
+       ERROR3("Test suite `%s': NOK (<%s> returned code %d)",
+              testsuite_name, rctx->filepos, WEXITSTATUS(rctx->status));
+      errcode = 40+WEXITSTATUS(rctx->status);
+      
+    }
+    rctx->expected_return = 0;
   
-  if(rctx->expected_signal){
-    free(rctx->expected_signal);
-    rctx->expected_signal = NULL;
+    if(rctx->expected_signal){
+      free(rctx->expected_signal);
+      rctx->expected_signal = NULL;
+    }
   }
 
-  buff_chomp(rctx->output_got);
-  buff_chomp(rctx->output_wanted);
-  buff_trim(rctx->output_got);
-  buff_trim(rctx->output_wanted);
-
-  if (   rctx->check_output 
+  if (   rctx->output == e_output_check
       && (    rctx->output_got->used != rctx->output_wanted->used
           || strcmp(rctx->output_got->data, rctx->output_wanted->data))) {
-    char *diff= xbt_str_diff(rctx->output_wanted->data,rctx->output_got->data);
-    ERROR2("Output of child \"%s\" don't match expectations. Here is a diff between expected and got output:\n%s",
-          rctx->cmd,diff);
-    free(diff);
+    if (XBT_LOG_ISENABLED(tesh,xbt_log_priority_info)) {
+       char *diff= xbt_str_diff(rctx->output_wanted->data,rctx->output_got->data);       
+       ERROR2("Output of <%s> mismatch:\n%s",rctx->filepos,diff);
+       free(diff);
+    }     
+    ERROR2("Test suite `%s': NOK (<%s> output mismatch)", 
+          testsuite_name,rctx->filepos);
+     
     errcode=2;
-  } else if (!rctx->check_output) {
-    INFO0("(ignoring the output as requested)");
+  } else if (rctx->output == e_output_ignore) {
+    INFO1("(ignoring the output of <%s> as requested)",rctx->filepos);
+  } else if (rctx->output == e_output_display) {
+    xbt_dynar_t a = xbt_str_split(rctx->output_got->data, "\n");
+    char *out = xbt_str_join(a,"\n||");
+    xbt_dynar_free(&a);
+    INFO1("Here is the (ignored) command output: \n||%s",out);
+    free(out);
+  } else if (errcode || rctx->interrupted) {
+    /* checking output, and matching */
+    xbt_dynar_t a = xbt_str_split(rctx->output_got->data, "\n");
+    char *out = xbt_str_join(a,"\n||");
+    xbt_dynar_free(&a);
+    INFO2("Output of <%s> so far: \n||%s",rctx->filepos,out);
+    free(out);    
   }
 
-  if (rctx->is_background)
-    rctx_free(rctx);
-  else
+  if (!rctx->is_background) {
     rctx_empty(rctx);
+  }
   if (errcode) {
-    if (!rctx->check_output)
-      INFO1("Here is the child output:\n%s",rctx->output_got->data);
-    exit (errcode);
+    if (!rctx->interrupted) {
+      rctx_armageddon(rctx, errcode);
+      return NULL;
+    }
   }
 
+  xbt_os_mutex_release(rctx->interruption);
   return NULL;
 }