Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
MC: Reap all zombie childs to avoid them to accumulate
[simgrid.git] / src / mc / remote / AppSide.cpp
index 216227f..b66d7a1 100644 (file)
 #include "src/kernel/actor/SimcallObserver.hpp"
 #include "src/mc/mc_base.hpp"
 #include "src/mc/mc_config.hpp"
+#include "src/mc/mc_environ.h"
+#if SIMGRID_HAVE_STATEFUL_MC
 #include "src/mc/sosp/RemoteProcessMemory.hpp"
+#endif
 #if HAVE_SMPI
 #include "src/smpi/include/private.hpp"
 #endif
@@ -28,6 +31,8 @@
 #include <sys/ptrace.h>
 #include <sys/socket.h>
 #include <sys/types.h>
+#include <sys/un.h>
+#include <sys/wait.h>
 
 XBT_LOG_NEW_DEFAULT_SUBCATEGORY(mc_client, mc, "MC client logic");
 XBT_LOG_EXTERNAL_CATEGORY(mc_global);
@@ -36,16 +41,18 @@ namespace simgrid::mc {
 
 std::unique_ptr<AppSide> AppSide::instance_;
 
-AppSide* AppSide::initialize()
+AppSide* AppSide::get()
 {
-  if (not std::getenv(MC_ENV_SOCKET_FD)) // We are not in MC mode: don't initialize the MC world
+  // Only initialize the MC world once
+  if (instance_ != nullptr)
+    return instance_.get();
+
+  if (std::getenv(MC_ENV_SOCKET_FD) == nullptr) // We are not in MC mode: don't initialize the MC world
     return nullptr;
 
-  // Do not break if we are called multiple times:
-  if (instance_)
-    return instance_.get();
+  XBT_DEBUG("Initialize the MC world. %s=%s", MC_ENV_NEED_PTRACE, std::getenv(MC_ENV_NEED_PTRACE));
 
-  simgrid::mc::model_checking_mode = ModelCheckingMode::APP_SIDE;
+  simgrid::mc::set_model_checking_mode(ModelCheckingMode::APP_SIDE);
 
   setvbuf(stdout, nullptr, _IOLBF, 0);
 
@@ -54,26 +61,22 @@ AppSide* AppSide::initialize()
   int fd             = xbt_str_parse_int(fd_env, "Not a number in variable '" MC_ENV_SOCKET_FD "'");
   XBT_DEBUG("Model-checked application found socket FD %i", fd);
 
-  // Check the socket type/validity:
-  int type;
-  socklen_t socklen = sizeof(type);
-  xbt_assert(getsockopt(fd, SOL_SOCKET, SO_TYPE, &type, &socklen) == 0, "Could not check socket type");
-  xbt_assert(type == SOCK_SEQPACKET, "Unexpected socket type %i", type);
-  XBT_DEBUG("Model-checked application found expected socket type");
-
   instance_ = std::make_unique<simgrid::mc::AppSide>(fd);
 
   // Wait for the model-checker:
-  errno = 0;
+  if (getenv(MC_ENV_NEED_PTRACE) != nullptr) {
+    errno = 0;
 #if defined __linux__
-  ptrace(PTRACE_TRACEME, 0, nullptr, nullptr);
+    ptrace(PTRACE_TRACEME, 0, nullptr, nullptr);
 #elif defined BSD
-  ptrace(PT_TRACE_ME, 0, nullptr, 0);
+    ptrace(PT_TRACE_ME, 0, nullptr, 0);
 #else
-#error "no ptrace equivalent coded for this platform"
+    xbt_die("no ptrace equivalent coded for this platform, please don't use the liveness checker here.");
 #endif
-  xbt_assert(errno == 0 && raise(SIGSTOP) == 0, "Could not wait for the model-checker (errno = %d: %s)", errno,
-             strerror(errno));
+
+    xbt_assert(errno == 0 && raise(SIGSTOP) == 0, "Could not wait for the model-checker (errno = %d: %s)", errno,
+               strerror(errno));
+  }
 
   instance_->handle_messages();
   return instance_.get();
@@ -111,7 +114,7 @@ void AppSide::handle_simcall_execute(const s_mc_message_simcall_execute_t* messa
 
   // Finish the RPC from the server: return a serialized observer, to build a Transition on Checker side
   s_mc_message_simcall_execute_answer_t answer = {};
-  answer.type = MessageType::SIMCALL_EXECUTE_ANSWER;
+  answer.type                                  = MessageType::SIMCALL_EXECUTE_REPLY;
   std::stringstream stream;
   if (actor->simcall_.observer_ != nullptr) {
     actor->simcall_.observer_->serialize(stream);
@@ -147,13 +150,72 @@ void AppSide::handle_finalize(const s_mc_message_int_t* msg) const
   if (terminate_asap)
     ::_Exit(0);
 }
-void AppSide::handle_initial_addresses()
+void AppSide::handle_fork(const s_mc_message_int_t* msg)
+{
+  int status;
+  int pid;
+  /* Reap any zombie child, saving its status for later use in AppSide::handle_wait_child() */
+  while ((pid = waitpid(-1, &status, WNOHANG)) > 0)
+    child_statuses_[pid] = status;
+
+  pid = fork();
+  xbt_assert(pid >= 0, "Could not fork application sub-process: %s.", strerror(errno));
+
+  if (pid == 0) { // Child
+    int sock = socket(AF_UNIX,
+#ifdef __APPLE__
+                      SOCK_STREAM, /* Mac OSX does not have AF_UNIX + SOCK_SEQPACKET, even if that's faster*/
+#else
+                      SOCK_SEQPACKET,
+#endif
+                      0);
+
+    struct sockaddr_un addr = {};
+    addr.sun_family         = AF_UNIX;
+    snprintf(addr.sun_path, 64, "/tmp/simgrid-mc-%lu", static_cast<unsigned long>(msg->value));
+    auto addr_size = offsetof(struct sockaddr_un, sun_path) + strlen(addr.sun_path);
+
+    xbt_assert(connect(sock, (struct sockaddr*)&addr, addr_size) >= 0,
+               "Cannot connect to Checker on %s: %s.", addr.sun_path, strerror(errno));
+
+    channel_.reset_socket(sock);
+
+    s_mc_message_int_t answer = {};
+    answer.type               = MessageType::FORK_REPLY;
+    answer.value              = getpid();
+    xbt_assert(channel_.send(answer) == 0, "Could not send response to WAIT_CHILD_REPLY: %s", strerror(errno));
+  } else {
+    XBT_VERB("App %d forks subprocess %d.", getpid(), pid);
+  }
+}
+void AppSide::handle_wait_child(const s_mc_message_int_t* msg)
 {
-  this->need_memory_info_                       = true;
-  s_mc_message_initial_addresses_reply_t answer = {};
-  answer.type                                   = MessageType::INITIAL_ADDRESSES_REPLY;
-  answer.mmalloc_default_mdp                    = mmalloc_get_current_heap();
-  xbt_assert(channel_.send(answer) == 0, "Could not send response with initial addresses.");
+  int status;
+  errno = 0;
+  if (auto search = child_statuses_.find(msg->value); search != child_statuses_.end()) {
+    status = search->second;
+    child_statuses_.erase(search); // We only need this info once
+  } else {
+    waitpid(msg->value, &status, 0);
+  }
+  xbt_assert(errno == 0, "Cannot wait on behalf of the checker: %s.", strerror(errno));
+
+  s_mc_message_int_t answer = {};
+  answer.type               = MessageType::WAIT_CHILD_REPLY;
+  answer.value              = status;
+  xbt_assert(channel_.send(answer) == 0, "Could not send response to WAIT_CHILD: %s", strerror(errno));
+}
+void AppSide::handle_need_meminfo()
+{
+#if SIMGRID_HAVE_STATEFUL_MC
+  this->need_memory_info_                  = true;
+  s_mc_message_need_meminfo_reply_t answer = {};
+  answer.type                              = MessageType::NEED_MEMINFO_REPLY;
+  answer.mmalloc_default_mdp               = mmalloc_get_current_heap();
+  xbt_assert(channel_.send(answer) == 0, "Could not send response to the request for meminfo.");
+#else
+  xbt_die("SimGrid was compiled without MC suppport, so liveness and similar features are not available.");
+#endif
 }
 void AppSide::handle_actors_status() const
 {
@@ -161,13 +223,18 @@ void AppSide::handle_actors_status() const
   XBT_DEBUG("Serialize the actors to answer ACTORS_STATUS from the checker. %zu actors to go.", actor_list.size());
 
   std::vector<s_mc_message_actors_status_one_t> status;
-  for (auto const& [aid, actor] : actor_list)
-    status.emplace_back(s_mc_message_actors_status_one_t{aid, mc::actor_is_enabled(actor),
-                                                         actor->simcall_.observer_->get_max_consider()});
+  for (auto const& [aid, actor] : actor_list) {
+    s_mc_message_actors_status_one_t one = {};
+    one.type                             = MessageType::ACTORS_STATUS_REPLY_TRANSITION;
+    one.aid                              = aid;
+    one.enabled                          = mc::actor_is_enabled(actor);
+    one.max_considered                   = actor->simcall_.observer_->get_max_consider();
+    status.push_back(one);
+  }
 
   struct s_mc_message_actors_status_answer_t answer = {};
-  answer.type             = MessageType::ACTORS_STATUS_REPLY;
-  answer.count            = static_cast<int>(status.size());
+  answer.type                                       = MessageType::ACTORS_STATUS_REPLY_COUNT;
+  answer.count                                      = static_cast<int>(status.size());
 
   xbt_assert(channel_.send(answer) == 0, "Could not send ACTORS_STATUS_REPLY msg");
   if (answer.count > 0) {
@@ -187,6 +254,7 @@ void AppSide::handle_actors_status() const
     for (int times_considered = 0; times_considered < max_considered; times_considered++) {
       std::stringstream stream;
       s_mc_message_simcall_probe_one_t probe;
+      probe.type = MessageType::ACTORS_STATUS_REPLY_SIMCALL;
 
       if (actor->simcall_.observer_ != nullptr) {
         actor->simcall_.observer_->prepare(times_considered);
@@ -225,7 +293,7 @@ void AppSide::handle_actors_maxpid() const
 void AppSide::handle_messages()
 {
   while (true) { // Until we get a CONTINUE message
-    XBT_DEBUG("Waiting messages from model-checker");
+    XBT_DEBUG("Waiting messages from the model-checker");
 
     std::array<char, MC_MESSAGE_LENGTH> message_buffer;
     ssize_t received_size = channel_.receive(message_buffer.data(), message_buffer.size());
@@ -240,15 +308,15 @@ void AppSide::handle_messages()
 
     const s_mc_message_t* message = (s_mc_message_t*)message_buffer.data();
     switch (message->type) {
+      case MessageType::CONTINUE:
+        assert_msg_size("MESSAGE_CONTINUE", s_mc_message_t);
+        return;
+
       case MessageType::DEADLOCK_CHECK:
         assert_msg_size("DEADLOCK_CHECK", s_mc_message_t);
         handle_deadlock_check(message);
         break;
 
-      case MessageType::CONTINUE:
-        assert_msg_size("MESSAGE_CONTINUE", s_mc_message_t);
-        return;
-
       case MessageType::SIMCALL_EXECUTE:
         assert_msg_size("SIMCALL_EXECUTE", s_mc_message_simcall_execute_t);
         handle_simcall_execute((s_mc_message_simcall_execute_t*)message_buffer.data());
@@ -259,9 +327,19 @@ void AppSide::handle_messages()
         handle_finalize((s_mc_message_int_t*)message_buffer.data());
         break;
 
-      case MessageType::INITIAL_ADDRESSES:
-        assert_msg_size("INITIAL_ADDRESSES", s_mc_message_t);
-        handle_initial_addresses();
+      case MessageType::FORK:
+        assert_msg_size("FORK", s_mc_message_int_t);
+        handle_fork((s_mc_message_int_t*)message_buffer.data());
+        break;
+
+      case MessageType::WAIT_CHILD:
+        assert_msg_size("WAIT_CHILD", s_mc_message_int_t);
+        handle_wait_child((s_mc_message_int_t*)message_buffer.data());
+        break;
+
+      case MessageType::NEED_MEMINFO:
+        assert_msg_size("NEED_MEMINFO", s_mc_message_t);
+        handle_need_meminfo();
         break;
 
       case MessageType::ACTORS_STATUS:
@@ -308,11 +386,15 @@ void AppSide::ignore_memory(void* addr, std::size_t size) const
   if (not MC_is_active() || not need_memory_info_)
     return;
 
+#if SIMGRID_HAVE_STATEFUL_MC
   s_mc_message_ignore_memory_t message = {};
   message.type = MessageType::IGNORE_MEMORY;
   message.addr = (std::uintptr_t)addr;
   message.size = size;
   xbt_assert(channel_.send(message) == 0, "Could not send IGNORE_MEMORY message to model-checker");
+#else
+  xbt_die("Cannot really call ignore_heap() in non-SIMGRID_MC mode.");
+#endif
 }
 
 void AppSide::ignore_heap(void* address, std::size_t size) const
@@ -320,6 +402,7 @@ void AppSide::ignore_heap(void* address, std::size_t size) const
   if (not MC_is_active() || not need_memory_info_)
     return;
 
+#if SIMGRID_HAVE_STATEFUL_MC
   const s_xbt_mheap_t* heap = mmalloc_get_current_heap();
 
   s_mc_message_ignore_heap_t message = {};
@@ -336,6 +419,9 @@ void AppSide::ignore_heap(void* address, std::size_t size) const
   }
 
   xbt_assert(channel_.send(message) == 0, "Could not send ignored region to MCer");
+#else
+  xbt_die("Cannot really call ignore_heap() in non-SIMGRID_MC mode.");
+#endif
 }
 
 void AppSide::unignore_heap(void* address, std::size_t size) const
@@ -343,11 +429,15 @@ void AppSide::unignore_heap(void* address, std::size_t size) const
   if (not MC_is_active() || not need_memory_info_)
     return;
 
+#if SIMGRID_HAVE_STATEFUL_MC
   s_mc_message_ignore_memory_t message = {};
   message.type = MessageType::UNIGNORE_HEAP;
   message.addr = (std::uintptr_t)address;
   message.size = size;
   xbt_assert(channel_.send(message) == 0, "Could not send IGNORE_HEAP message to model-checker");
+#else
+  xbt_die("Cannot really call unignore_heap() in non-SIMGRID_MC mode.");
+#endif
 }
 
 void AppSide::declare_symbol(const char* name, int* value) const
@@ -357,6 +447,7 @@ void AppSide::declare_symbol(const char* name, int* value) const
     return;
   }
 
+#if SIMGRID_HAVE_STATEFUL_MC
   s_mc_message_register_symbol_t message = {};
   message.type = MessageType::REGISTER_SYMBOL;
   xbt_assert(strlen(name) + 1 <= message.name.size(), "Symbol is too long");
@@ -364,6 +455,9 @@ void AppSide::declare_symbol(const char* name, int* value) const
   message.callback = nullptr;
   message.data     = value;
   xbt_assert(channel_.send(message) == 0, "Could send REGISTER_SYMBOL message to model-checker");
+#else
+  xbt_die("Cannot really call declare_symbol() in non-SIMGRID_MC mode.");
+#endif
 }
 
 /** Register a stack in the model checker
@@ -372,11 +466,13 @@ void AppSide::declare_symbol(const char* name, int* value) const
  *  when we analyze/compare the content of the heap so it must be told where
  *  they are with this function.
  */
+#if HAVE_UCONTEXT_H /* Apple don't want us to use ucontexts */
 void AppSide::declare_stack(void* stack, size_t size, ucontext_t* context) const
 {
   if (not MC_is_active() || not need_memory_info_)
     return;
 
+#if SIMGRID_HAVE_STATEFUL_MC
   const s_xbt_mheap_t* heap = mmalloc_get_current_heap();
 
   s_stack_region_t region = {};
@@ -389,5 +485,10 @@ void AppSide::declare_stack(void* stack, size_t size, ucontext_t* context) const
   message.type         = MessageType::STACK_REGION;
   message.stack_region = region;
   xbt_assert(channel_.send(message) == 0, "Could not send STACK_REGION to model-checker");
+#else
+  xbt_die("Cannot really call declare_stack() in non-SIMGRID_MC mode.");
+#endif
 }
+#endif
+
 } // namespace simgrid::mc