Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Add parameter simix/breakpoint. Fixes #143.
[simgrid.git] / src / simix / smx_global.cpp
index 6452ba7..683ed17 100644 (file)
@@ -1,38 +1,22 @@
-/* Copyright (c) 2007-2017. The SimGrid Team. All rights reserved.          */
+/* Copyright (c) 2007-2018. The SimGrid Team. All rights reserved.          */
 
 /* This program is free software; you can redistribute it and/or modify it
  * under the terms of the license (GNU LGPL) which comes with this package. */
 
-#include <functional>
-#include <memory>
-
-#include "src/internal_config.h"
-#include <csignal> /* Signal handling */
-#include <cstdlib>
-
-#include <xbt/algorithm.hpp>
-#include <xbt/functional.hpp>
-
+#include "mc/mc.h"
 #include "simgrid/s4u/Engine.hpp"
 #include "simgrid/s4u/Host.hpp"
-
+#include "simgrid/sg_config.hpp"
 #include "smx_private.hpp"
-#include "src/surf/surf_interface.hpp"
-#include "src/surf/xml/platf.hpp"
-#include "xbt/ex.h" /* ex_backtrace_display */
-
-#include "mc/mc.h"
-#include "simgrid/sg_config.h"
-#include "src/mc/mc_replay.h"
-#include "src/surf/StorageImpl.hpp"
-
-#include "src/smpi/include/smpi_process.hpp"
-
-#include "src/kernel/activity/CommImpl.hpp"
-#include "src/kernel/activity/ExecImpl.hpp"
 #include "src/kernel/activity/SleepImpl.hpp"
 #include "src/kernel/activity/SynchroIo.hpp"
 #include "src/kernel/activity/SynchroRaw.hpp"
+#include "src/mc/mc_record.hpp"
+#include "src/mc/mc_replay.hpp"
+#include "src/simix/smx_host_private.hpp"
+#include "src/smpi/include/smpi_process.hpp"
+#include "src/surf/StorageImpl.hpp"
+#include "src/surf/xml/platf.hpp"
 
 #if SIMGRID_HAVE_MC
 #include "src/mc/mc_private.hpp"
 #include "src/mc/remote/mc_protocol.h"
 #endif
 
-#include "src/mc/mc_record.hpp"
-
 #if HAVE_SMPI
 #include "src/smpi/include/private.hpp"
 #endif
 
+#include <boost/heap/fibonacci_heap.hpp>
+
 XBT_LOG_NEW_CATEGORY(simix, "All SIMIX categories");
 XBT_LOG_NEW_DEFAULT_SUBCATEGORY(simix_kernel, simix, "Logging specific to SIMIX (kernel)");
 
 std::unique_ptr<simgrid::simix::Global> simix_global;
-static xbt_heap_t simix_timers = nullptr;
+
+namespace {
+typedef std::pair<double, smx_timer_t> TimerQelt;
+boost::heap::fibonacci_heap<TimerQelt, boost::heap::compare<simgrid::xbt::HeapComparator<TimerQelt>>> simix_timers;
+}
 
 /** @brief Timer datatype */
 class s_smx_timer_t {
   double date = 0.0;
-  s_smx_timer_t() = default;
 
 public:
+  decltype(simix_timers)::handle_type handle_;
   simgrid::xbt::Task<void()> callback;
   double getDate() { return date; }
   s_smx_timer_t(double date, simgrid::xbt::Task<void()> callback) : date(date), callback(std::move(callback)) {}
 };
 
-void (*SMPI_switch_data_segment)(int) = nullptr;
+void (*SMPI_switch_data_segment)(simgrid::s4u::ActorPtr) = nullptr;
 
-int _sg_do_verbose_exit = 1;
+bool _sg_do_verbose_exit = true;
 static void inthandler(int)
 {
   if ( _sg_do_verbose_exit ) {
@@ -98,7 +86,7 @@ static void segvhandler(int signum, siginfo_t* siginfo, void* /*context*/)
   } else  if (siginfo->si_signo == SIGSEGV) {
     fprintf(stderr, "Segmentation fault.\n");
 #if HAVE_SMPI
-    if (smpi_enabled() && smpi_privatize_global_variables == SMPI_PRIVATIZE_NONE) {
+    if (smpi_enabled() && smpi_privatize_global_variables == SmpiPrivStrategies::None) {
 #if HAVE_PRIVATIZATION
       fprintf(stderr, "Try to enable SMPI variable privatization with --cfg=smpi/privatization:yes.\n");
 #else
@@ -156,7 +144,7 @@ static void install_segvhandler()
 /********************************* SIMIX **************************************/
 double SIMIX_timer_next()
 {
-  return xbt_heap_size(simix_timers) > 0 ? xbt_heap_maxkey(simix_timers) : -1.0;
+  return simix_timers.empty() ? -1.0 : simix_timers.top().first;
 }
 
 static void kill_process(smx_actor_t process)
@@ -164,21 +152,18 @@ static void kill_process(smx_actor_t process)
   SIMIX_process_kill(process, nullptr);
 }
 
-static std::function<void()> maestro_code;
 
 namespace simgrid {
 namespace simix {
 
 simgrid::xbt::signal<void()> onDeadlock;
 
-XBT_PUBLIC(void) set_maestro(std::function<void()> code)
-{
-  maestro_code = std::move(code);
-}
-
+simgrid::config::Flag<double> breakpoint{"simix/breakpoint",
+                                         "When non-negative, raise a SIGTRAP after given (simulated) time", -1.0};
 }
 }
 
+static std::function<void()> maestro_code;
 void SIMIX_set_maestro(void (*code)(void*), void* data)
 {
 #ifdef _WIN32
@@ -190,9 +175,6 @@ void SIMIX_set_maestro(void (*code)(void*), void* data)
 /**
  * \ingroup SIMIX_API
  * \brief Initialize SIMIX internal data.
- *
- * \param argc Argc
- * \param argv Argv
  */
 void SIMIX_global_init(int *argc, char **argv)
 {
@@ -204,9 +186,6 @@ void SIMIX_global_init(int *argc, char **argv)
 
   if (not simix_global) {
     simix_global = std::unique_ptr<simgrid::simix::Global>(new simgrid::simix::Global());
-
-    simgrid::simix::ActorImpl proc;
-    simix_global->process_to_destroy = xbt_swag_new(xbt_swag_offset(proc, destroy_hookup));
     simix_global->maestro_process = nullptr;
     simix_global->create_process_function = &SIMIX_process_create;
     simix_global->kill_process_function = &kill_process;
@@ -218,7 +197,7 @@ void SIMIX_global_init(int *argc, char **argv)
 
     // Either create a new context with maestro or create
     // a context object with the current context mestro):
-    simgrid::simix::create_maestro(maestro_code);
+    simgrid::kernel::actor::create_maestro(maestro_code);
 
     /* Prepare to display some more info when dying on Ctrl-C pressing */
     signal(SIGINT, inthandler);
@@ -235,17 +214,12 @@ void SIMIX_global_init(int *argc, char **argv)
     });
 
     simgrid::surf::storageCreatedCallbacks.connect([](simgrid::surf::StorageImpl* storage) {
-      sg_storage_t s = simgrid::s4u::Storage::byName(storage->getCname());
-      xbt_assert(s != nullptr, "Storage not found for name %s", storage->getCname());
+      sg_storage_t s = simgrid::s4u::Storage::byName(storage->get_cname());
+      xbt_assert(s != nullptr, "Storage not found for name %s", storage->get_cname());
     });
   }
 
-  if (not simix_timers)
-    simix_timers = xbt_heap_new(8, [](void* p) {
-      delete static_cast<smx_timer_t>(p);
-    });
-
-  if (xbt_cfg_get_boolean("clean-atexit"))
+  if (simgrid::config::get_value<bool>("clean-atexit"))
     atexit(SIMIX_clean);
 
   if (_sg_cfg_exit_asap)
@@ -285,26 +259,28 @@ void SIMIX_clean()
 #endif
 
   /* Kill all processes (but maestro) */
-  SIMIX_process_killall(simix_global->maestro_process, 1);
+  SIMIX_process_killall(simix_global->maestro_process);
   SIMIX_context_runall();
   SIMIX_process_empty_trash();
 
   /* Exit the SIMIX network module */
   SIMIX_mailbox_exit();
 
-  xbt_heap_free(simix_timers);
-  simix_timers = nullptr;
+  while (not simix_timers.empty()) {
+    delete simix_timers.top().second;
+    simix_timers.pop();
+  }
   /* Free the remaining data structures */
   simix_global->process_to_run.clear();
   simix_global->process_that_ran.clear();
-  xbt_swag_free(simix_global->process_to_destroy);
+  simix_global->process_to_destroy.clear();
   simix_global->process_list.clear();
-  simix_global->process_to_destroy = nullptr;
 
   xbt_os_mutex_destroy(simix_global->mutex);
   simix_global->mutex = nullptr;
 #if SIMGRID_HAVE_MC
   xbt_dynar_free(&simix_global->actors_vector);
+  xbt_dynar_free(&simix_global->dead_actors_vector);
 #endif
 
   /* Let's free maestro now */
@@ -340,21 +316,21 @@ double SIMIX_get_clock()
 /** Wake up all processes waiting for a Surf action to finish */
 static void SIMIX_wake_processes()
 {
-  surf_action_t action;
-
   for (auto const& model : *all_existing_models) {
+    simgrid::kernel::resource::Action* action;
+
     XBT_DEBUG("Handling the processes whose action failed (if any)");
     while ((action = surf_model_extract_failed_action_set(model))) {
       XBT_DEBUG("   Handling Action %p",action);
-      SIMIX_simcall_exit(static_cast<simgrid::kernel::activity::ActivityImpl*>(action->getData()));
+      SIMIX_simcall_exit(static_cast<simgrid::kernel::activity::ActivityImpl*>(action->get_data()));
     }
     XBT_DEBUG("Handling the processes whose action terminated normally (if any)");
     while ((action = surf_model_extract_done_action_set(model))) {
       XBT_DEBUG("   Handling Action %p",action);
-      if (action->getData() == nullptr)
+      if (action->get_data() == nullptr)
         XBT_DEBUG("probably vcpu's action %p, skip", action);
       else
-        SIMIX_simcall_exit(static_cast<simgrid::kernel::activity::ActivityImpl*>(action->getData()));
+        SIMIX_simcall_exit(static_cast<simgrid::kernel::activity::ActivityImpl*>(action->get_data()));
     }
   }
 }
@@ -363,18 +339,18 @@ static void SIMIX_wake_processes()
 static bool SIMIX_execute_timers()
 {
   bool result = false;
-  while (xbt_heap_size(simix_timers) > 0 && SIMIX_get_clock() >= SIMIX_timer_next()) {
+  while (not simix_timers.empty() && SIMIX_get_clock() >= simix_timers.top().first) {
     result = true;
-     //FIXME: make the timers being real callbacks
-     // (i.e. provide dispatchers that read and expand the args)
-     smx_timer_t timer = (smx_timer_t) xbt_heap_pop(simix_timers);
-     try {
-       timer->callback();
-     }
-     catch(...) {
-       xbt_die("Exception throwed ouf of timer callback");
-     }
-     delete timer;
+    // FIXME: make the timers being real callbacks
+    // (i.e. provide dispatchers that read and expand the args)
+    smx_timer_t timer = simix_timers.top().second;
+    simix_timers.pop();
+    try {
+      timer->callback();
+    } catch (...) {
+      xbt_die("Exception thrown ouf of timer callback");
+    }
+    delete timer;
   }
   return result;
 }
@@ -421,6 +397,12 @@ void SIMIX_run()
   do {
     XBT_DEBUG("New Schedule Round; size(queue)=%zu", simix_global->process_to_run.size());
 
+    if (simgrid::simix::breakpoint >= 0.0 && time >= simgrid::simix::breakpoint) {
+      XBT_DEBUG("Breakpoint reached (%g)", simgrid::simix::breakpoint.get());
+      simgrid::simix::breakpoint = -1.0;
+      raise(SIGTRAP);
+    }
+
     SIMIX_execute_tasks();
 
     while (not simix_global->process_to_run.empty()) {
@@ -435,13 +417,15 @@ void SIMIX_run()
 
       /* Here, the order is ok because:
        *
-       *   Short proof: only maestro adds stuff to the process_to_run array, so the execution order of user contexts do not impact its order.
+       *   Short proof: only maestro adds stuff to the process_to_run array, so the execution order of user contexts do
+       *   not impact its order.
        *
        *   Long proof: processes remain sorted through an arbitrary (implicit, complex but fixed) order in all cases.
        *
        *   - if there is no kill during the simulation, processes remain sorted according by their PID.
-       *     rational: This can be proved inductively.
-       *        Assume that process_to_run is sorted at a beginning of one round (it is at round 0: the deployment file is parsed linearly).
+       *     Rationale: This can be proved inductively.
+       *        Assume that process_to_run is sorted at a beginning of one round (it is at round 0: the deployment file
+       *        is parsed linearly).
        *        Let's show that it is still so at the end of this round.
        *        - if a process is added when being created, that's from maestro. It can be either at startup
        *          time (and then in PID order), or in response to a process_create simcall. Since simcalls are handled
@@ -450,37 +434,42 @@ void SIMIX_run()
        *        - If a process gets added to process_to_run because one of their blocking action constituting the meat
        *          of a simcall terminates, we're still good. Proof:
        *          - You are added from SIMIX_simcall_answer() only. When this function is called depends on the resource
-       *            kind (network, cpu, disk, whatever), but the same arguments hold. Let's take communications as an example.
+       *            kind (network, cpu, disk, whatever), but the same arguments hold. Let's take communications as an
+       *            example.
        *          - For communications, this function is called from SIMIX_comm_finish().
        *            This function itself don't mess with the order since simcalls are handled in FIFO order.
        *            The function is called:
        *            - before the comm starts (invalid parameters, or resource already dead or whatever).
        *              The order then trivial holds since maestro didn't interrupt its handling of the simcall yet
-       *            - because the communication failed or were canceled after startup. In this case, it's called from the function
-       *              we are in, by the chunk:
+       *            - because the communication failed or were canceled after startup. In this case, it's called from
+       *              the function we are in, by the chunk:
        *                       set = model->states.failed_action_set;
-       *                       while ((synchro = xbt_swag_extract(set)))
+       *                       while ((synchro = extract(set)))
        *                          SIMIX_simcall_post((smx_synchro_t) synchro->data);
        *              This order is also fixed because it depends of the order in which the surf actions were
        *              added to the system, and only maestro can add stuff this way, through simcalls.
        *              We thus use the inductive hypothesis once again to conclude that the order in which synchros are
-       *              poped out of the swag does not depend on the user code's execution order.
+       *              poped out of the set does not depend on the user code's execution order.
        *            - because the communication terminated. In this case, synchros are served in the order given by
        *                       set = model->states.done_action_set;
-       *                       while ((synchro = xbt_swag_extract(set)))
+       *                       while ((synchro = extract(set)))
        *                          SIMIX_simcall_post((smx_synchro_t) synchro->data);
        *              and the argument is very similar to the previous one.
-       *            So, in any case, the orders of calls to SIMIX_comm_finish() do not depend on the order in which user processes are executed.
-       *          So, in any cases, the orders of processes within process_to_run do not depend on the order in which user processes were executed previously.
+       *            So, in any case, the orders of calls to SIMIX_comm_finish() do not depend on the order in which user
+       *            processes are executed.
+       *          So, in any cases, the orders of processes within process_to_run do not depend on the order in which
+       *          user processes were executed previously.
        *     So, if there is no killing in the simulation, the simulation reproducibility is not jeopardized.
        *   - If there is some process killings, the order is changed by this decision that comes from user-land
-       *     But this decision may not have been motivated by a situation that were different because the simulation is not reproducible.
+       *     But this decision may not have been motivated by a situation that were different because the simulation is
+       *     not reproducible.
        *     So, even the order change induced by the process killing is perfectly reproducible.
        *
        *   So science works, bitches [http://xkcd.com/54/].
        *
-       *   We could sort the process_that_ran array completely so that we can describe the order in which simcalls are handled
-       *   (like "according to the PID of issuer"), but it's not mandatory (order is fixed already even if unfriendly).
+       *   We could sort the process_that_ran array completely so that we can describe the order in which simcalls are
+       *   handled (like "according to the PID of issuer"), but it's not mandatory (order is fixed already even if
+       *   unfriendly).
        *   That would thus be a pure waste of time.
        */
 
@@ -498,7 +487,7 @@ void SIMIX_run()
       /* If only daemon processes remain, cancel their actions, mark them to die and reschedule them */
       if (simix_global->process_list.size() == simix_global->daemons.size())
         for (auto const& dmon : simix_global->daemons) {
-          XBT_DEBUG("Kill %s", dmon->getCname());
+          XBT_DEBUG("Kill %s", dmon->get_cname());
           SIMIX_process_kill(dmon, simix_global->maestro_process);
         }
     }
@@ -525,7 +514,7 @@ void SIMIX_run()
 
     /* Autorestart all process */
     for (auto const& host : host_that_restart) {
-      XBT_INFO("Restart processes on host %s", host->getCname());
+      XBT_INFO("Restart processes on host %s", host->get_cname());
       SIMIX_host_autorestart(host);
     }
     host_that_restart.clear();
@@ -545,8 +534,14 @@ void SIMIX_run()
 
     TRACE_end();
 
-    XBT_CRITICAL("Oops ! Deadlock or code not perfectly clean.");
+    if (simix_global->process_list.size() <= simix_global->daemons.size()) {
+      XBT_CRITICAL("Oops! Daemon actors cannot do any blocking activity (communications, synchronization, etc) "
+                   "once the simulation is over. Please fix your on_exit() functions.");
+    } else {
+      XBT_CRITICAL("Oops! Deadlock or code not perfectly clean.");
+    }
     SIMIX_display_process_status();
+    simgrid::s4u::onDeadlock();
     xbt_abort();
   }
   simgrid::s4u::onSimulationEnd();
@@ -563,21 +558,22 @@ void SIMIX_run()
  */
 smx_timer_t SIMIX_timer_set(double date, void (*callback)(void*), void *arg)
 {
-  smx_timer_t timer = new s_smx_timer_t(date, [callback, arg]() { callback(arg); });
-  xbt_heap_push(simix_timers, timer, date);
+  smx_timer_t timer = new s_smx_timer_t(date, simgrid::xbt::makeTask([callback, arg]() { callback(arg); }));
+  timer->handle_    = simix_timers.emplace(std::make_pair(date, timer));
   return timer;
 }
 
 smx_timer_t SIMIX_timer_set(double date, simgrid::xbt::Task<void()> callback)
 {
   smx_timer_t timer = new s_smx_timer_t(date, std::move(callback));
-  xbt_heap_push(simix_timers, timer, date);
+  timer->handle_    = simix_timers.emplace(std::make_pair(date, timer));
   return timer;
 }
 
 /** @brief cancels a timer that was added earlier */
 void SIMIX_timer_remove(smx_timer_t timer) {
-  delete static_cast<smx_timer_t>(xbt_heap_rm_elm(simix_timers, timer, timer->getDate()));
+  simix_timers.erase(timer->handle_);
+  delete timer;
 }
 
 /** @brief Returns the date at which the timer will trigger (or 0 if nullptr timer) */
@@ -653,12 +649,12 @@ void SIMIX_display_process_status()
       if (boost::dynamic_pointer_cast<simgrid::kernel::activity::IoImpl>(process->waiting_synchro) != nullptr)
         synchro_description = "I/O";
 
-      XBT_INFO("Process %lu (%s@%s): waiting for %s synchro %p (%s) in state %d to finish", process->pid,
-               process->getCname(), process->host->getCname(), synchro_description, process->waiting_synchro.get(),
+      XBT_INFO("Process %ld (%s@%s): waiting for %s synchro %p (%s) in state %d to finish", process->pid,
+               process->get_cname(), process->host->get_cname(), synchro_description, process->waiting_synchro.get(),
                process->waiting_synchro->name.c_str(), (int)process->waiting_synchro->state);
     }
     else {
-      XBT_INFO("Process %lu (%s@%s)", process->pid, process->getCname(), process->host->getCname());
+      XBT_INFO("Process %ld (%s@%s)", process->pid, process->get_cname(), process->host->get_cname());
     }
   }
 }