Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Apply the default settings of 'smpi/buffering' too
[simgrid.git] / src / plugins / host_load.cpp
index 0ca6a98..f3f7e3c 100644 (file)
@@ -1,10 +1,15 @@
-/* Copyright (c) 2010-2018. The SimGrid Team. All rights reserved.          */
+/* Copyright (c) 2010-2019. The SimGrid Team. All rights reserved.          */
 
 /* This program is free software; you can redistribute it and/or modify it
  * under the terms of the license (GNU LGPL) which comes with this package. */
 
 #include "simgrid/plugins/load.h"
+#include "src/include/surf/surf.hpp"
+#include "src/kernel/activity/ExecImpl.hpp"
 #include "src/plugins/vm/VirtualMachineImpl.hpp"
+#include <simgrid/s4u.hpp>
+
+SIMGRID_REGISTER_PLUGIN(host_load, "Cpu load", &sg_host_load_plugin_init)
 
 /** @addtogroup plugin_load
 
@@ -17,105 +22,130 @@ XBT_LOG_NEW_DEFAULT_SUBCATEGORY(surf_plugin_load, surf, "Logging specific to the
 namespace simgrid {
 namespace plugin {
 
+static const double activity_uninitialized_remaining_cost = -1;
+
 class HostLoad {
 public:
   static simgrid::xbt::Extension<simgrid::s4u::Host, HostLoad> EXTENSION_ID;
 
-  explicit HostLoad(simgrid::s4u::Host* ptr);
-  ~HostLoad();
-
-  double getCurrentLoad();
-  double getComputedFlops();
-  double getAverageLoad();
-  double getIdleTime();
+  explicit HostLoad(simgrid::s4u::Host* ptr)
+      : host_(ptr)
+      , last_updated_(surf_get_clock())
+      , last_reset_(surf_get_clock())
+      , current_speed_(host_->get_speed())
+      , current_flops_(host_->pimpl_cpu->get_constraint()->get_usage())
+      , theor_max_flops_(0)
+  {
+  }
+  ~HostLoad() = default;
+  HostLoad() = delete;
+  explicit HostLoad(simgrid::s4u::Host& ptr) = delete;
+  explicit HostLoad(simgrid::s4u::Host&& ptr) = delete;
+
+  double get_current_load();
+  /** Get the the average load since last reset(), as a ratio
+   *
+   * That's the ratio (amount of flops that were actually computed) / (amount of flops that could have been computed at full speed)
+   */
+  double get_average_load() { update(); return (theor_max_flops_ == 0) ? 0 : computed_flops_ / theor_max_flops_; };
+  /** Amount of flops computed since last reset() */
+  double get_computed_flops() { update(); return computed_flops_; }
+  /** Return idle time since last reset() */
+  double get_idle_time() { update(); return idle_time_; }
+  /** Return idle time over the whole simulation */
+  double get_total_idle_time() { update(); return total_idle_time_; }
   void update();
+  void add_activity(simgrid::kernel::activity::ExecImplPtr activity);
   void reset();
 
 private:
-  simgrid::s4u::Host* host = nullptr;
-  double last_updated      = 0;
-  double last_reset        = 0;
-  double current_speed     = 0;
-  double current_flops     = 0;
-  double computed_flops    = 0;
-  double idle_time         = 0;
-  double theor_max_flops   = 0;
-  bool was_prev_idle       = true; /* A host is idle at the beginning */
+  simgrid::s4u::Host* host_ = nullptr;
+  /* Stores all currently ongoing activities (computations) on this machine */
+  std::map<simgrid::kernel::activity::ExecImplPtr, /* cost still remaining*/double> current_activities;
+  double last_updated_      = 0;
+  double last_reset_        = 0;
+  /**
+   * current_speed each core is running at; we need to store this as the speed
+   * will already have changed once we get notified
+   */
+  double current_speed_     = 0;
+  /**
+   * How many flops are currently used by all the processes running on this
+   * host?
+   */
+  double current_flops_     = 0;
+  double computed_flops_    = 0;
+  double idle_time_         = 0;
+  double total_idle_time_   = 0; /* This gets never reset */
+  double theor_max_flops_   = 0;
 };
 
 simgrid::xbt::Extension<simgrid::s4u::Host, HostLoad> HostLoad::EXTENSION_ID;
 
-HostLoad::HostLoad(simgrid::s4u::Host* ptr)
-    : host(ptr)
-    , last_updated(surf_get_clock())
-    , last_reset(surf_get_clock())
-    , current_speed(host->getSpeed())
-    , current_flops(host->pimpl_cpu->get_constraint()->get_usage())
-    , theor_max_flops(0)
-    , was_prev_idle(current_flops == 0)
+void HostLoad::add_activity(simgrid::kernel::activity::ExecImplPtr activity)
 {
+  current_activities.insert({activity, activity_uninitialized_remaining_cost});
 }
 
-HostLoad::~HostLoad() = default;
-
 void HostLoad::update()
 {
   double now = surf_get_clock();
 
-  /* Current flop per second computed by the cpu; current_flops = k * pstate_speed_in_flops, k \in {0, 1, ..., cores}
-   * number of active cores */
-  current_flops = host->pimpl_cpu->get_constraint()->get_usage();
+  // This loop updates the flops that the host executed for the ongoing computations
+  auto iter = begin(current_activities);
+  while (iter != end(current_activities)) {
+    auto& activity                         = iter->first;  // Just an alias
+    auto& remaining_cost_after_last_update = iter->second; // Just an alias
+    auto& action                           = activity->surf_action_;
+    auto current_iter                      = iter;
+    ++iter;
+
+    if (action != nullptr && action->get_finish_time() != now && activity->state_ == e_smx_state_t::SIMIX_RUNNING) {
+      if (remaining_cost_after_last_update == activity_uninitialized_remaining_cost) {
+        remaining_cost_after_last_update = action->get_cost();
+      }
+      double computed_flops_since_last_update = remaining_cost_after_last_update - /*remaining now*/activity->get_remaining();
+      computed_flops_                        += computed_flops_since_last_update;
+      remaining_cost_after_last_update        = activity->get_remaining();
+    }
+    else if (activity->state_ == e_smx_state_t::SIMIX_DONE) {
+      computed_flops_ += remaining_cost_after_last_update;
+      current_activities.erase(current_iter);
+    }
+  }
 
-  /* flops == pstate_speed * cores_being_currently_used */
-  computed_flops += (now - last_updated) * current_flops;
+  /* Current flop per second computed by the cpu; current_flops = k * pstate_speed_in_flops, k @in {0, 1, ..., cores-1}
+   * designates number of active cores; will be 0 if CPU is currently idle */
+  current_flops_ = host_->pimpl_cpu->get_constraint()->get_usage();
 
-  if (was_prev_idle) {
-    idle_time += (now - last_updated);
+  if (current_flops_ == 0) {
+    idle_time_ += (now - last_updated_);
+    total_idle_time_ += (now - last_updated_);
+    XBT_DEBUG("[%s]: Currently idle -> Added %f seconds to idle time (totaling %fs)", host_->get_cname(), (now - last_updated_), idle_time_);
   }
 
-  theor_max_flops += current_speed * host->get_core_count() * (now - last_updated);
-  current_speed = host->getSpeed();
-  last_updated  = now;
-  was_prev_idle = (current_flops == 0);
+  theor_max_flops_ += current_speed_ * host_->get_core_count() * (now - last_updated_);
+  current_speed_ = host_->get_speed();
+  last_updated_  = now;
 }
 
-/**
- * WARNING: This function does not guarantee that you have the real load at any time
- * imagine all actions on your CPU terminate at time t. Your load is then 0. Then
- * you query the load (still 0) and then another action starts (still at time t!).
- * This means that the load was never really 0 (because the time didn't advance) but
- * it will still be reported as 0.
+/** @brief Get the current load as a ratio = achieved_flops / (core_current_speed * core_amount)
  *
- * So, use at your own risk.
- */
-double HostLoad::getCurrentLoad()
-{
-  // We don't need to call update() here because it is called everytime an
-  // action terminates or starts
-  // FIXME: Can this happen at the same time? stop -> call to getCurrentLoad, load = 0 -> next action starts?
-  return current_flops / static_cast<double>(host->getSpeed() * host->get_core_count());
-}
-
-/**
- * Return idle time since last reset
+ * You may also want to check simgrid::s4u::Host::get_load() that simply returns
+ * the achieved flop rate (in flops per seconds), ie the load that a new action arriving on
+ * that host would suffer.
+ *
+ * Please note that this function only returns an instantaneous load that may be deceiving
+ * in some scenarios. For example, imagine that an activity terminates at time t, and that
+ * another activity is created on the same host at the exact same timestamp. The load was
+ * never 0 on the simulated machine since the time did not advance between the two events.
+ * But still, if you call this function between the two events (in the simulator course), it
+ * returns 0 although there is no time (in the simulated time) where this value is valid.
  */
-double HostLoad::getIdleTime()
-{
-  return idle_time;
-}
-
-double HostLoad::getAverageLoad()
-{
-  if (theor_max_flops == 0) { // Avoid division by 0
-    return 0;
-  }
-
-  return computed_flops / theor_max_flops;
-}
-
-double HostLoad::getComputedFlops()
+double HostLoad::get_current_load()
 {
-  return computed_flops;
+  // We don't need to call update() here because it is called every time an action terminates or starts
+  return current_flops_ / (host_->get_speed() * host_->get_core_count());
 }
 
 /*
@@ -123,14 +153,13 @@ double HostLoad::getComputedFlops()
  */
 void HostLoad::reset()
 {
-  last_updated    = surf_get_clock();
-  last_reset      = surf_get_clock();
-  idle_time       = 0;
-  computed_flops  = 0;
-  theor_max_flops = 0;
-  current_flops   = host->pimpl_cpu->get_constraint()->get_usage();
-  current_speed   = host->getSpeed();
-  was_prev_idle   = (current_flops == 0);
+  last_updated_    = surf_get_clock();
+  last_reset_      = surf_get_clock();
+  idle_time_       = 0;
+  computed_flops_  = 0;
+  theor_max_flops_ = 0;
+  current_flops_   = host_->pimpl_cpu->get_constraint()->get_usage();
+  current_speed_   = host_->get_speed();
 }
 } // namespace plugin
 } // namespace simgrid
@@ -140,34 +169,18 @@ using simgrid::plugin::HostLoad;
 /* **************************** events  callback *************************** */
 /* This callback is fired either when the host changes its state (on/off) or its speed
  * (because the user changed the pstate, or because of external trace events) */
-static void onHostChange(simgrid::s4u::Host& host)
+static void on_host_change(simgrid::s4u::Host const& host)
 {
-  if (dynamic_cast<simgrid::s4u::VirtualMachine*>(&host)) // Ignore virtual machines
+  if (dynamic_cast<simgrid::s4u::VirtualMachine const*>(&host)) // Ignore virtual machines
     return;
 
   host.extension<HostLoad>()->update();
 }
 
-/* This callback is called when an action (computation, idle, ...) terminates */
-static void onActionStateChange(simgrid::surf::CpuAction* action, simgrid::kernel::resource::Action::State /*previous*/)
-{
-  for (simgrid::surf::Cpu* const& cpu : action->cpus()) {
-    simgrid::s4u::Host* host = cpu->get_host();
-
-    if (dynamic_cast<simgrid::s4u::VirtualMachine*>(host)) // Ignore virtual machines
-      return;
-
-    if (host != nullptr) {
-      host->extension<HostLoad>()->update();
-    }
-  }
-}
-
 /* **************************** Public interface *************************** */
 
-/** \ingroup plugin_load
- * \brief Initializes the HostLoad plugin
- * \details The HostLoad plugin provides an API to get the current load of each host.
+/** @brief Initializes the HostLoad plugin
+ * @details The HostLoad plugin provides an API to get the current load of each host.
  */
 void sg_host_load_plugin_init()
 {
@@ -176,6 +189,14 @@ void sg_host_load_plugin_init()
 
   HostLoad::EXTENSION_ID = simgrid::s4u::Host::extension_create<HostLoad>();
 
+  if (simgrid::s4u::Engine::is_initialized()) { // If not yet initialized, this would create a new instance
+                                                // which would cause seg faults...
+    simgrid::s4u::Engine* e = simgrid::s4u::Engine::get_instance();
+    for (auto& host : e->get_all_hosts()) {
+      host->extension_set(new HostLoad(host));
+    }
+  }
+
   /* When attaching a callback into a signal, you can use a lambda as follows, or a regular function as done below */
 
   simgrid::s4u::Host::on_creation.connect([](simgrid::s4u::Host& host) {
@@ -184,21 +205,49 @@ void sg_host_load_plugin_init()
     host.extension_set(new HostLoad(&host));
   });
 
-  simgrid::surf::CpuAction::onStateChange.connect(&onActionStateChange);
-  simgrid::s4u::Host::on_state_change.connect(&onHostChange);
-  simgrid::s4u::Host::on_speed_change.connect(&onHostChange);
+  simgrid::kernel::activity::ExecImpl::on_creation.connect([](simgrid::kernel::activity::ExecImpl& activity) {
+    if (activity.get_host_number() == 1) { // We only run on one host
+      simgrid::s4u::Host* host         = activity.get_host();
+      simgrid::s4u::VirtualMachine* vm = dynamic_cast<simgrid::s4u::VirtualMachine*>(host);
+      if (vm != nullptr)
+        host = vm->get_pm();
+      xbt_assert(host != nullptr);
+      host->extension<HostLoad>()->add_activity(&activity);
+      host->extension<HostLoad>()->update(); // If the system was idle until now, we need to update *before*
+                                             // this computation starts running so we can keep track of the
+                                             // idle time. (Communication operations don't trigger this hook!)
+    }
+    else { // This runs on multiple hosts
+      XBT_DEBUG("HostLoad plugin currently does not support executions on several hosts");
+    }
+  });
+  simgrid::kernel::activity::ExecImpl::on_completion.connect([](simgrid::kernel::activity::ExecImpl const& activity) {
+    if (activity.get_host_number() == 1) { // We only run on one host
+      simgrid::s4u::Host* host         = activity.get_host();
+      simgrid::s4u::VirtualMachine* vm = dynamic_cast<simgrid::s4u::VirtualMachine*>(host);
+      if (vm != nullptr)
+        host = vm->get_pm();
+      xbt_assert(host != nullptr);
+      host->extension<HostLoad>()->update();
+    }
+    else { // This runs on multiple hosts
+      XBT_DEBUG("HostLoad plugin currently does not support executions on several hosts");
+    }
+  });
+  simgrid::s4u::Host::on_state_change.connect(&on_host_change);
+  simgrid::s4u::Host::on_speed_change.connect(&on_host_change);
 }
 
-/** @brief Returns the current load of the host passed as argument
+/** @brief Returns the current load of that host, as a ratio = achieved_flops / (core_current_speed * core_amount)
  *
- *  See also @ref plugin_load
+ *  See simgrid::plugin::HostLoad::get_current_load() for the full documentation.
  */
 double sg_host_get_current_load(sg_host_t host)
 {
   xbt_assert(HostLoad::EXTENSION_ID.valid(),
              "The Load plugin is not active. Please call sg_host_load_plugin_init() during initialization.");
 
-  return host->extension<HostLoad>()->getCurrentLoad();
+  return host->extension<HostLoad>()->get_current_load();
 }
 
 /** @brief Returns the current load of the host passed as argument
@@ -210,7 +259,7 @@ double sg_host_get_avg_load(sg_host_t host)
   xbt_assert(HostLoad::EXTENSION_ID.valid(),
              "The Load plugin is not active. Please call sg_host_load_plugin_init() during initialization.");
 
-  return host->extension<HostLoad>()->getAverageLoad();
+  return host->extension<HostLoad>()->get_average_load();
 }
 
 /** @brief Returns the time this host was idle since the last reset
@@ -222,7 +271,15 @@ double sg_host_get_idle_time(sg_host_t host)
   xbt_assert(HostLoad::EXTENSION_ID.valid(),
              "The Load plugin is not active. Please call sg_host_load_plugin_init() during initialization.");
 
-  return host->extension<HostLoad>()->getIdleTime();
+  return host->extension<HostLoad>()->get_idle_time();
+}
+
+double sg_host_get_total_idle_time(sg_host_t host)
+{
+  xbt_assert(HostLoad::EXTENSION_ID.valid(),
+             "The Load plugin is not active. Please call sg_host_load_plugin_init() during initialization.");
+
+  return host->extension<HostLoad>()->get_total_idle_time();
 }
 
 double sg_host_get_computed_flops(sg_host_t host)
@@ -230,7 +287,7 @@ double sg_host_get_computed_flops(sg_host_t host)
   xbt_assert(HostLoad::EXTENSION_ID.valid(),
              "The Load plugin is not active. Please call sg_host_load_plugin_init() during initialization.");
 
-  return host->extension<HostLoad>()->getComputedFlops();
+  return host->extension<HostLoad>()->get_computed_flops();
 }
 
 void sg_host_load_reset(sg_host_t host)