Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
6334dddffe73e5a2029c666dd3aa105607d437ee
[simgrid.git] / src / plugins / host_energy.cpp
1 /* Copyright (c) 2010-2018. The SimGrid Team. All rights reserved.          */
2
3 /* This program is free software; you can redistribute it and/or modify it
4  * under the terms of the license (GNU LGPL) which comes with this package. */
5
6 #include "simgrid/plugins/energy.h"
7 #include "simgrid/plugins/load.h"
8 #include "simgrid/s4u/Engine.hpp"
9 #include "src/include/surf/surf.hpp"
10 #include "src/plugins/vm/VirtualMachineImpl.hpp"
11 #include "src/surf/cpu_interface.hpp"
12
13 #include <boost/algorithm/string/classification.hpp>
14 #include <boost/algorithm/string/split.hpp>
15
16 SIMGRID_REGISTER_PLUGIN(host_energy, "Cpu energy consumption.", &sg_host_energy_plugin_init)
17
18 /** @addtogroup plugin_energy
19
20 This is the energy plugin, enabling to account not only for computation time, but also for the dissipated energy in the
21 simulated platform.
22 To activate this plugin, first call sg_host_energy_plugin_init() before your #MSG_init(), and then use
23 MSG_host_get_consumed_energy() to retrieve the consumption of a given host.
24
25 When the host is on, this energy consumption naturally depends on both the current CPU load and the host energy profile.
26 According to our measurements, the consumption is somehow linear in the amount of cores at full speed, with an
27 abnormality when all the cores are idle. The full details are in
28 <a href="https://hal.inria.fr/hal-01523608">our scientific paper</a> on that topic.
29
30 As a result, our energy model takes 4 parameters:
31
32   - \b Idle: instantaneous consumption (in Watt) when your host is up and running, but without anything to do.
33   - \b OneCore: instantaneous consumption (in Watt) when only one core is active, at 100%.
34   - \b AllCores: instantaneous consumption (in Watt) when all cores of the host are at 100%.
35   - \b Off: instantaneous consumption (in Watt) when the host is turned off.
36
37 Here is an example of XML declaration:
38
39 \code{.xml}
40 <host id="HostA" power="100.0Mf" cores="4">
41     <prop id="watt_per_state" value="100.0:120.0:200.0" />
42     <prop id="watt_off" value="10" />
43 </host>
44 \endcode
45
46 This example gives the following parameters: \b Off is 10 Watts; \b Idle is 100 Watts; \b OneCore is 120 Watts and \b
47 AllCores is 200 Watts.
48 This is enough to compute the consumption as a function of the amount of loaded cores:
49
50 <table>
51 <tr><th>\#Cores loaded</th><th>Consumption</th><th>Explanation</th></tr>
52 <tr><td>0</td><td> 100 Watts</td><td>Idle value</td></tr>
53 <tr><td>1</td><td> 120 Watts</td><td>OneCore value</td></tr>
54 <tr><td>2</td><td> 147 Watts</td><td>linear extrapolation between OneCore and AllCores</td></tr>
55 <tr><td>3</td><td> 173 Watts</td><td>linear extrapolation between OneCore and AllCores</td></tr>
56 <tr><td>4</td><td> 200 Watts</td><td>AllCores value</td></tr>
57 </table>
58
59 ### What if a given core is only at load 50%?
60
61 This is impossible in SimGrid because we recompute everything each time that the CPU starts or stops doing something.
62 So if a core is at load 50% over a period, it means that it is at load 100% half of the time and at load 0% the rest of
63 the time, and our model holds.
64
65 ### What if the host has only one core?
66
67 In this case, the parameters \b OneCore and \b AllCores are obviously the same.
68 Actually, SimGrid expect an energetic profile formatted as 'Idle:Running' for mono-cores hosts.
69 If you insist on passing 3 parameters in this case, then you must have the same value for \b OneCore and \b AllCores.
70
71 \code{.xml}
72 <host id="HostC" power="100.0Mf" cores="1">
73     <prop id="watt_per_state" value="95.0:200.0" /> <!-- we may have used '95:200:200' instead -->
74     <prop id="watt_off" value="10" />
75 </host>
76 \endcode
77
78 ### How does DVFS interact with the host energy model?
79
80 If your host has several DVFS levels (several pstates), then you should give the energetic profile of each pstate level:
81
82 \code{.xml}
83 <host id="HostC" power="100.0Mf,50.0Mf,20.0Mf" cores="4">
84     <prop id="watt_per_state" value="95.0:120.0:200.0, 93.0:115.0:170.0, 90.0:110.0:150.0" />
85     <prop id="watt_off" value="10" />
86 </host>
87 \endcode
88
89 This encodes the following values
90 <table>
91 <tr><th>pstate</th><th>Performance</th><th>Idle</th><th>OneCore</th><th>AllCores</th></tr>
92 <tr><td>0</td><td>100 Mflop/s</td><td>95 Watts</td><td>120 Watts</td><td>200 Watts</td></tr>
93 <tr><td>1</td><td>50 Mflop/s</td><td>93 Watts</td><td>115 Watts</td><td>170 Watts</td></tr>
94 <tr><td>2</td><td>20 Mflop/s</td><td>90 Watts</td><td>110 Watts</td><td>150 Watts</td></tr>
95 </table>
96
97 To change the pstate of a given CPU, use the following functions:
98 #MSG_host_get_nb_pstates(), simgrid#s4u#Host#setPstate(), #MSG_host_get_power_peak_at().
99
100 ### How accurate are these models?
101
102 This model cannot be more accurate than your instantiation: with the default values, your result will not be accurate at
103 all. You can still get accurate energy prediction, provided that you carefully instantiate the model.
104 The first step is to ensure that your timing prediction match perfectly. But this is only the first step of the path,
105 and you really want to read <a href="https://hal.inria.fr/hal-01523608">this paper</a> to see all what you need to do
106 before you can get accurate energy predictions.
107  */
108
109 XBT_LOG_NEW_DEFAULT_SUBCATEGORY(surf_energy, surf, "Logging specific to the SURF energy plugin");
110
111 namespace simgrid {
112 namespace plugin {
113
114 class PowerRange {
115 public:
116   double idle_;
117   double min_;
118   double max_;
119
120   PowerRange(double idle, double min, double max) : idle_(idle), min_(min), max_(max) {}
121 };
122
123 class HostEnergy {
124 public:
125   static simgrid::xbt::Extension<simgrid::s4u::Host, HostEnergy> EXTENSION_ID;
126
127   explicit HostEnergy(simgrid::s4u::Host* ptr);
128   ~HostEnergy();
129
130   double get_current_watts_value();
131   double get_current_watts_value(double cpu_load);
132   double get_consumed_energy();
133   double get_watt_min_at(int pstate);
134   double get_watt_max_at(int pstate);
135   void update();
136
137 private:
138   void init_watts_range_list();
139   simgrid::s4u::Host* host_ = nullptr;
140   /*< List of (min_power,max_power) pairs corresponding to each cpu pstate */
141   std::vector<PowerRange> power_range_watts_list_;
142
143   /* We need to keep track of what pstate has been used, as we will sometimes be notified only *after* a pstate has been
144    * used (but we need to update the energy consumption with the old pstate!)
145    */
146   int pstate_           = 0;
147   const int pstate_off_ = -1;
148
149 public:
150   double watts_off_    = 0.0; /*< Consumption when the machine is turned off (shutdown) */
151   double total_energy_ = 0.0; /*< Total energy consumed by the host */
152   double last_updated_;       /*< Timestamp of the last energy update event*/
153 };
154
155 simgrid::xbt::Extension<simgrid::s4u::Host, HostEnergy> HostEnergy::EXTENSION_ID;
156
157 /* Computes the consumption so far. Called lazily on need. */
158 void HostEnergy::update()
159 {
160   double start_time  = this->last_updated_;
161   double finish_time = surf_get_clock();
162   //
163   // We may have start == finish if the past consumption was updated since the simcall was started
164   // for example if 2 actors requested to update the same host's consumption in a given scheduling round.
165   //
166   // Even in this case, we need to save the pstate for the next call (after this if),
167   // which may have changed since that recent update.
168   if (start_time < finish_time) {
169     double previous_energy = this->total_energy_;
170
171     double instantaneous_consumption = this->get_current_watts_value();
172
173     double energy_this_step = instantaneous_consumption * (finish_time - start_time);
174
175     // TODO Trace: Trace energy_this_step from start_time to finish_time in host->getName()
176
177     this->total_energy_ = previous_energy + energy_this_step;
178     this->last_updated_ = finish_time;
179
180     XBT_DEBUG("[update_energy of %s] period=[%.2f-%.2f]; current power peak=%.0E flop/s; consumption change: %.2f J -> "
181               "%.2f J",
182               host_->get_cname(), start_time, finish_time, host_->pimpl_cpu->get_speed(1.0), previous_energy,
183               energy_this_step);
184   }
185
186   /* Save data for the upcoming time interval: whether it's on/off and the pstate if it's on */
187   this->pstate_ = host_->is_on() ? host_->get_pstate() : pstate_off_;
188 }
189
190 HostEnergy::HostEnergy(simgrid::s4u::Host* ptr) : host_(ptr), last_updated_(surf_get_clock())
191 {
192   init_watts_range_list();
193
194   const char* off_power_str = host_->get_property("watt_off");
195   if (off_power_str != nullptr) {
196     try {
197       this->watts_off_ = std::stod(std::string(off_power_str));
198     } catch (std::invalid_argument& ia) {
199       throw std::invalid_argument(std::string("Invalid value for property watt_off of host ") + host_->get_cname() +
200                                   ": " + off_power_str);
201     }
202   }
203   /* watts_off is 0 by default */
204 }
205
206 HostEnergy::~HostEnergy() = default;
207
208 double HostEnergy::get_watt_min_at(int pstate)
209 {
210   xbt_assert(not power_range_watts_list_.empty(), "No power range properties specified for host %s",
211              host_->get_cname());
212   return power_range_watts_list_[pstate].min_;
213 }
214
215 double HostEnergy::get_watt_max_at(int pstate)
216 {
217   xbt_assert(not power_range_watts_list_.empty(), "No power range properties specified for host %s",
218              host_->get_cname());
219   return power_range_watts_list_[pstate].max_;
220 }
221
222 /** @brief Computes the power consumed by the host according to the current situation
223  *
224  * - If the host is off, that's the watts_off value
225  * - if it's on, take the current pstate and the current processor load into account */
226 double HostEnergy::get_current_watts_value()
227 {
228   if (this->pstate_ == pstate_off_) // The host is off (or was off at the beginning of this time interval)
229     return this->watts_off_;
230
231   double current_speed = host_->get_speed();
232
233   double cpu_load;
234
235   if (current_speed <= 0)
236     // Some users declare a pstate of speed 0 flops (e.g., to model boot time).
237     // We consider that the machine is then fully loaded. That's arbitrary but it avoids a NaN
238     cpu_load = 1;
239   else
240     cpu_load = host_->pimpl_cpu->get_constraint()->get_usage() / current_speed;
241
242   /** Divide by the number of cores here **/
243   cpu_load /= host_->pimpl_cpu->get_core_count();
244
245   if (cpu_load > 1) // A machine with a load > 1 consumes as much as a fully loaded machine, not more
246     cpu_load = 1;
247
248   /* The problem with this model is that the load is always 0 or 1, never something less.
249    * Another possibility could be to model the total energy as
250    *
251    *   X/(X+Y)*W_idle + Y/(X+Y)*W_burn
252    *
253    * where X is the amount of idling cores, and Y the amount of computing cores.
254    */
255   return get_current_watts_value(cpu_load);
256 }
257
258 /** @brief Computes the power that the host would consume at the provided processor load
259  *
260  * Whether the host is ON or OFF is not taken into account.
261  */
262 double HostEnergy::get_current_watts_value(double cpu_load)
263 {
264   xbt_assert(not power_range_watts_list_.empty(), "No power range properties specified for host %s",
265              host_->get_cname());
266
267   /* Return watts_off if pstate == pstate_off (ie, if the host is off) */
268   if (this->pstate_ == pstate_off_) {
269     return watts_off_;
270   }
271
272   /* min_power corresponds to the power consumed when only one core is active */
273   /* max_power is the power consumed at 100% cpu load       */
274   auto range           = power_range_watts_list_.at(this->pstate_);
275   double current_power = 0;
276   double min_power     = 0;
277   double max_power     = 0;
278   double power_slope   = 0;
279
280   if (cpu_load > 0) { /* Something is going on, the machine is not idle */
281     min_power = range.min_;
282     max_power = range.max_;
283
284     /**
285      * The min_power states how much we consume when only one single
286      * core is working. This means that when cpu_load == 1/coreCount, then
287      * current_power == min_power.
288      *
289      * The maximum must be reached when all cores are working (but 1 core was
290      * already accounted for by min_power)
291      * i.e., we need min_power + (maxCpuLoad-1/coreCount)*power_slope == max_power
292      * (maxCpuLoad is by definition 1)
293      */
294     double power_slope;
295     int coreCount         = host_->get_core_count();
296     double coreReciprocal = static_cast<double>(1) / static_cast<double>(coreCount);
297     if (coreCount > 1)
298       power_slope = (max_power - min_power) / (1 - coreReciprocal);
299     else
300       power_slope = 0; // Should be 0, since max_power == min_power (in this case)
301
302     current_power = min_power + (cpu_load - coreReciprocal) * power_slope;
303   } else { /* Our machine is idle, take the dedicated value! */
304     current_power = range.idle_;
305   }
306
307   XBT_DEBUG("[get_current_watts] min_power=%f, max_power=%f, slope=%f", min_power, max_power, power_slope);
308   XBT_DEBUG("[get_current_watts] Current power (watts) = %f, load = %f", current_power, cpu_load);
309
310   return current_power;
311 }
312
313 double HostEnergy::get_consumed_energy()
314 {
315   if (last_updated_ < surf_get_clock()) // We need to simcall this as it modifies the environment
316     simgrid::simix::simcall(std::bind(&HostEnergy::update, this));
317
318   return total_energy_;
319 }
320
321 void HostEnergy::init_watts_range_list()
322 {
323   const char* all_power_values_str = host_->get_property("watt_per_state");
324   if (all_power_values_str == nullptr)
325     return;
326
327   std::vector<std::string> all_power_values;
328   boost::split(all_power_values, all_power_values_str, boost::is_any_of(","));
329   XBT_DEBUG("%s: profile: %s, cores: %d", host_->get_cname(), all_power_values_str, host_->get_core_count());
330
331   int i = 0;
332   for (auto const& current_power_values_str : all_power_values) {
333     /* retrieve the power values associated with the current pstate */
334     std::vector<std::string> current_power_values;
335     boost::split(current_power_values, current_power_values_str, boost::is_any_of(":"));
336     if (host_->get_core_count() == 1) {
337       xbt_assert(current_power_values.size() == 2 || current_power_values.size() == 3,
338                  "Power properties incorrectly defined for host %s."
339                  "It should be 'Idle:FullSpeed' power values because you have one core only.",
340                  host_->get_cname());
341       if (current_power_values.size() == 2) {
342         // In this case, 1core == AllCores
343         current_power_values.push_back(current_power_values.at(1));
344       } else { // size == 3
345         xbt_assert((current_power_values.at(1)) == (current_power_values.at(2)),
346                    "Power properties incorrectly defined for host %s.\n"
347                    "The energy profile of mono-cores should be formatted as 'Idle:FullSpeed' only.\n"
348                    "If you go for a 'Idle:OneCore:AllCores' power profile on mono-cores, then OneCore and AllCores "
349                    "must be equal.",
350                    host_->get_cname());
351       }
352     } else {
353       xbt_assert(current_power_values.size() == 3,
354                  "Power properties incorrectly defined for host %s."
355                  "It should be 'Idle:OneCore:AllCores' power values because you have more than one core.",
356                  host_->get_cname());
357     }
358
359     /* min_power corresponds to the idle power (cpu load = 0) */
360     /* max_power is the power consumed at 100% cpu load       */
361     char* msg_idle = bprintf("Invalid idle value for pstate %d on host %s: %%s", i, host_->get_cname());
362     char* msg_min  = bprintf("Invalid OneCore value for pstate %d on host %s: %%s", i, host_->get_cname());
363     char* msg_max  = bprintf("Invalid AllCores value for pstate %d on host %s: %%s", i, host_->get_cname());
364     PowerRange range(xbt_str_parse_double((current_power_values.at(0)).c_str(), msg_idle),
365                      xbt_str_parse_double((current_power_values.at(1)).c_str(), msg_min),
366                      xbt_str_parse_double((current_power_values.at(2)).c_str(), msg_max));
367     power_range_watts_list_.push_back(range);
368     xbt_free(msg_idle);
369     xbt_free(msg_min);
370     xbt_free(msg_max);
371     i++;
372   }
373 }
374 } // namespace plugin
375 } // namespace simgrid
376
377 using simgrid::plugin::HostEnergy;
378
379 /* **************************** events  callback *************************** */
380 static void on_creation(simgrid::s4u::Host& host)
381 {
382   if (dynamic_cast<simgrid::s4u::VirtualMachine*>(&host)) // Ignore virtual machines
383     return;
384
385   // TODO Trace: set to zero the energy variable associated to host->getName()
386
387   host.extension_set(new HostEnergy(&host));
388 }
389
390 static void on_action_state_change(simgrid::surf::CpuAction* action,
391                                    simgrid::kernel::resource::Action::State /*previous*/)
392 {
393   for (simgrid::surf::Cpu* const& cpu : action->cpus()) {
394     simgrid::s4u::Host* host = cpu->get_host();
395     if (host != nullptr) {
396
397       // If it's a VM, take the corresponding PM
398       simgrid::s4u::VirtualMachine* vm = dynamic_cast<simgrid::s4u::VirtualMachine*>(host);
399       if (vm) // If it's a VM, take the corresponding PM
400         host = vm->get_pm();
401
402       // Get the host_energy extension for the relevant host
403       HostEnergy* host_energy = host->extension<HostEnergy>();
404
405       if (host_energy->last_updated_ < surf_get_clock())
406         host_energy->update();
407     }
408   }
409 }
410
411 /* This callback is fired either when the host changes its state (on/off) ("onStateChange") or its speed
412  * (because the user changed the pstate, or because of external trace events) ("onSpeedChange") */
413 static void on_host_change(simgrid::s4u::Host& host)
414 {
415   if (dynamic_cast<simgrid::s4u::VirtualMachine*>(&host)) // Ignore virtual machines
416     return;
417
418   HostEnergy* host_energy = host.extension<HostEnergy>();
419
420   host_energy->update();
421 }
422
423 static void on_host_destruction(simgrid::s4u::Host& host)
424 {
425   if (dynamic_cast<simgrid::s4u::VirtualMachine*>(&host)) // Ignore virtual machines
426     return;
427
428   XBT_INFO("Energy consumption of host %s: %f Joules", host.get_cname(),
429            host.extension<HostEnergy>()->get_consumed_energy());
430 }
431
432 static void on_simulation_end()
433 {
434   std::vector<simgrid::s4u::Host*> hosts = simgrid::s4u::Engine::get_instance()->get_all_hosts();
435
436   double total_energy      = 0.0; // Total energy consumption (whole platform)
437   double used_hosts_energy = 0.0; // Energy consumed by hosts that computed something
438   for (size_t i = 0; i < hosts.size(); i++) {
439     if (dynamic_cast<simgrid::s4u::VirtualMachine*>(hosts[i]) == nullptr) { // Ignore virtual machines
440
441       bool host_was_used = (sg_host_get_computed_flops(hosts[i]) != 0);
442       double energy      = hosts[i]->extension<HostEnergy>()->get_consumed_energy();
443       total_energy += energy;
444       if (host_was_used)
445         used_hosts_energy += energy;
446     }
447   }
448   XBT_INFO("Total energy consumption: %f Joules (used hosts: %f Joules; unused/idle hosts: %f)", total_energy,
449            used_hosts_energy, total_energy - used_hosts_energy);
450 }
451
452 /* **************************** Public interface *************************** */
453
454 /** \ingroup plugin_energy
455  * \brief Enable host energy plugin
456  * \details Enable energy plugin to get joules consumption of each cpu. Call this function before #MSG_init().
457  */
458 void sg_host_energy_plugin_init()
459 {
460   if (HostEnergy::EXTENSION_ID.valid())
461     return;
462
463   sg_host_load_plugin_init();
464
465   HostEnergy::EXTENSION_ID = simgrid::s4u::Host::extension_create<HostEnergy>();
466
467   simgrid::s4u::Host::on_creation.connect(&on_creation);
468   simgrid::s4u::Host::on_state_change.connect(&on_host_change);
469   simgrid::s4u::Host::on_speed_change.connect(&on_host_change);
470   simgrid::s4u::Host::on_destruction.connect(&on_host_destruction);
471   simgrid::s4u::on_simulation_end.connect(&on_simulation_end);
472   simgrid::surf::CpuAction::on_state_change.connect(&on_action_state_change);
473 }
474
475 /** @ingroup plugin_energy
476  *  @brief updates the consumption of all hosts
477  *
478  * After this call, sg_host_get_consumed_energy() will not interrupt your process
479  * (until after the next clock update).
480  */
481 void sg_host_energy_update_all()
482 {
483   simgrid::simix::simcall([]() {
484     std::vector<simgrid::s4u::Host*> list = simgrid::s4u::Engine::get_instance()->get_all_hosts();
485     for (auto const& host : list)
486       if (dynamic_cast<simgrid::s4u::VirtualMachine*>(host) == nullptr) // Ignore virtual machines
487         host->extension<HostEnergy>()->update();
488   });
489 }
490
491 /** @ingroup plugin_energy
492  *  @brief Returns the total energy consumed by the host so far (in Joules)
493  *
494  *  Please note that since the consumption is lazily updated, it may require a simcall to update it.
495  *  The result is that the actor requesting this value will be interrupted,
496  *  the value will be updated in kernel mode before returning the control to the requesting actor.
497  */
498 double sg_host_get_consumed_energy(sg_host_t host)
499 {
500   xbt_assert(HostEnergy::EXTENSION_ID.valid(),
501              "The Energy plugin is not active. Please call sg_host_energy_plugin_init() during initialization.");
502   return host->extension<HostEnergy>()->get_consumed_energy();
503 }
504
505 /** @ingroup plugin_energy
506  *  @brief Get the amount of watt dissipated at the given pstate when the host is idling
507  */
508 double sg_host_get_wattmin_at(sg_host_t host, int pstate)
509 {
510   xbt_assert(HostEnergy::EXTENSION_ID.valid(),
511              "The Energy plugin is not active. Please call sg_host_energy_plugin_init() during initialization.");
512   return host->extension<HostEnergy>()->get_watt_min_at(pstate);
513 }
514 /** @ingroup plugin_energy
515  *  @brief  Returns the amount of watt dissipated at the given pstate when the host burns CPU at 100%
516  */
517 double sg_host_get_wattmax_at(sg_host_t host, int pstate)
518 {
519   xbt_assert(HostEnergy::EXTENSION_ID.valid(),
520              "The Energy plugin is not active. Please call sg_host_energy_plugin_init() during initialization.");
521   return host->extension<HostEnergy>()->get_watt_max_at(pstate);
522 }
523
524 /** @ingroup plugin_energy
525  *  @brief Returns the current consumption of the host
526  */
527 double sg_host_get_current_consumption(sg_host_t host)
528 {
529   xbt_assert(HostEnergy::EXTENSION_ID.valid(),
530              "The Energy plugin is not active. Please call sg_host_energy_plugin_init() during initialization.");
531   return host->extension<HostEnergy>()->get_current_watts_value();
532 }