Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
as the comment was saying, that was unsafe, and flang was doing something else
[simgrid.git] / src / plugins / host_energy.cpp
1 /* Copyright (c) 2010-2018. The SimGrid Team. All rights reserved.          */
2
3 /* This program is free software; you can redistribute it and/or modify it
4  * under the terms of the license (GNU LGPL) which comes with this package. */
5
6 #include "simgrid/plugins/energy.h"
7 #include "simgrid/s4u/Engine.hpp"
8 #include "src/include/surf/surf.hpp"
9 #include "src/plugins/vm/VirtualMachineImpl.hpp"
10 #include "src/surf/cpu_interface.hpp"
11
12 #include <boost/algorithm/string/classification.hpp>
13 #include <boost/algorithm/string/split.hpp>
14
15 SIMGRID_REGISTER_PLUGIN(host_energy, "Cpu energy consumption.", &sg_host_energy_plugin_init)
16
17 /** @addtogroup plugin_energy
18
19 This is the energy plugin, enabling to account not only for computation time, but also for the dissipated energy in the
20 simulated platform.
21 To activate this plugin, first call sg_host_energy_plugin_init() before your #MSG_init(), and then use
22 MSG_host_get_consumed_energy() to retrieve the consumption of a given host.
23
24 When the host is on, this energy consumption naturally depends on both the current CPU load and the host energy profile.
25 According to our measurements, the consumption is somehow linear in the amount of cores at full speed, with an
26 abnormality when all the cores are idle. The full details are in
27 <a href="https://hal.inria.fr/hal-01523608">our scientific paper</a> on that topic.
28
29 As a result, our energy model takes 4 parameters:
30
31   - @b Idle: instantaneous consumption (in Watt) when your host is up and running, but without anything to do.
32   - @b OneCore: instantaneous consumption (in Watt) when only one core is active, at 100%.
33   - @b AllCores: instantaneous consumption (in Watt) when all cores of the host are at 100%.
34   - @b Off: instantaneous consumption (in Watt) when the host is turned off.
35
36 Here is an example of XML declaration:
37
38 @code{.xml}
39 <host id="HostA" power="100.0Mf" cores="4">
40     <prop id="watt_per_state" value="100.0:120.0:200.0" />
41     <prop id="watt_off" value="10" />
42 </host>
43 @endcode
44
45 This example gives the following parameters: @b Off is 10 Watts; @b Idle is 100 Watts; @b OneCore is 120 Watts and @b
46 AllCores is 200 Watts.
47 This is enough to compute the consumption as a function of the amount of loaded cores:
48
49 <table>
50 <tr><th>@#Cores loaded</th><th>Consumption</th><th>Explanation</th></tr>
51 <tr><td>0</td><td> 100 Watts</td><td>Idle value</td></tr>
52 <tr><td>1</td><td> 120 Watts</td><td>OneCore value</td></tr>
53 <tr><td>2</td><td> 147 Watts</td><td>linear extrapolation between OneCore and AllCores</td></tr>
54 <tr><td>3</td><td> 173 Watts</td><td>linear extrapolation between OneCore and AllCores</td></tr>
55 <tr><td>4</td><td> 200 Watts</td><td>AllCores value</td></tr>
56 </table>
57
58 ### What if a given core is only at load 50%?
59
60 This is impossible in SimGrid because we recompute everything each time that the CPU starts or stops doing something.
61 So if a core is at load 50% over a period, it means that it is at load 100% half of the time and at load 0% the rest of
62 the time, and our model holds.
63
64 ### What if the host has only one core?
65
66 In this case, the parameters @b OneCore and @b AllCores are obviously the same.
67 Actually, SimGrid expect an energetic profile formatted as 'Idle:Running' for mono-cores hosts.
68 If you insist on passing 3 parameters in this case, then you must have the same value for @b OneCore and @b AllCores.
69
70 @code{.xml}
71 <host id="HostC" power="100.0Mf" cores="1">
72     <prop id="watt_per_state" value="95.0:200.0" /> <!-- we may have used '95:200:200' instead -->
73     <prop id="watt_off" value="10" />
74 </host>
75 @endcode
76
77 ### How does DVFS interact with the host energy model?
78
79 If your host has several DVFS levels (several pstates), then you should give the energetic profile of each pstate level:
80
81 @code{.xml}
82 <host id="HostC" power="100.0Mf,50.0Mf,20.0Mf" cores="4">
83     <prop id="watt_per_state" value="95.0:120.0:200.0, 93.0:115.0:170.0, 90.0:110.0:150.0" />
84     <prop id="watt_off" value="10" />
85 </host>
86 @endcode
87
88 This encodes the following values
89 <table>
90 <tr><th>pstate</th><th>Performance</th><th>Idle</th><th>OneCore</th><th>AllCores</th></tr>
91 <tr><td>0</td><td>100 Mflop/s</td><td>95 Watts</td><td>120 Watts</td><td>200 Watts</td></tr>
92 <tr><td>1</td><td>50 Mflop/s</td><td>93 Watts</td><td>115 Watts</td><td>170 Watts</td></tr>
93 <tr><td>2</td><td>20 Mflop/s</td><td>90 Watts</td><td>110 Watts</td><td>150 Watts</td></tr>
94 </table>
95
96 To change the pstate of a given CPU, use the following functions:
97 #MSG_host_get_nb_pstates(), simgrid#s4u#Host#setPstate(), #MSG_host_get_power_peak_at().
98
99 ### How accurate are these models?
100
101 This model cannot be more accurate than your instantiation: with the default values, your result will not be accurate at
102 all. You can still get accurate energy prediction, provided that you carefully instantiate the model.
103 The first step is to ensure that your timing prediction match perfectly. But this is only the first step of the path,
104 and you really want to read <a href="https://hal.inria.fr/hal-01523608">this paper</a> to see all what you need to do
105 before you can get accurate energy predictions.
106  */
107
108 XBT_LOG_NEW_DEFAULT_SUBCATEGORY(surf_energy, surf, "Logging specific to the SURF energy plugin");
109
110 // Forwards declaration needed to make this function a friend (because friends have external linkage by default)
111 static void on_simulation_end();
112
113 namespace simgrid {
114 namespace plugin {
115
116 class PowerRange {
117 public:
118   double idle_;
119   double min_;
120   double max_;
121
122   PowerRange(double idle, double min, double max) : idle_(idle), min_(min), max_(max) {}
123 };
124
125 class HostEnergy {
126   friend void ::on_simulation_end(); // For access to host_was_used_
127 public:
128   static simgrid::xbt::Extension<simgrid::s4u::Host, HostEnergy> EXTENSION_ID;
129
130   explicit HostEnergy(simgrid::s4u::Host* ptr);
131   ~HostEnergy();
132
133   double get_current_watts_value();
134   double get_current_watts_value(double cpu_load);
135   double get_consumed_energy();
136   double get_watt_min_at(int pstate);
137   double get_watt_max_at(int pstate);
138   void update();
139
140 private:
141   void init_watts_range_list();
142   simgrid::s4u::Host* host_ = nullptr;
143   /*< List of (min_power,max_power) pairs corresponding to each cpu pstate */
144   std::vector<PowerRange> power_range_watts_list_;
145
146   /* We need to keep track of what pstate has been used, as we will sometimes be notified only *after* a pstate has been
147    * used (but we need to update the energy consumption with the old pstate!)
148    */
149   int pstate_           = 0;
150   const int pstate_off_ = -1;
151
152   /* Only used to split total energy into unused/used hosts.
153    * If you want to get this info for something else, rather use the host_load plugin
154    */
155   bool host_was_used_  = false;
156 public:
157   double watts_off_    = 0.0; /*< Consumption when the machine is turned off (shutdown) */
158   double total_energy_ = 0.0; /*< Total energy consumed by the host */
159   double last_updated_;       /*< Timestamp of the last energy update event*/
160 };
161
162 simgrid::xbt::Extension<simgrid::s4u::Host, HostEnergy> HostEnergy::EXTENSION_ID;
163
164 /* Computes the consumption so far. Called lazily on need. */
165 void HostEnergy::update()
166 {
167   double start_time  = this->last_updated_;
168   double finish_time = surf_get_clock();
169   //
170   // We may have start == finish if the past consumption was updated since the simcall was started
171   // for example if 2 actors requested to update the same host's consumption in a given scheduling round.
172   //
173   // Even in this case, we need to save the pstate for the next call (after this if),
174   // which may have changed since that recent update.
175   if (start_time < finish_time) {
176     double previous_energy = this->total_energy_;
177
178     double instantaneous_consumption = this->get_current_watts_value();
179
180     double energy_this_step = instantaneous_consumption * (finish_time - start_time);
181
182     // TODO Trace: Trace energy_this_step from start_time to finish_time in host->getName()
183
184     this->total_energy_ = previous_energy + energy_this_step;
185     this->last_updated_ = finish_time;
186
187     XBT_DEBUG("[update_energy of %s] period=[%.8f-%.8f]; current speed=%.2E flop/s (pstate %i); total consumption before: consumption change: %.8f J -> added now: %.8f J",
188               host_->get_cname(), start_time, finish_time, host_->pimpl_cpu->get_pstate_peak_speed(this->pstate_), this->pstate_, previous_energy,
189               energy_this_step);
190   }
191
192   /* Save data for the upcoming time interval: whether it's on/off and the pstate if it's on */
193   this->pstate_ = host_->is_on() ? host_->get_pstate() : pstate_off_;
194 }
195
196 HostEnergy::HostEnergy(simgrid::s4u::Host* ptr) : host_(ptr), last_updated_(surf_get_clock())
197 {
198   init_watts_range_list();
199
200   const char* off_power_str = host_->get_property("watt_off");
201   if (off_power_str != nullptr) {
202     try {
203       this->watts_off_ = std::stod(std::string(off_power_str));
204     } catch (std::invalid_argument& ia) {
205       throw std::invalid_argument(std::string("Invalid value for property watt_off of host ") + host_->get_cname() +
206                                   ": " + off_power_str);
207     }
208   }
209   /* watts_off is 0 by default */
210 }
211
212 HostEnergy::~HostEnergy() = default;
213
214 double HostEnergy::get_watt_min_at(int pstate)
215 {
216   xbt_assert(not power_range_watts_list_.empty(), "No power range properties specified for host %s",
217              host_->get_cname());
218   return power_range_watts_list_[pstate].min_;
219 }
220
221 double HostEnergy::get_watt_max_at(int pstate)
222 {
223   xbt_assert(not power_range_watts_list_.empty(), "No power range properties specified for host %s",
224              host_->get_cname());
225   return power_range_watts_list_[pstate].max_;
226 }
227
228 /** @brief Computes the power consumed by the host according to the current situation
229  *
230  * - If the host is off, that's the watts_off value
231  * - if it's on, take the current pstate and the current processor load into account */
232 double HostEnergy::get_current_watts_value()
233 {
234   if (this->pstate_ == pstate_off_) // The host is off (or was off at the beginning of this time interval)
235     return this->watts_off_;
236
237   double current_speed = host_->get_speed();
238
239   double cpu_load;
240
241   if (current_speed <= 0)
242     // Some users declare a pstate of speed 0 flops (e.g., to model boot time).
243     // We consider that the machine is then fully loaded. That's arbitrary but it avoids a NaN
244     cpu_load = 1;
245   else
246     cpu_load = host_->pimpl_cpu->get_constraint()->get_usage() / current_speed;
247
248   /** Divide by the number of cores here **/
249   cpu_load /= host_->pimpl_cpu->get_core_count();
250
251   if (cpu_load > 1) // A machine with a load > 1 consumes as much as a fully loaded machine, not more
252     cpu_load = 1;
253   if (cpu_load > 0)
254     host_was_used_ = true;
255
256   /* The problem with this model is that the load is always 0 or 1, never something less.
257    * Another possibility could be to model the total energy as
258    *
259    *   X/(X+Y)*W_idle + Y/(X+Y)*W_burn
260    *
261    * where X is the amount of idling cores, and Y the amount of computing cores.
262    */
263   return get_current_watts_value(cpu_load);
264 }
265
266 /** @brief Computes the power that the host would consume at the provided processor load
267  *
268  * Whether the host is ON or OFF is not taken into account.
269  */
270 double HostEnergy::get_current_watts_value(double cpu_load)
271 {
272   xbt_assert(not power_range_watts_list_.empty(), "No power range properties specified for host %s",
273              host_->get_cname());
274
275   /* Return watts_off if pstate == pstate_off (ie, if the host is off) */
276   if (this->pstate_ == pstate_off_) {
277     return watts_off_;
278   }
279
280   /* min_power corresponds to the power consumed when only one core is active */
281   /* max_power is the power consumed at 100% cpu load       */
282   auto range           = power_range_watts_list_.at(this->pstate_);
283   double current_power = 0;
284   double min_power     = 0;
285   double max_power     = 0;
286   double power_slope   = 0;
287
288   if (cpu_load > 0) { /* Something is going on, the machine is not idle */
289     min_power = range.min_;
290     max_power = range.max_;
291
292     /**
293      * The min_power states how much we consume when only one single
294      * core is working. This means that when cpu_load == 1/coreCount, then
295      * current_power == min_power.
296      *
297      * The maximum must be reached when all cores are working (but 1 core was
298      * already accounted for by min_power)
299      * i.e., we need min_power + (maxCpuLoad-1/coreCount)*power_slope == max_power
300      * (maxCpuLoad is by definition 1)
301      */
302     double power_slope;
303     int coreCount         = host_->get_core_count();
304     double coreReciprocal = static_cast<double>(1) / static_cast<double>(coreCount);
305     if (coreCount > 1)
306       power_slope = (max_power - min_power) / (1 - coreReciprocal);
307     else
308       power_slope = 0; // Should be 0, since max_power == min_power (in this case)
309
310     current_power = min_power + (cpu_load - coreReciprocal) * power_slope;
311   } else { /* Our machine is idle, take the dedicated value! */
312     current_power = range.idle_;
313   }
314
315   XBT_DEBUG("[get_current_watts] pstate=%i, min_power=%f, max_power=%f, slope=%f", this->pstate_, min_power, max_power, power_slope);
316   XBT_DEBUG("[get_current_watts] Current power (watts) = %f, load = %f", current_power, cpu_load);
317
318   return current_power;
319 }
320
321 double HostEnergy::get_consumed_energy()
322 {
323   if (last_updated_ < surf_get_clock()) // We need to simcall this as it modifies the environment
324     simgrid::simix::simcall(std::bind(&HostEnergy::update, this));
325
326   return total_energy_;
327 }
328
329 void HostEnergy::init_watts_range_list()
330 {
331   const char* all_power_values_str = host_->get_property("watt_per_state");
332   if (all_power_values_str == nullptr)
333     return;
334
335   std::vector<std::string> all_power_values;
336   boost::split(all_power_values, all_power_values_str, boost::is_any_of(","));
337   XBT_DEBUG("%s: profile: %s, cores: %d", host_->get_cname(), all_power_values_str, host_->get_core_count());
338
339   int i = 0;
340   for (auto const& current_power_values_str : all_power_values) {
341     /* retrieve the power values associated with the current pstate */
342     std::vector<std::string> current_power_values;
343     boost::split(current_power_values, current_power_values_str, boost::is_any_of(":"));
344     if (host_->get_core_count() == 1) {
345       xbt_assert(current_power_values.size() == 2 || current_power_values.size() == 3,
346                  "Power properties incorrectly defined for host %s."
347                  "It should be 'Idle:FullSpeed' power values because you have one core only.",
348                  host_->get_cname());
349       if (current_power_values.size() == 2) {
350         // In this case, 1core == AllCores
351         current_power_values.push_back(current_power_values.at(1));
352       } else { // size == 3
353         current_power_values[2] = current_power_values.at(1);
354         static thread_local bool displayed_warning = false; 
355         if (not displayed_warning) { // Otherwise we get in the worst case no_pstate*no_hosts warnings
356           XBT_WARN("Host %s is a single-core machine and part of the power profile is '%s'"
357                    ", which is in the 'Idle:OneCore:AllCores' format."
358                    " Since this is a single-core machine, AllCores and OneCore are identical."
359                    " Here, only the value for 'OneCore' is used.", host_->get_cname(), current_power_values_str.c_str());
360           displayed_warning = true;
361         }
362       }
363     } else {
364       xbt_assert(current_power_values.size() == 3,
365                  "Power properties incorrectly defined for host %s."
366                  "It should be 'Idle:OneCore:AllCores' power values because you have more than one core.",
367                  host_->get_cname());
368     }
369
370     /* min_power corresponds to the idle power (cpu load = 0) */
371     /* max_power is the power consumed at 100% cpu load       */
372     char* msg_idle = bprintf("Invalid idle value for pstate %d on host %s: %%s", i, host_->get_cname());
373     char* msg_min  = bprintf("Invalid OneCore value for pstate %d on host %s: %%s", i, host_->get_cname());
374     char* msg_max  = bprintf("Invalid AllCores value for pstate %d on host %s: %%s", i, host_->get_cname());
375     PowerRange range(xbt_str_parse_double((current_power_values.at(0)).c_str(), msg_idle),
376                      xbt_str_parse_double((current_power_values.at(1)).c_str(), msg_min),
377                      xbt_str_parse_double((current_power_values.at(2)).c_str(), msg_max));
378     power_range_watts_list_.push_back(range);
379     xbt_free(msg_idle);
380     xbt_free(msg_min);
381     xbt_free(msg_max);
382     i++;
383   }
384 }
385 } // namespace plugin
386 } // namespace simgrid
387
388 using simgrid::plugin::HostEnergy;
389
390 /* **************************** events  callback *************************** */
391 static void on_creation(simgrid::s4u::Host& host)
392 {
393   if (dynamic_cast<simgrid::s4u::VirtualMachine*>(&host)) // Ignore virtual machines
394     return;
395
396   // TODO Trace: set to zero the energy variable associated to host->getName()
397
398   host.extension_set(new HostEnergy(&host));
399 }
400
401 static void on_action_state_change(simgrid::surf::CpuAction* action,
402                                    simgrid::kernel::resource::Action::State /*previous*/)
403 {
404   for (simgrid::surf::Cpu* const& cpu : action->cpus()) {
405     simgrid::s4u::Host* host = cpu->get_host();
406     if (host != nullptr) {
407
408       // If it's a VM, take the corresponding PM
409       simgrid::s4u::VirtualMachine* vm = dynamic_cast<simgrid::s4u::VirtualMachine*>(host);
410       if (vm) // If it's a VM, take the corresponding PM
411         host = vm->get_pm();
412
413       // Get the host_energy extension for the relevant host
414       HostEnergy* host_energy = host->extension<HostEnergy>();
415
416       if (host_energy->last_updated_ < surf_get_clock())
417         host_energy->update();
418     }
419   }
420 }
421
422 /* This callback is fired either when the host changes its state (on/off) ("onStateChange") or its speed
423  * (because the user changed the pstate, or because of external trace events) ("onSpeedChange") */
424 static void on_host_change(simgrid::s4u::Host& host)
425 {
426   if (dynamic_cast<simgrid::s4u::VirtualMachine*>(&host)) // Ignore virtual machines
427     return;
428
429   HostEnergy* host_energy = host.extension<HostEnergy>();
430
431   host_energy->update();
432 }
433
434 static void on_host_destruction(simgrid::s4u::Host& host)
435 {
436   if (dynamic_cast<simgrid::s4u::VirtualMachine*>(&host)) // Ignore virtual machines
437     return;
438
439   XBT_INFO("Energy consumption of host %s: %f Joules", host.get_cname(),
440            host.extension<HostEnergy>()->get_consumed_energy());
441 }
442
443 static void on_simulation_end()
444 {
445   std::vector<simgrid::s4u::Host*> hosts = simgrid::s4u::Engine::get_instance()->get_all_hosts();
446
447   double total_energy      = 0.0; // Total energy consumption (whole platform)
448   double used_hosts_energy = 0.0; // Energy consumed by hosts that computed something
449   for (size_t i = 0; i < hosts.size(); i++) {
450     if (dynamic_cast<simgrid::s4u::VirtualMachine*>(hosts[i]) == nullptr) { // Ignore virtual machines
451
452       double energy      = hosts[i]->extension<HostEnergy>()->get_consumed_energy();
453       total_energy += energy;
454       if (hosts[i]->extension<HostEnergy>()->host_was_used_)
455         used_hosts_energy += energy;
456     }
457   }
458   XBT_INFO("Total energy consumption: %f Joules (used hosts: %f Joules; unused/idle hosts: %f)", total_energy,
459            used_hosts_energy, total_energy - used_hosts_energy);
460 }
461
462 /* **************************** Public interface *************************** */
463
464 /** @ingroup plugin_energy
465  * @brief Enable host energy plugin
466  * @details Enable energy plugin to get joules consumption of each cpu. Call this function before #MSG_init().
467  */
468 void sg_host_energy_plugin_init()
469 {
470   if (HostEnergy::EXTENSION_ID.valid())
471     return;
472
473   HostEnergy::EXTENSION_ID = simgrid::s4u::Host::extension_create<HostEnergy>();
474
475   simgrid::s4u::Host::on_creation.connect(&on_creation);
476   simgrid::s4u::Host::on_state_change.connect(&on_host_change);
477   simgrid::s4u::Host::on_speed_change.connect(&on_host_change);
478   simgrid::s4u::Host::on_destruction.connect(&on_host_destruction);
479   simgrid::s4u::on_simulation_end.connect(&on_simulation_end);
480   simgrid::surf::CpuAction::on_state_change.connect(&on_action_state_change);
481 }
482
483 /** @ingroup plugin_energy
484  *  @brief updates the consumption of all hosts
485  *
486  * After this call, sg_host_get_consumed_energy() will not interrupt your process
487  * (until after the next clock update).
488  */
489 void sg_host_energy_update_all()
490 {
491   simgrid::simix::simcall([]() {
492     std::vector<simgrid::s4u::Host*> list = simgrid::s4u::Engine::get_instance()->get_all_hosts();
493     for (auto const& host : list)
494       if (dynamic_cast<simgrid::s4u::VirtualMachine*>(host) == nullptr) // Ignore virtual machines
495         host->extension<HostEnergy>()->update();
496   });
497 }
498
499 /** @ingroup plugin_energy
500  *  @brief Returns the total energy consumed by the host so far (in Joules)
501  *
502  *  Please note that since the consumption is lazily updated, it may require a simcall to update it.
503  *  The result is that the actor requesting this value will be interrupted,
504  *  the value will be updated in kernel mode before returning the control to the requesting actor.
505  */
506 double sg_host_get_consumed_energy(sg_host_t host)
507 {
508   xbt_assert(HostEnergy::EXTENSION_ID.valid(),
509              "The Energy plugin is not active. Please call sg_host_energy_plugin_init() during initialization.");
510   return host->extension<HostEnergy>()->get_consumed_energy();
511 }
512
513 /** @ingroup plugin_energy
514  *  @brief Get the amount of watt dissipated at the given pstate when the host is idling
515  */
516 double sg_host_get_wattmin_at(sg_host_t host, int pstate)
517 {
518   xbt_assert(HostEnergy::EXTENSION_ID.valid(),
519              "The Energy plugin is not active. Please call sg_host_energy_plugin_init() during initialization.");
520   return host->extension<HostEnergy>()->get_watt_min_at(pstate);
521 }
522 /** @ingroup plugin_energy
523  *  @brief  Returns the amount of watt dissipated at the given pstate when the host burns CPU at 100%
524  */
525 double sg_host_get_wattmax_at(sg_host_t host, int pstate)
526 {
527   xbt_assert(HostEnergy::EXTENSION_ID.valid(),
528              "The Energy plugin is not active. Please call sg_host_energy_plugin_init() during initialization.");
529   return host->extension<HostEnergy>()->get_watt_max_at(pstate);
530 }
531
532 /** @ingroup plugin_energy
533  *  @brief Returns the current consumption of the host
534  */
535 double sg_host_get_current_consumption(sg_host_t host)
536 {
537   xbt_assert(HostEnergy::EXTENSION_ID.valid(),
538              "The Energy plugin is not active. Please call sg_host_energy_plugin_init() during initialization.");
539   return host->extension<HostEnergy>()->get_current_watts_value();
540 }