Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Merge branch 'master' of git+ssh://scm.gforge.inria.fr//gitroot/simgrid/simgrid
[simgrid.git] / src / simix / smx_global.c
1 /* Copyright (c) 2007-2014. The SimGrid Team.
2  * All rights reserved.                                                     */
3
4 /* This program is free software; you can redistribute it and/or modify it
5  * under the terms of the license (GNU LGPL) which comes with this package. */
6
7 #include "smx_private.h"
8 #include "xbt/heap.h"
9 #include "xbt/sysdep.h"
10 #include "xbt/log.h"
11 #include "xbt/str.h"
12 #include "xbt/ex.h"             /* ex_backtrace_display */
13 #include "mc/mc.h"
14 #include "simgrid/sg_config.h"
15
16 XBT_LOG_NEW_CATEGORY(simix, "All SIMIX categories");
17 XBT_LOG_NEW_DEFAULT_SUBCATEGORY(simix_kernel, simix,
18                                 "Logging specific to SIMIX (kernel)");
19
20 smx_global_t simix_global = NULL;
21 static xbt_heap_t simix_timers = NULL;
22
23 static void* SIMIX_action_mallocator_new_f(void);
24 static void SIMIX_action_mallocator_free_f(void* action);
25 static void SIMIX_action_mallocator_reset_f(void* action);
26
27 /* FIXME: Yeah, I'll do it in a portable maner one day [Mt] */
28 #include <signal.h>
29
30 int _sg_do_verbose_exit = 1;
31 static void _XBT_CALL inthandler(int ignored)
32 {
33   if ( _sg_do_verbose_exit ) {
34      XBT_INFO("CTRL-C pressed. Displaying status and bailing out");
35      SIMIX_display_process_status();
36   }
37   else {
38      XBT_INFO("CTRL-C pressed. bailing out without displaying because verbose-exit is disabled");
39   }
40   exit(1);
41 }
42
43 static void _XBT_CALL segvhandler(int signum, siginfo_t *siginfo, void *context)
44 {
45   if (siginfo->si_signo == SIGSEGV && siginfo->si_code == SEGV_ACCERR) {
46     fprintf(stderr,
47             "Access violation detected.\n"
48             "This can result from a programming error in your code or, although less likely,\n"
49             "from a bug in SimGrid itself.  This can also be the sign of a bug in the OS or\n"
50             "in third-party libraries.  Failing hardware can sometimes generate such errors\n"
51             "too.\n"
52             "Finally, if nothing of the above applies, this can result from a stack overflow.\n"
53             "Try to increase stack size with --cfg=contexts/stack_size (current size is %d KiB).\n",
54             smx_context_stack_size / 1024);
55     if (XBT_LOG_ISENABLED(simix_kernel, xbt_log_priority_debug)) {
56       fprintf(stderr,
57               "siginfo = {si_signo = %d, si_errno = %d, si_code = %d, si_addr = %p}\n",
58               siginfo->si_signo, siginfo->si_errno, siginfo->si_code, siginfo->si_addr);
59     }
60   }
61   raise(signum);
62 }
63
64 char sigsegv_stack[SIGSTKSZ];   /* alternate stack for SIGSEGV handler */
65
66 /**
67  * Install signal handler for SIGSEGV.  Check that nobody has already installed
68  * its own handler.  For example, the Java VM does this.
69  */
70 static void install_segvhandler(void)
71 {
72   stack_t stack, old_stack;
73   stack.ss_sp = sigsegv_stack;
74   stack.ss_size = sizeof sigsegv_stack;
75   stack.ss_flags = 0;
76
77   if (sigaltstack(&stack, &old_stack) == -1) {
78     XBT_WARN("Failed to register alternate signal stack: %s",
79              strerror(errno));
80     return;
81   }
82   if (!(old_stack.ss_flags & SS_DISABLE)) {
83     XBT_DEBUG("An alternate stack was already installed (sp=%p, size=%zd, flags=%x). Restore it.",
84               old_stack.ss_sp, old_stack.ss_size, old_stack.ss_flags);
85     sigaltstack(&old_stack, NULL);
86   }
87
88   struct sigaction action, old_action;
89   action.sa_sigaction = segvhandler;
90   action.sa_flags = SA_ONSTACK | SA_RESETHAND | SA_SIGINFO;
91   sigemptyset(&action.sa_mask);
92
93   if (sigaction(SIGSEGV, &action, &old_action) == -1) {
94     XBT_WARN("Failed to register signal handler for SIGSEGV: %s",
95              strerror(errno));
96     return;
97   }
98   if ((old_action.sa_flags & SA_SIGINFO) || old_action.sa_handler != SIG_DFL) {
99     XBT_DEBUG("A signal handler was already installed for SIGSEGV (%p). Restore it.",
100              (old_action.sa_flags & SA_SIGINFO) ?
101              (void*)old_action.sa_sigaction : (void*)old_action.sa_handler);
102     sigaction(SIGSEGV, &old_action, NULL);
103   }
104 }
105
106 /********************************* SIMIX **************************************/
107
108 XBT_INLINE double SIMIX_timer_next(void)
109 {
110   return xbt_heap_size(simix_timers) > 0 ? xbt_heap_maxkey(simix_timers) : -1.0;
111 }
112
113 /**
114  * \ingroup SIMIX_API
115  * \brief Initialize SIMIX internal data.
116  *
117  * \param argc Argc
118  * \param argv Argv
119  */
120 void SIMIX_global_init(int *argc, char **argv)
121 {
122   s_smx_process_t proc;
123
124   if (!simix_global) {
125     simix_global = xbt_new0(s_smx_global_t, 1);
126
127 #ifdef TIME_BENCH_AMDAHL
128     simix_global->timer_seq = xbt_os_timer_new();
129     simix_global->timer_par = xbt_os_timer_new();
130     xbt_os_cputimer_start(simix_global->timer_seq);
131 #endif
132     simix_global->process_to_run = xbt_dynar_new(sizeof(smx_process_t), NULL);
133     simix_global->process_that_ran = xbt_dynar_new(sizeof(smx_process_t), NULL);
134     simix_global->process_list =
135         xbt_swag_new(xbt_swag_offset(proc, process_hookup));
136     simix_global->process_to_destroy =
137         xbt_swag_new(xbt_swag_offset(proc, destroy_hookup));
138
139     simix_global->maestro_process = NULL;
140     simix_global->registered_functions = xbt_dict_new_homogeneous(NULL);
141
142     simix_global->create_process_function = SIMIX_process_create;
143     simix_global->kill_process_function = SIMIX_process_kill;
144     simix_global->cleanup_process_function = SIMIX_process_cleanup;
145     simix_global->action_mallocator = xbt_mallocator_new(65536,
146         SIMIX_action_mallocator_new_f, SIMIX_action_mallocator_free_f,
147         SIMIX_action_mallocator_reset_f);
148     simix_global->autorestart = SIMIX_host_restart_processes;
149
150     surf_init(argc, argv);      /* Initialize SURF structures */
151     SIMIX_context_mod_init();
152     SIMIX_create_maestro_process();
153
154     /* context exception handlers */
155     __xbt_running_ctx_fetch = SIMIX_process_get_running_context;
156     __xbt_ex_terminate = SIMIX_process_exception_terminate;
157
158     SIMIX_network_init();
159
160     /* Prepare to display some more info when dying on Ctrl-C pressing */
161     signal(SIGINT, inthandler);
162
163     /* Install SEGV handler */
164     install_segvhandler();
165
166     /* register a function to be called by SURF after the environment creation */
167     sg_platf_init();
168     sg_platf_postparse_add_cb(SIMIX_post_create_environment);
169
170   }
171   if (!simix_timers) {
172     simix_timers = xbt_heap_new(8, &free);
173   }
174
175   SIMIX_HOST_LEVEL = xbt_lib_add_level(host_lib,SIMIX_host_destroy);
176   SIMIX_STORAGE_LEVEL = xbt_lib_add_level(storage_lib, SIMIX_storage_destroy);
177
178   if (sg_cfg_get_boolean("clean_atexit"))
179     atexit(SIMIX_clean);
180
181   if (_sg_cfg_exit_asap)
182     exit(0);
183 }
184
185 /**
186  * \ingroup SIMIX_API
187  * \brief Clean the SIMIX simulation
188  *
189  * This functions remove the memory used by SIMIX
190  */
191 int cleaned = 0;
192 void SIMIX_clean(void)
193 {
194 #ifdef TIME_BENCH_PER_SR
195   smx_ctx_raw_new_sr();
196 #endif
197   if (cleaned) return; // to avoid double cleaning by java and C
198   cleaned = 1;
199   /* Kill everyone (except maestro) */
200   SIMIX_process_killall(simix_global->maestro_process, 1);
201
202   /* Exit the SIMIX network module */
203   SIMIX_network_exit();
204
205   xbt_heap_free(simix_timers);
206   simix_timers = NULL;
207   /* Free the remaining data structures */
208   xbt_dynar_free(&simix_global->process_to_run);
209   xbt_dynar_free(&simix_global->process_that_ran);
210   xbt_swag_free(simix_global->process_to_destroy);
211   xbt_swag_free(simix_global->process_list);
212   simix_global->process_list = NULL;
213   simix_global->process_to_destroy = NULL;
214   xbt_dict_free(&(simix_global->registered_functions));
215
216   /* Let's free maestro now */
217   SIMIX_context_free(simix_global->maestro_process->context);
218   xbt_free(simix_global->maestro_process->running_ctx);
219   xbt_free(simix_global->maestro_process);
220   simix_global->maestro_process = NULL;
221
222   /* Restore the default exception setup */
223   __xbt_running_ctx_fetch = &__xbt_ex_ctx_default;
224   __xbt_ex_terminate = &__xbt_ex_terminate_default;
225
226   /* Finish context module and SURF */
227   SIMIX_context_mod_exit();
228
229   surf_exit();
230
231 #ifdef TIME_BENCH_AMDAHL
232   xbt_os_cputimer_stop(simix_global->timer_seq);
233   XBT_INFO("Amdahl timing informations. Sequential time: %f; Parallel time: %f",
234            xbt_os_timer_elapsed(simix_global->timer_seq),
235            xbt_os_timer_elapsed(simix_global->timer_par));
236   xbt_os_timer_free(simix_global->timer_seq);
237   xbt_os_timer_free(simix_global->timer_par);
238 #endif
239
240   xbt_mallocator_free(simix_global->action_mallocator);
241   xbt_free(simix_global);
242   simix_global = NULL;
243
244   return;
245 }
246
247
248 /**
249  * \ingroup SIMIX_API
250  * \brief A clock (in second).
251  *
252  * \return Return the clock.
253  */
254 XBT_INLINE double SIMIX_get_clock(void)
255 {
256   if(MC_is_active()){
257     return MC_process_clock_get(SIMIX_process_self());
258   }else{
259     return surf_get_clock();
260   }
261 }
262
263 static int process_syscall_color(void *p)
264 {
265   switch ((*(smx_process_t *)p)->simcall.call) {
266   case SIMCALL_NONE:
267   case SIMCALL_PROCESS_KILL:
268     return 2;
269   case SIMCALL_PROCESS_RESUME:
270     return 1;
271   default:
272     return 0;
273   }
274 }
275
276 /**
277  * \ingroup SIMIX_API
278  * \brief Run the main simulation loop.
279  */
280 void SIMIX_run(void)
281 {
282   double time = 0;
283   smx_process_t process;
284   surf_action_t action;
285   smx_timer_t timer;
286   surf_model_t model;
287   unsigned int iter;
288
289   do {
290     XBT_DEBUG("New Schedule Round; size(queue)=%lu",
291         xbt_dynar_length(simix_global->process_to_run));
292 #ifdef TIME_BENCH_PER_SR
293     smx_ctx_raw_new_sr();
294 #endif
295     while (!xbt_dynar_is_empty(simix_global->process_to_run)) {
296       XBT_DEBUG("New Sub-Schedule Round; size(queue)=%lu",
297               xbt_dynar_length(simix_global->process_to_run));
298
299       /* Run all processes that are ready to run, possibly in parallel */
300 #ifdef TIME_BENCH_AMDAHL
301       xbt_os_cputimer_stop(simix_global->timer_seq);
302       xbt_os_cputimer_resume(simix_global->timer_par);
303 #endif
304       SIMIX_process_runall();
305 #ifdef TIME_BENCH_AMDAHL
306       xbt_os_cputimer_stop(simix_global->timer_par);
307       xbt_os_cputimer_resume(simix_global->timer_seq);
308 #endif
309
310       /* Move all killing processes to the end of the list, because killing a process that have an ongoing simcall is a bad idea */
311       xbt_dynar_three_way_partition(simix_global->process_that_ran, process_syscall_color);
312
313       /* answer sequentially and in a fixed arbitrary order all the simcalls that were issued during that sub-round */
314
315       /* WARNING, the order *must* be fixed or you'll jeopardize the simulation reproducibility (see RR-7653) */
316
317       /* Here, the order is ok because:
318        *
319        *   Short proof: only maestro adds stuff to the process_to_run array, so the execution order of user contexts do not impact its order.
320        *
321        *   Long proof: processes remain sorted through an arbitrary (implicit, complex but fixed) order in all cases.
322        *
323        *   - if there is no kill during the simulation, processes remain sorted according by their PID.
324        *     rational: This can be proved inductively.
325        *        Assume that process_to_run is sorted at a beginning of one round (it is at round 0: the deployment file is parsed linearly).
326        *        Let's show that it is still so at the end of this round.
327        *        - if a process is added when being created, that's from maestro. It can be either at startup
328        *          time (and then in PID order), or in response to a process_create simcall. Since simcalls are handled
329        *          in arbitrary order (inductive hypothesis), we are fine.
330        *        - If a process is added because it's getting killed, its subsequent actions shouldn't matter
331        *        - If a process gets added to process_to_run because one of their blocking action constituting the meat
332        *          of a simcall terminates, we're still good. Proof:
333        *          - You are added from SIMIX_simcall_answer() only. When this function is called depends on the resource
334        *            kind (network, cpu, disk, whatever), but the same arguments hold. Let's take communications as an example.
335        *          - For communications, this function is called from SIMIX_comm_finish().
336        *            This function itself don't mess with the order since simcalls are handled in FIFO order.
337        *            The function is called:
338        *            - before the comm starts (invalid parameters, or resource already dead or whatever).
339        *              The order then trivial holds since maestro didn't interrupt its handling of the simcall yet
340        *            - because the communication failed or were canceled after startup. In this case, it's called from the function
341        *              we are in, by the chunk:
342        *                       set = model->states.failed_action_set;
343        *                       while ((action = xbt_swag_extract(set)))
344        *                          SIMIX_simcall_post((smx_action_t) action->data);
345        *              This order is also fixed because it depends of the order in which the surf actions were
346        *              added to the system, and only maestro can add stuff this way, through simcalls.
347        *              We thus use the inductive hypothesis once again to conclude that the order in which actions are
348        *              poped out of the swag does not depend on the user code's execution order.
349        *            - because the communication terminated. In this case, actions are served in the order given by
350        *                       set = model->states.done_action_set;
351        *                       while ((action = xbt_swag_extract(set)))
352        *                          SIMIX_simcall_post((smx_action_t) action->data);
353        *              and the argument is very similar to the previous one.
354        *            So, in any case, the orders of calls to SIMIX_comm_finish() do not depend on the order in which user processes are executed.
355        *          So, in any cases, the orders of processes within process_to_run do not depend on the order in which user processes were executed previously.
356        *     So, if there is no killing in the simulation, the simulation reproducibility is not jeopardized.
357        *   - If there is some process killings, the order is changed by this decision that comes from user-land
358        *     But this decision may not have been motivated by a situation that were different because the simulation is not reproducible.
359        *     So, even the order change induced by the process killing is perfectly reproducible.
360        *
361        *   So science works, bitches [http://xkcd.com/54/].
362        *
363        *   We could sort the process_that_ran array completely so that we can describe the order in which simcalls are handled
364        *   (like "according to the PID of issuer"), but it's not mandatory (order is fixed already even if unfriendly).
365        *   That would thus be a pure waste of time.
366        */
367
368       xbt_dynar_foreach(simix_global->process_that_ran, iter, process) {
369         if (process->simcall.call != SIMCALL_NONE) {
370           SIMIX_simcall_pre(&process->simcall, 0);
371         }
372       }
373     }
374
375     time = SIMIX_timer_next();
376     if (time != -1.0 || xbt_swag_size(simix_global->process_list) != 0)
377       time = surf_solve(time);
378
379     /* Notify all the hosts that have failed */
380     /* FIXME: iterate through the list of failed host and mark each of them */
381     /* as failed. On each host, signal all the running processes with host_fail */
382
383     /* Handle any pending timer */
384     while (xbt_heap_size(simix_timers) > 0 && SIMIX_get_clock() >= SIMIX_timer_next()) {
385        //FIXME: make the timers being real callbacks
386        // (i.e. provide dispatchers that read and expand the args)
387        timer = xbt_heap_pop(simix_timers);
388        if (timer->func)
389          ((void (*)(void*))timer->func)(timer->args);
390        xbt_free(timer);
391     }
392
393     /* Wake up all processes waiting for a Surf action to finish */
394     xbt_dynar_foreach(model_list, iter, model) {
395       while ((action = surf_model_extract_failed_action_set(model)))
396         SIMIX_simcall_post((smx_action_t) surf_action_get_data(action));
397
398       while ((action = surf_model_extract_done_action_set(model)))
399         if (surf_action_get_data(action) == NULL)
400           XBT_DEBUG("probably vcpu's action %p, skip", action);
401         else
402           SIMIX_simcall_post((smx_action_t) surf_action_get_data(action));
403     }
404
405     /* Autorestart all process */
406     if(host_that_restart) {
407       char *hostname = NULL;
408       xbt_dynar_foreach(host_that_restart,iter,hostname) {
409         XBT_INFO("Restart processes on host: %s",hostname);
410         SIMIX_host_autorestart(SIMIX_host_get_by_name(hostname));
411       }
412       xbt_dynar_reset(host_that_restart);
413     }
414
415     /* Clean processes to destroy */
416     SIMIX_process_empty_trash();
417
418
419     XBT_DEBUG("### time %f, empty %d", time, xbt_dynar_is_empty(simix_global->process_to_run));
420     // !(time == -1.0 && xbt_dynar_is_empty())
421
422
423   } while (time != -1.0 || !xbt_dynar_is_empty(simix_global->process_to_run));
424
425   if (xbt_swag_size(simix_global->process_list) != 0) {
426
427 #ifdef HAVE_TRACING
428     TRACE_end();
429 #endif
430
431     XBT_CRITICAL("Oops ! Deadlock or code not perfectly clean.");
432     SIMIX_display_process_status();
433     xbt_abort();
434   }
435 }
436
437 /**
438  *   \brief Set the date to execute a function
439  *
440  * Set the date to execute the function on the surf.
441  *   \param date Date to execute function
442  *   \param function Function to be executed
443  *   \param arg Parameters of the function
444  *
445  */
446 XBT_INLINE void SIMIX_timer_set(double date, void *function, void *arg)
447 {
448   smx_timer_t timer = xbt_new0(s_smx_timer_t, 1);
449
450   timer->date = date;
451   timer->func = function;
452   timer->args = arg;
453   xbt_heap_push(simix_timers, timer, date);
454 }
455
456 /**
457  * \brief Registers a function to create a process.
458  *
459  * This function registers a function to be called
460  * when a new process is created. The function has
461  * to call SIMIX_process_create().
462  * \param function create process function
463  */
464 XBT_INLINE void SIMIX_function_register_process_create(smx_creation_func_t
465                                                        function)
466 {
467   simix_global->create_process_function = function;
468 }
469
470 /**
471  * \brief Registers a function to kill a process.
472  *
473  * This function registers a function to be called when a
474  * process is killed. The function has to call the SIMIX_process_kill().
475  *
476  * \param function Kill process function
477  */
478 XBT_INLINE void SIMIX_function_register_process_kill(void_pfn_smxprocess_t_smxprocess_t
479                                                      function)
480 {
481   simix_global->kill_process_function = function;
482 }
483
484 /**
485  * \brief Registers a function to cleanup a process.
486  *
487  * This function registers a user function to be called when
488  * a process ends properly.
489  *
490  * \param function cleanup process function
491  */
492 XBT_INLINE void SIMIX_function_register_process_cleanup(void_pfn_smxprocess_t
493                                                         function)
494 {
495   simix_global->cleanup_process_function = function;
496 }
497
498
499 void SIMIX_display_process_status(void)
500 {
501   if (simix_global->process_list == NULL) {
502     return;
503   }
504
505   smx_process_t process = NULL;
506   int nbprocess = xbt_swag_size(simix_global->process_list);
507
508   XBT_INFO("%d processes are still running, waiting for something.", nbprocess);
509   /*  List the process and their state */
510   XBT_INFO
511     ("Legend of the following listing: \"Process <pid> (<name>@<host>): <status>\"");
512   xbt_swag_foreach(process, simix_global->process_list) {
513
514     if (process->waiting_action) {
515
516       const char* action_description = "unknown";
517       switch (process->waiting_action->type) {
518
519       case SIMIX_ACTION_EXECUTE:
520         action_description = "execution";
521         break;
522
523       case SIMIX_ACTION_PARALLEL_EXECUTE:
524         action_description = "parallel execution";
525         break;
526
527       case SIMIX_ACTION_COMMUNICATE:
528         action_description = "communication";
529         break;
530
531       case SIMIX_ACTION_SLEEP:
532         action_description = "sleeping";
533         break;
534
535       case SIMIX_ACTION_SYNCHRO:
536         action_description = "synchronization";
537         break;
538
539       case SIMIX_ACTION_IO:
540         action_description = "I/O";
541         break;
542       /* **************************************/
543       /* TUTORIAL: New API                    */
544       case SIMIX_ACTION_NEW_API:
545         action_description = "NEW API";
546       /* **************************************/
547
548         break;
549       }
550       XBT_INFO("Process %lu (%s@%s): waiting for %s action %p (%s) in state %d to finish",
551           process->pid, process->name, sg_host_name(process->smx_host),
552           action_description, process->waiting_action,
553           process->waiting_action->name, (int)process->waiting_action->state);
554     }
555     else {
556       XBT_INFO("Process %lu (%s@%s)", process->pid, process->name, sg_host_name(process->smx_host));
557     }
558   }
559 }
560
561 static void* SIMIX_action_mallocator_new_f(void) {
562   smx_action_t action = xbt_new(s_smx_action_t, 1);
563   action->simcalls = xbt_fifo_new();
564   return action;
565 }
566
567 static void SIMIX_action_mallocator_free_f(void* action) {
568   xbt_fifo_free(((smx_action_t) action)->simcalls);
569   xbt_free(action);
570 }
571
572 static void SIMIX_action_mallocator_reset_f(void* action) {
573
574   // we also recycle the simcall list
575   xbt_fifo_t fifo = ((smx_action_t) action)->simcalls;
576   xbt_fifo_reset(fifo);
577   memset(action, 0, sizeof(s_smx_action_t));
578   ((smx_action_t) action)->simcalls = fifo;
579 }
580
581 xbt_dict_t SIMIX_pre_asr_get_properties(smx_simcall_t simcall, const char *name){
582   return SIMIX_asr_get_properties(name);
583 }
584 xbt_dict_t SIMIX_asr_get_properties(const char *name)
585 {
586   return xbt_lib_get_or_null(as_router_lib, name, ROUTING_PROP_ASR_LEVEL);
587 }
588