Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
9e3693007400f79215e767fec0260e21939bd829
[simgrid.git] / examples / deprecated / msg / platform-failures / platform-failures.tesh
1 #!/usr/bin/env tesh
2
3 p Testing a simple master/worker example application handling failures TCP crosstraffic DISABLED
4
5 ! output sort 19
6 $ $SG_TEST_EXENV ${bindir:=.}/platform-failures$EXEEXT --log=xbt_cfg.thres:critical --log=no_loc ${platfdir}/small_platform_failures.xml ${srcdir}/../app-masterworker/app-masterworker_d.xml --cfg=path:${srcdir} --cfg=network/crosstraffic:0 "--log=root.fmt:[%10.6r]%e(%i:%P@%h)%e%m%n" --log=surf_cpu.t:verbose
7 > [  0.000000] (0:maestro@) Cannot launch actor 'worker' on failed host 'Fafard'
8 > [  0.000000] (0:maestro@) Deployment includes some initially turned off Hosts ... nevermind.
9 > [  0.000000] (1:master@Tremblay) Got 5 workers and 20 tasks to process
10 > [  0.000000] (1:master@Tremblay) Send a message to worker-0
11 > [  0.010309] (1:master@Tremblay) Send to worker-0 completed
12 > [  0.010309] (2:worker@Tremblay) Start execution...
13 > [  0.000000] (2:worker@Tremblay) Waiting a message on worker-0
14 > [  0.000000] (3:worker@Jupiter) Waiting a message on worker-1
15 > [  0.000000] (4:worker@Ginette) Waiting a message on worker-3
16 > [  0.000000] (5:worker@Bourassa) Waiting a message on worker-4
17 > [  0.010309] (1:master@Tremblay) Send a message to worker-1
18 > [  1.000000] (0:maestro@) Restart processes on host Fafard
19 > [  1.000000] (6:worker@Fafard) Waiting a message on worker-2
20 > [  1.000000] (1:master@Tremblay) Mmh. Something went wrong with 'worker-1'. Nevermind. Let's keep going!
21 > [  1.000000] (1:master@Tremblay) Send a message to worker-2
22 > [  1.000000] (3:worker@Jupiter) Gloups. The cpu on which I'm running just turned off!. See you!
23 > [  2.000000] (1:master@Tremblay) Mmh. Something went wrong with 'worker-2'. Nevermind. Let's keep going!
24 > [  2.000000] (6:worker@Fafard) Gloups. The cpu on which I'm running just turned off!. See you!
25 > [  2.000000] (0:maestro@) Restart processes on host Jupiter
26 > [  2.000000] (1:master@Tremblay) Send a message to worker-3
27 > [  2.000000] (7:worker@Jupiter) Waiting a message on worker-1
28 > [  2.010309] (2:worker@Tremblay) Execution complete.
29 > [  2.010309] (2:worker@Tremblay) Waiting a message on worker-0
30 > [  3.030928] (1:master@Tremblay) Send to worker-3 completed
31 > [  3.030928] (1:master@Tremblay) Send a message to worker-4
32 > [  3.030928] (4:worker@Ginette) Start execution...
33 > [  4.061856] (1:master@Tremblay) Send to worker-4 completed
34 > [  4.061856] (1:master@Tremblay) Send a message to worker-0
35 > [  4.061856] (5:worker@Bourassa) Start execution...
36 > [  4.072165] (1:master@Tremblay) Send to worker-0 completed
37 > [  4.072165] (1:master@Tremblay) Send a message to worker-1
38 > [  4.072165] (2:worker@Tremblay) Start execution...
39 > [  5.030928] (4:worker@Ginette) Execution complete.
40 > [  5.030928] (4:worker@Ginette) Waiting a message on worker-3
41 > [  5.103093] (1:master@Tremblay) Send to worker-1 completed
42 > [  5.103093] (1:master@Tremblay) Send a message to worker-2
43 > [  5.103093] (7:worker@Jupiter) Start execution...
44 > [  6.061856] (5:worker@Bourassa) Execution complete.
45 > [  6.061856] (5:worker@Bourassa) Waiting a message on worker-4
46 > [  6.072165] (2:worker@Tremblay) Execution complete.
47 > [  6.072165] (2:worker@Tremblay) Waiting a message on worker-0
48 > [  7.103093] (7:worker@Jupiter) Execution complete.
49 > [  7.103093] (7:worker@Jupiter) Waiting a message on worker-1
50 > [ 15.103093] (1:master@Tremblay) Mmh. Got timeouted while speaking to 'worker-2'. Nevermind. Let's keep going!
51 > [ 15.103093] (1:master@Tremblay) Send a message to worker-3
52 > [ 15.103093] (1:master@Tremblay) Mmh. Something went wrong with 'worker-3'. Nevermind. Let's keep going!
53 > [ 15.103093] (1:master@Tremblay) Send a message to worker-4
54 > [ 15.103093] (4:worker@Ginette) Mmh. Something went wrong. Nevermind. Let's keep going!
55 > [ 15.103093] (4:worker@Ginette) Waiting a message on worker-3
56 > [ 16.134021] (1:master@Tremblay) Send to worker-4 completed
57 > [ 16.134021] (1:master@Tremblay) Send a message to worker-0
58 > [ 16.134021] (5:worker@Bourassa) Start execution...
59 > [ 16.144330] (1:master@Tremblay) Send to worker-0 completed
60 > [ 16.144330] (1:master@Tremblay) Send a message to worker-1
61 > [ 16.144330] (2:worker@Tremblay) Start execution...
62 > [ 17.175258] (1:master@Tremblay) Send to worker-1 completed
63 > [ 17.175258] (1:master@Tremblay) Send a message to worker-2
64 > [ 17.175258] (7:worker@Jupiter) Start execution...
65 > [ 18.134021] (5:worker@Bourassa) Execution complete.
66 > [ 18.134021] (5:worker@Bourassa) Waiting a message on worker-4
67 > [ 18.144330] (2:worker@Tremblay) Execution complete.
68 > [ 18.144330] (2:worker@Tremblay) Waiting a message on worker-0
69 > [ 19.175258] (7:worker@Jupiter) Execution complete.
70 > [ 19.175258] (7:worker@Jupiter) Waiting a message on worker-1
71 > [ 27.175258] (1:master@Tremblay) Mmh. Got timeouted while speaking to 'worker-2'. Nevermind. Let's keep going!
72 > [ 27.175258] (1:master@Tremblay) Send a message to worker-3
73 > [ 28.206186] (1:master@Tremblay) Send to worker-3 completed
74 > [ 28.206186] (1:master@Tremblay) Send a message to worker-4
75 > [ 28.206186] (1:master@Tremblay) Mmh. Something went wrong with 'worker-4'. Nevermind. Let's keep going!
76 > [ 28.206186] (1:master@Tremblay) Send a message to worker-0
77 > [ 28.206186] (4:worker@Ginette) Start execution...
78 > [ 28.206186] (5:worker@Bourassa) Mmh. Something went wrong. Nevermind. Let's keep going!
79 > [ 28.206186] (5:worker@Bourassa) Waiting a message on worker-4
80 > [ 28.216495] (1:master@Tremblay) Send to worker-0 completed
81 > [ 28.216495] (1:master@Tremblay) Send a message to worker-1
82 > [ 28.216495] (2:worker@Tremblay) Start execution...
83 > [ 29.247423] (1:master@Tremblay) Send to worker-1 completed
84 > [ 29.247423] (1:master@Tremblay) Send a message to worker-2
85 > [ 29.247423] (7:worker@Jupiter) Start execution...
86 > [ 30.206186] (4:worker@Ginette) Execution complete.
87 > [ 30.206186] (4:worker@Ginette) Waiting a message on worker-3
88 > [ 30.216495] (2:worker@Tremblay) Execution complete.
89 > [ 30.216495] (2:worker@Tremblay) Waiting a message on worker-0
90 > [ 31.247423] (7:worker@Jupiter) Execution complete.
91 > [ 31.247423] (7:worker@Jupiter) Waiting a message on worker-1
92 > [ 39.247423] (1:master@Tremblay) Mmh. Got timeouted while speaking to 'worker-2'. Nevermind. Let's keep going!
93 > [ 39.247423] (1:master@Tremblay) Send a message to worker-3
94 > [ 40.278351] (1:master@Tremblay) Send to worker-3 completed
95 > [ 40.278351] (1:master@Tremblay) Send a message to worker-4
96 > [ 40.278351] (4:worker@Ginette) Start execution...
97 > [ 41.000000] (4:worker@Ginette) Gloups. The cpu on which I'm running just turned off!. See you!
98 > [ 41.309278] (1:master@Tremblay) Send to worker-4 completed
99 > [ 41.309278] (1:master@Tremblay) All tasks have been dispatched. Let's tell everybody the computation is over.
100 > [ 41.309278] (2:worker@Tremblay) I'm done. See you!
101 > [ 41.309278] (5:worker@Bourassa) Start execution...
102 > [ 41.309278] (7:worker@Jupiter) I'm done. See you!
103 > [ 42.309278] (1:master@Tremblay) Mmh. Got timeouted while speaking to 'worker-2'. Nevermind. Let's keep going!
104 > [ 43.309278] (0:maestro@) Simulation time 43.3093
105 > [ 43.309278] (1:master@Tremblay) Mmh. Got timeouted while speaking to 'worker-3'. Nevermind. Let's keep going!
106 > [ 43.309278] (1:master@Tremblay) Goodbye now!
107 > [ 43.309278] (5:worker@Bourassa) Execution complete.
108 > [ 43.309278] (5:worker@Bourassa) Waiting a message on worker-4
109 > [ 43.309278] (5:worker@Bourassa) I'm done. See you!
110
111 p Testing a simple master/worker example application handling failures. TCP crosstraffic ENABLED
112
113 ! output sort 19
114 $ $SG_TEST_EXENV ${bindir:=.}/platform-failures$EXEEXT --log=xbt_cfg.thres:critical --log=no_loc ${platfdir}/small_platform_failures.xml ${srcdir}/../app-masterworker/app-masterworker_d.xml --cfg=path:${srcdir} "--log=root.fmt:[%10.6r]%e(%i:%P@%h)%e%m%n" --log=surf_cpu.t:verbose
115 > [  0.000000] (0:maestro@) Cannot launch actor 'worker' on failed host 'Fafard'
116 > [  0.000000] (0:maestro@) Deployment includes some initially turned off Hosts ... nevermind.
117 > [  0.000000] (1:master@Tremblay) Got 5 workers and 20 tasks to process
118 > [  0.000000] (1:master@Tremblay) Send a message to worker-0
119 > [  0.000000] (2:worker@Tremblay) Waiting a message on worker-0
120 > [  0.000000] (3:worker@Jupiter) Waiting a message on worker-1
121 > [  0.000000] (4:worker@Ginette) Waiting a message on worker-3
122 > [  0.000000] (5:worker@Bourassa) Waiting a message on worker-4
123 > [  0.010825] (2:worker@Tremblay) Start execution...
124 > [  0.010825] (1:master@Tremblay) Send to worker-0 completed
125 > [  0.010825] (1:master@Tremblay) Send a message to worker-1
126 > [  1.000000] (0:maestro@) Restart processes on host Fafard
127 > [  1.000000] (6:worker@Fafard) Waiting a message on worker-2
128 > [  1.000000] (1:master@Tremblay) Mmh. Something went wrong with 'worker-1'. Nevermind. Let's keep going!
129 > [  1.000000] (1:master@Tremblay) Send a message to worker-2
130 > [  1.000000] (3:worker@Jupiter) Gloups. The cpu on which I'm running just turned off!. See you!
131 > [  2.000000] (0:maestro@) Restart processes on host Jupiter
132 > [  2.000000] (7:worker@Jupiter) Waiting a message on worker-1
133 > [  2.000000] (1:master@Tremblay) Mmh. Something went wrong with 'worker-2'. Nevermind. Let's keep going!
134 > [  2.000000] (1:master@Tremblay) Send a message to worker-3
135 > [  2.000000] (6:worker@Fafard) Gloups. The cpu on which I'm running just turned off!. See you!
136 > [  2.010825] (2:worker@Tremblay) Execution complete.
137 > [  2.010825] (2:worker@Tremblay) Waiting a message on worker-0
138 > [  3.082474] (4:worker@Ginette) Start execution...
139 > [  3.082474] (1:master@Tremblay) Send to worker-3 completed
140 > [  3.082474] (1:master@Tremblay) Send a message to worker-4
141 > [  4.164948] (5:worker@Bourassa) Start execution...
142 > [  4.164948] (1:master@Tremblay) Send to worker-4 completed
143 > [  4.164948] (1:master@Tremblay) Send a message to worker-0
144 > [  4.175773] (2:worker@Tremblay) Start execution...
145 > [  4.175773] (1:master@Tremblay) Send to worker-0 completed
146 > [  4.175773] (1:master@Tremblay) Send a message to worker-1
147 > [  5.082474] (4:worker@Ginette) Execution complete.
148 > [  5.082474] (4:worker@Ginette) Waiting a message on worker-3
149 > [  5.258247] (7:worker@Jupiter) Start execution...
150 > [  5.258247] (1:master@Tremblay) Send to worker-1 completed
151 > [  5.258247] (1:master@Tremblay) Send a message to worker-2
152 > [  6.164948] (5:worker@Bourassa) Execution complete.
153 > [  6.164948] (5:worker@Bourassa) Waiting a message on worker-4
154 > [  6.175773] (2:worker@Tremblay) Execution complete.
155 > [  6.175773] (2:worker@Tremblay) Waiting a message on worker-0
156 > [  7.258247] (7:worker@Jupiter) Execution complete.
157 > [  7.258247] (7:worker@Jupiter) Waiting a message on worker-1
158 > [ 15.258247] (1:master@Tremblay) Mmh. Got timeouted while speaking to 'worker-2'. Nevermind. Let's keep going!
159 > [ 15.258247] (1:master@Tremblay) Send a message to worker-3
160 > [ 15.258247] (4:worker@Ginette) Mmh. Something went wrong. Nevermind. Let's keep going!
161 > [ 15.258247] (4:worker@Ginette) Waiting a message on worker-3
162 > [ 15.258247] (1:master@Tremblay) Mmh. Something went wrong with 'worker-3'. Nevermind. Let's keep going!
163 > [ 15.258247] (1:master@Tremblay) Send a message to worker-4
164 > [ 16.340722] (5:worker@Bourassa) Start execution...
165 > [ 16.340722] (1:master@Tremblay) Send to worker-4 completed
166 > [ 16.340722] (1:master@Tremblay) Send a message to worker-0
167 > [ 16.351546] (2:worker@Tremblay) Start execution...
168 > [ 16.351546] (1:master@Tremblay) Send to worker-0 completed
169 > [ 16.351546] (1:master@Tremblay) Send a message to worker-1
170 > [ 17.434021] (7:worker@Jupiter) Start execution...
171 > [ 17.434021] (1:master@Tremblay) Send to worker-1 completed
172 > [ 17.434021] (1:master@Tremblay) Send a message to worker-2
173 > [ 18.340722] (5:worker@Bourassa) Execution complete.
174 > [ 18.340722] (5:worker@Bourassa) Waiting a message on worker-4
175 > [ 18.351546] (2:worker@Tremblay) Execution complete.
176 > [ 18.351546] (2:worker@Tremblay) Waiting a message on worker-0
177 > [ 19.434021] (7:worker@Jupiter) Execution complete.
178 > [ 19.434021] (7:worker@Jupiter) Waiting a message on worker-1
179 > [ 27.434021] (1:master@Tremblay) Mmh. Got timeouted while speaking to 'worker-2'. Nevermind. Let's keep going!
180 > [ 27.434021] (1:master@Tremblay) Send a message to worker-3
181 > [ 28.516495] (4:worker@Ginette) Start execution...
182 > [ 28.516495] (1:master@Tremblay) Send to worker-3 completed
183 > [ 28.516495] (1:master@Tremblay) Send a message to worker-4
184 > [ 28.516495] (5:worker@Bourassa) Mmh. Something went wrong. Nevermind. Let's keep going!
185 > [ 28.516495] (5:worker@Bourassa) Waiting a message on worker-4
186 > [ 28.516495] (1:master@Tremblay) Mmh. Something went wrong with 'worker-4'. Nevermind. Let's keep going!
187 > [ 28.516495] (1:master@Tremblay) Send a message to worker-0
188 > [ 28.527320] (2:worker@Tremblay) Start execution...
189 > [ 28.527320] (1:master@Tremblay) Send to worker-0 completed
190 > [ 28.527320] (1:master@Tremblay) Send a message to worker-1
191 > [ 29.609794] (7:worker@Jupiter) Start execution...
192 > [ 29.609794] (1:master@Tremblay) Send to worker-1 completed
193 > [ 29.609794] (1:master@Tremblay) Send a message to worker-2
194 > [ 30.516495] (4:worker@Ginette) Execution complete.
195 > [ 30.516495] (4:worker@Ginette) Waiting a message on worker-3
196 > [ 30.527320] (2:worker@Tremblay) Execution complete.
197 > [ 30.527320] (2:worker@Tremblay) Waiting a message on worker-0
198 > [ 31.609794] (7:worker@Jupiter) Execution complete.
199 > [ 31.609794] (7:worker@Jupiter) Waiting a message on worker-1
200 > [ 39.609794] (1:master@Tremblay) Mmh. Got timeouted while speaking to 'worker-2'. Nevermind. Let's keep going!
201 > [ 39.609794] (1:master@Tremblay) Send a message to worker-3
202 > [ 40.692268] (4:worker@Ginette) Start execution...
203 > [ 40.692268] (1:master@Tremblay) Send to worker-3 completed
204 > [ 40.692268] (1:master@Tremblay) Send a message to worker-4
205 > [ 41.000000] (4:worker@Ginette) Gloups. The cpu on which I'm running just turned off!. See you!
206 > [ 41.774742] (5:worker@Bourassa) Start execution...
207 > [ 41.774742] (1:master@Tremblay) Send to worker-4 completed
208 > [ 41.774742] (1:master@Tremblay) All tasks have been dispatched. Let's tell everybody the computation is over.
209 > [ 41.774742] (2:worker@Tremblay) I'm done. See you!
210 > [ 41.774742] (7:worker@Jupiter) I'm done. See you!
211 > [ 42.774742] (1:master@Tremblay) Mmh. Got timeouted while speaking to 'worker-2'. Nevermind. Let's keep going!
212 > [ 43.774742] (5:worker@Bourassa) Execution complete.
213 > [ 43.774742] (5:worker@Bourassa) Waiting a message on worker-4
214 > [ 43.774742] (1:master@Tremblay) Mmh. Got timeouted while speaking to 'worker-3'. Nevermind. Let's keep going!
215 > [ 43.774742] (5:worker@Bourassa) I'm done. See you!
216 > [ 43.774742] (1:master@Tremblay) Goodbye now!
217 > [ 43.774742] (0:maestro@) Simulation time 43.7747
218
219 p NOT testing the mixure of failures and CpuTI: 
220 p This test leads to a deadlock because of a bug somewhere in surf_solve.
221 p We should debug this instead of ignoring the issue, but it's utterly
222 p   complex with such an integration test. One day, we will setup a set of
223 p   unit tests for the surf solver, and such issues will be addressable again.
224 p For the time being, I just give up, sorry.
225
226 p $ $SG_TEST_EXENV ${bindir:=.}/platform-failures$EXEEXT --log=xbt_cfg.thres:critical --log=no_loc ${platfdir}/small_platform_failures.xml ${srcdir}/../app-masterworker/app-masterworker_d.xml --cfg=path:${srcdir} --cfg=cpu/optim:TI "--log=root.fmt:[%10.6r]%e(%i:%P@%h)%e%m%n" --log=surf_cpu.t:verbose