Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Fix the code to kill surnumerous slaves
[simgrid.git] / examples / gras / pmm / pmm.c
1 /* $Id$ */
2 /* pmm - parallel matrix multiplication "double diffusion"                  */
3
4 /* Copyright (c) 2006 Ahmed Harbaoui.                                       */
5 /* Copyright (c) 2006 Martin Quinson.                                       */
6 /* All rights reserved.                                                     */
7
8 /* This program is free software; you can redistribute it and/or modify it
9  * under the terms of the license (GNU LGPL) which comes with this package. */
10
11 #include "gras.h"
12 #include "xbt/matrix.h"
13 #include "amok/peermanagement.h"
14
15 #define PROC_MATRIX_SIZE 3
16 #define NEIGHBOR_COUNT PROC_MATRIX_SIZE - 1
17 #define SLAVE_COUNT (PROC_MATRIX_SIZE*PROC_MATRIX_SIZE)
18
19 #define DATA_MATRIX_SIZE 9
20 const int submatrix_size = DATA_MATRIX_SIZE/PROC_MATRIX_SIZE;
21
22 XBT_LOG_NEW_DEFAULT_CATEGORY(pmm,"Parallel Matrix Multiplication");
23
24 /* struct for recovering results */
25 GRAS_DEFINE_TYPE(s_result,struct s_result {
26   int linepos;
27   int rowpos;
28   xbt_matrix_t C GRAS_ANNOTE(subtype,double);
29 });
30 typedef struct s_result result_t;
31
32 /* struct to send initial data to slave */
33 GRAS_DEFINE_TYPE(s_pmm_assignment,struct s_pmm_assignment {
34   int linepos;
35   int rowpos;
36   xbt_peer_t line[NEIGHBOR_COUNT];
37   xbt_peer_t row[NEIGHBOR_COUNT];
38   xbt_matrix_t A GRAS_ANNOTE(subtype,double);
39   xbt_matrix_t B GRAS_ANNOTE(subtype,double);
40 });
41 typedef struct s_pmm_assignment s_pmm_assignment_t;
42
43 /* register messages which may be sent (common to client and server) */
44 static void register_messages(void) {
45   gras_datadesc_type_t result_type;
46   gras_datadesc_type_t pmm_assignment_type;
47
48   gras_datadesc_set_const("NEIGHBOR_COUNT",NEIGHBOR_COUNT);
49   result_type=gras_datadesc_by_symbol(s_result);
50   pmm_assignment_type=gras_datadesc_by_symbol(s_pmm_assignment);
51         
52   /* receive a final result from slave */
53   gras_msgtype_declare("result", result_type);
54
55   /* send from master to slave to assign a position and some data */
56   gras_msgtype_declare("pmm_slave", pmm_assignment_type);
57
58   /* send data between slaves */
59   gras_msgtype_declare("dataA", gras_datadesc_matrix(gras_datadesc_by_name("double"),NULL));
60   gras_msgtype_declare("dataB", gras_datadesc_matrix(gras_datadesc_by_name("double"),NULL));
61 }
62
63 /* Function prototypes */
64 int slave (int argc,char *argv[]);
65 int master (int argc,char *argv[]);
66
67
68 /* **********************************************************************
69  * master code
70  * **********************************************************************/
71
72 /* Global private data */
73 typedef struct {
74   int nbr_row,nbr_line;
75   int remaining_step;
76   int remaining_ack;
77 } master_data_t;
78
79
80 int master (int argc,char *argv[]) {
81
82   int i;
83   double init_delay;
84
85   xbt_matrix_t A,B,C;
86   result_t result;
87
88   gras_socket_t from;
89
90   xbt_dynar_t peers; /* group of slaves */
91   xbt_peer_t grid[SLAVE_COUNT]; /* The slaves as an array */
92   gras_socket_t socket[SLAVE_COUNT]; /* sockets for brodcast to slaves */
93
94   /* Init the GRAS's infrastructure */
95   gras_init(&argc, argv);
96   amok_pm_init();
97   register_messages();
98       
99   /* Initialize data matrices */
100   A = xbt_matrix_double_new_id(DATA_MATRIX_SIZE,DATA_MATRIX_SIZE);
101   B = xbt_matrix_double_new_seq(DATA_MATRIX_SIZE,DATA_MATRIX_SIZE);
102   C = xbt_matrix_double_new_zeros(DATA_MATRIX_SIZE,DATA_MATRIX_SIZE);
103         
104   /* Create the connexions */
105   xbt_assert0(argc>1, "Usage: master <port>");
106   gras_socket_server(atoi(argv[1]));
107   peers=amok_pm_group_new("pmm");
108    
109   /* friends, we're ready. Come and play */
110   if (gras_if_RL()) {
111      init_delay = 5;
112   } else {
113      init_delay = 15; /* no idea why I have to wait that long in simulation */
114   }
115   INFO1("Wait for peers for %.0f sec",init_delay);
116   gras_msg_handleall(init_delay);
117   INFO1("Got %ld pals",xbt_dynar_length(peers));
118
119   for (i=0;
120        i<xbt_dynar_length(peers) && i<SLAVE_COUNT;
121        i++) {
122
123     xbt_dynar_get_cpy(peers,i,&grid[i]);
124     INFO2("Connecting to %s:%d.",grid[i]->name,grid[i]->port);
125     socket[i]=gras_socket_client(grid[i]->name,grid[i]->port);
126     INFO2("Connected to %s:%d.",grid[i]->name,grid[i]->port);
127   }
128   xbt_assert2(i==SLAVE_COUNT,
129               "Not enough slaves for this setting (got %d of %d). Change the deployment file",
130               i,SLAVE_COUNT);
131
132   /* Kill surnumerous slaves */
133   for (i=SLAVE_COUNT; i<xbt_dynar_length(peers); ) {
134     xbt_peer_t h;
135
136     xbt_dynar_remove_at(peers,i,&h);
137     INFO2("Too much slaves. Killing %s:%d", h->name, h->port);
138     amok_pm_kill_hp(h->name,h->port);
139     free(h);
140   }
141
142
143   /* Assign job to slaves */
144   int row=0, line=0;
145   INFO0("XXXXXXXXXXXXXXXXXXXXXX begin Multiplication");
146   for(i=0 ; i<SLAVE_COUNT; i++){
147     s_pmm_assignment_t assignment;
148     int j,k;
149
150     assignment.linepos=line; // assigned line
151     assignment.rowpos=row;   // assigned row
152
153     /* Neiborhood */
154     for (j=0,k=0; j<PROC_MATRIX_SIZE; j++) {
155       if (i != j*PROC_MATRIX_SIZE+(row)) {          
156          assignment.row[k] = grid[ j*PROC_MATRIX_SIZE+(row) ] ;
157          k++;
158       }
159     }
160     for (j=0,k=0; j<PROC_MATRIX_SIZE; j++) {
161       if (i != (line)*PROC_MATRIX_SIZE+j) {         
162          assignment.line[k] =  grid[ (line)*PROC_MATRIX_SIZE+j ] ;
163          k++;
164       }
165     }
166
167     assignment.A=xbt_matrix_new_sub(A,
168                                     submatrix_size,submatrix_size,
169                                     submatrix_size*line,submatrix_size*row,
170                                     NULL);
171     assignment.B=xbt_matrix_new_sub(B,
172                                     submatrix_size,submatrix_size,
173                                     submatrix_size*line,submatrix_size*row,
174                                     NULL);
175     row++;
176     if (row >= PROC_MATRIX_SIZE) {
177       row=0;
178       line++;
179     }
180                 
181     gras_msg_send(socket[i],gras_msgtype_by_name("pmm_slave"),&assignment);
182     xbt_matrix_free(assignment.A);
183     xbt_matrix_free(assignment.B);
184   }
185
186   /* (have a rest while the slave perform the multiplication) */
187
188   /* Retrieve the results */
189   for( i=0;i< SLAVE_COUNT;i++){
190     gras_msg_wait(6000,gras_msgtype_by_name("result"),&from,&result);
191     VERB2("%d slaves are done already. Waiting for %d",i+1, SLAVE_COUNT);
192     xbt_matrix_copy_values(C,result.C,   submatrix_size,submatrix_size,
193                            submatrix_size*result.linepos,
194                            submatrix_size*result.rowpos,
195                            0,0,NULL);
196     xbt_matrix_free(result.C);
197   }
198   /*    end of gather   */
199
200   if (DATA_MATRIX_SIZE < 30) {
201      INFO0 ("The Result of Multiplication is :");
202      xbt_matrix_dump(C,"C:res",0,xbt_matrix_dump_display_double);
203   } else {
204      INFO1("Matrix size too big (%d>30) to be displayed here",DATA_MATRIX_SIZE);
205   }
206
207   amok_pm_group_shutdown ("pmm");   /* Ok, we're out of here */
208
209   for(i=0; i<SLAVE_COUNT; i++) {
210      gras_socket_close(socket[i]);
211   }
212    
213   xbt_matrix_free(A);
214   xbt_matrix_free(B);
215   xbt_matrix_free(C);
216   gras_exit();
217   return 0;
218 } /* end_of_master */
219
220 /* **********************************************************************
221  * slave code
222  * **********************************************************************/
223
224 static int pmm_worker_cb(gras_msg_cb_ctx_t ctx, void *payload) {
225   /* Recover my initialized Data and My Position*/
226   s_pmm_assignment_t assignment = *(s_pmm_assignment_t*)payload;
227   gras_socket_t master = gras_msg_cb_ctx_from(ctx);
228
229   xbt_ex_t e; 
230
231   int step,l;
232   xbt_matrix_t bA=xbt_matrix_new(submatrix_size,submatrix_size,
233                                  sizeof(double),NULL);
234   xbt_matrix_t bB=xbt_matrix_new(submatrix_size,submatrix_size,
235                                  sizeof(double),NULL);
236
237   int myline,myrow;
238   xbt_matrix_t mydataA,mydataB;
239   xbt_matrix_t bC=xbt_matrix_double_new_zeros(submatrix_size,submatrix_size);
240   
241   result_t result;
242  
243   gras_socket_t from;  /* to exchange data with my neighbor */
244
245   /* sockets for brodcast to other slave */
246   gras_socket_t socket_line[PROC_MATRIX_SIZE-1];
247   gras_socket_t socket_row[PROC_MATRIX_SIZE-1];
248   memset(socket_line,0,sizeof(socket_line));
249   memset(socket_row,0,sizeof(socket_row));
250    
251   int i;
252
253   gras_os_sleep(1); /* wait for my pals */
254
255   myline  = assignment.linepos;
256   myrow   = assignment.rowpos;
257   mydataA = assignment.A;
258   mydataB = assignment.B;
259
260   INFO2("Receive my pos (%d,%d) and assignment",myline,myrow);
261
262   /* Get my neighborhood from the assignment message (skipping myself) */
263   for (i=0 ; i<PROC_MATRIX_SIZE-1 ; i++){
264     socket_line[i]=gras_socket_client(assignment.line[i]->name,
265                                       assignment.line[i]->port);
266     xbt_peer_free(assignment.line[i]);
267   }
268   for (i=0 ; i<PROC_MATRIX_SIZE-1 ; i++){
269     socket_row[i]=gras_socket_client(assignment.row[i]->name,
270                                      assignment.row[i]->port);
271     xbt_peer_free(assignment.row[i]);    
272   }
273
274   for (step=0; step<PROC_MATRIX_SIZE;step++) {
275         
276     /* a line brodcast */
277     if(myline==step){
278        INFO3("LINE: step(%d) = Myline(%d). Broadcast my data (myport=%d).",
279              step,myline,gras_os_myport());
280        for (l=0;l < PROC_MATRIX_SIZE-1 ;l++) {
281           INFO2("LINE:   Send to %s:%d",
282                 gras_socket_peer_name(socket_row[l]),
283                 gras_socket_peer_port(socket_row[l]));
284          gras_msg_send(socket_row[l], 
285                        gras_msgtype_by_name("dataB"), 
286                        &mydataB);
287        }
288        
289         
290        xbt_matrix_free(bB);
291        bB = xbt_matrix_new_sub(mydataB,
292                                submatrix_size,submatrix_size,
293                                0,0,NULL);       
294     } else {
295       TRY {
296         xbt_matrix_free(bB);
297         gras_msg_wait(600,gras_msgtype_by_name("dataB"),&from,&bB);
298       } CATCH(e) {
299         RETHROW0("Can't get a data message from line : %s");
300       }
301       INFO4("LINE: step(%d) <> Myline(%d). Receive data from %s:%d",step,myline,
302             gras_socket_peer_name(from), gras_socket_peer_port(from));
303     }
304
305     /* a row brodcast */
306     if (myrow==step) { 
307        INFO2("ROW: step(%d)=myrow(%d). Broadcast my data",step,myrow);
308        for (l=1;l < PROC_MATRIX_SIZE ; l++) {
309           INFO2("ROW:   Send to %s:%d",
310                 gras_socket_peer_name(socket_line[l-1]),
311                 gras_socket_peer_port(socket_line[l-1]));
312           gras_msg_send(socket_line[l-1],gras_msgtype_by_name("dataA"), &mydataA);
313        }
314        xbt_matrix_free(bA);
315        bA = xbt_matrix_new_sub(mydataA,
316                                submatrix_size,submatrix_size,
317                                0,0,NULL);
318     } else {
319       TRY {
320         xbt_matrix_free(bA);
321         gras_msg_wait(1200,gras_msgtype_by_name("dataA"), &from,&bA);
322       } CATCH(e) {
323         RETHROW0("Can't get a data message from row : %s");
324       }
325       INFO3("ROW: step(%d)<>myrow(%d). Receive data from %s",step,myrow,
326             gras_socket_peer_name(from));
327     }
328     xbt_matrix_double_addmult(bA,bB,bC);
329
330   };
331  
332   /* send Result to master */  
333   result.C=bC;
334   result.linepos=myline;
335   result.rowpos=myrow;
336
337   TRY {
338     gras_msg_send(master, gras_msgtype_by_name("result"),&result);
339   } CATCH(e) {
340     RETHROW0("Failed to send answer to server: %s");
341   }
342   INFO2(">>>>>>>> Result sent to %s:%d <<<<<<<<",
343         gras_socket_peer_name(master),gras_socket_peer_port(master));
344   /*  Free the allocated resources, and shut GRAS down */
345
346   xbt_matrix_free(bA);
347   xbt_matrix_free(bB);
348   xbt_matrix_free(bC);
349
350   xbt_matrix_free(mydataA);
351   xbt_matrix_free(mydataB);
352   gras_socket_close(master);
353   gras_socket_close(from);
354   /* FIXME: some are said to be unknown 
355   for (l=0; l < PROC_MATRIX_SIZE-1; l++) {
356      if (socket_line[l])
357        gras_socket_close(socket_line[l]);
358      if (socket_row[l])
359        gras_socket_close(socket_row[l]); 
360   }*/
361
362   return 1;
363 }
364
365 int slave(int argc,char *argv[]) {
366   gras_socket_t mysock;
367   gras_socket_t master;
368
369   /* Init the GRAS's infrastructure */
370   gras_init(&argc, argv);
371   amok_pm_init();
372
373   /*  Register the known messages and my callback */
374   register_messages();
375   gras_cb_register(gras_msgtype_by_name("pmm_slave"),pmm_worker_cb);
376
377   /* Create the connexions */
378   mysock = gras_socket_server_range(3000,9999,0,0);
379   gras_os_sleep(1); /* let the master get ready */
380   INFO1("Sensor starting (on port %d)",gras_os_myport());
381   master = gras_socket_client_from_string(argv[1]);
382                                 
383   /* Join and run the group */
384   amok_pm_group_join(master,"pmm");
385   amok_pm_mainloop(600);
386
387   /* housekeeping */
388   gras_socket_close(mysock);
389   //  gras_socket_close(master); Unknown
390   gras_exit();
391   return 0;
392 } /* end_of_slave */