Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Compilation is at least ok - Ad(rien)
[simgrid.git] / src / mc / mc_page_snapshot.cpp
1 /* MC interface: definitions that non-MC modules must see, but not the user */
2
3 /* Copyright (c) 2014-2015. The SimGrid Team.  All rights reserved.         */
4
5 /* This program is free software; you can redistribute it and/or modify it
6  * under the terms of the license (GNU LGPL) which comes with this package. */
7
8 #include "mc_page_store.h"
9 #include "mc_mmu.h"
10 #include "mc_private.h"
11 #include "mc_snapshot.h"
12
13 #include <xbt/mmalloc.h>
14
15 #define SOFT_DIRTY_BIT_NUMBER 55
16 #define SOFT_DIRTY (((uint64_t)1) << SOFT_DIRTY_BIT_NUMBER)
17
18 extern "C" {
19
20 // ***** Region management:
21
22 /** @brief Take a per-page snapshot of a region
23  *
24  *  @param data            The start of the region (must be at the beginning of a page)
25  *  @param pag_count       Number of pages of the region
26  *  @param pagemap         Linux kernel pagemap values fot this region (or NULL)
27  *  @param reference_pages Snapshot page numbers of the previous soft_dirty_reset (or NULL)
28  *  @return                Snapshot page numbers of this new snapshot
29  */
30 size_t* mc_take_page_snapshot_region(void* data, size_t page_count, uint64_t* pagemap, size_t* reference_pages)
31 {
32   size_t* pagenos = (size_t*) malloc(page_count * sizeof(size_t));
33
34   for (size_t i=0; i!=page_count; ++i) {
35     bool softclean = pagemap && !(pagemap[i] & SOFT_DIRTY);
36     if (softclean && reference_pages) {
37       // The page is softclean, it is the same page as the reference page:
38       pagenos[i] = reference_pages[i];
39       mc_model_checker->pages->ref_page(reference_pages[i]);
40     } else {
41       // Otherwise, we need to store the page the hard way
42       // (by reading its content):
43       void* page = (char*) data + (i << xbt_pagebits);
44       pagenos[i] = mc_model_checker->pages->store_page(page);
45     }
46   }
47
48   return pagenos;
49 }
50
51 void mc_free_page_snapshot_region(size_t* pagenos, size_t page_count)
52 {
53   for (size_t i=0; i!=page_count; ++i) {
54     mc_model_checker->pages->unref_page(pagenos[i]);
55   }
56 }
57
58 /** @brief Restore a snapshot of a region
59  *
60  *  If possible, the restoration will be incremental
61  *  (the modified pages will not be touched).
62  *
63  *  @param start_addr
64  *  @param page_count       Number of pages of the region
65  *  @param pagenos
66  *  @param pagemap         Linux kernel pagemap values fot this region (or NULL)
67  *  @param reference_pages Snapshot page numbers of the previous soft_dirty_reset (or NULL)
68  */
69 void mc_restore_page_snapshot_region(void* start_addr, size_t page_count, size_t* pagenos, uint64_t* pagemap, size_t* reference_pagenos)
70 {
71   for (size_t i=0; i!=page_count; ++i) {
72
73     bool softclean = pagemap && !(pagemap[i] & SOFT_DIRTY);
74     if (softclean && reference_pagenos && pagenos[i] == reference_pagenos[i]) {
75       // The page is softclean and is the same as the reference one:
76       // the page is already in the target state.
77       continue;
78     }
79
80     // Otherwise, copy the page:
81     void* target_page = mc_page_from_number(start_addr, i);
82     const void* source_page = mc_model_checker->pages->get_page(pagenos[i]);
83     memcpy(target_page, source_page, xbt_pagesize);
84   }
85 }
86
87 // ***** Soft dirty tracking
88
89 /** @brief Like pread() but without partial reads */
90 static size_t pread_whole(int fd, void* buf, size_t count, off_t offset) {
91   size_t res = 0;
92
93   char* data = (char*) buf;
94   while(count) {
95     ssize_t n = pread(fd, buf, count, offset);
96     // EOF
97     if (n==0)
98       return res;
99
100     // Error (or EINTR):
101     if (n==-1) {
102       if (errno == EINTR)
103         continue;
104       else
105         return -1;
106     }
107
108     // It might be a partial read:
109     count -= n;
110     data += n;
111     offset += n;
112     res += n;
113   }
114
115   return res;
116 }
117
118 static inline  __attribute__ ((always_inline))
119 void mc_ensure_fd(int* fd, const char* path, int flags) {
120   if (*fd != -1)
121     return;
122   *fd = open(path, flags);
123   if (*fd == -1) {
124     xbt_die("Could not open file %s", path);
125   }
126 }
127
128 /** @brief Reset the soft-dirty bits
129  *
130  *  This is done after checkpointing and after checkpoint restoration
131  *  (if per page checkpoiting is used) in order to know which pages were
132  *  modified.
133  *
134  *  See https://www.kernel.org/doc/Documentation/vm/soft-dirty.txt
135  * */
136 void mc_softdirty_reset() {
137   mc_ensure_fd(&mc_model_checker->fd_clear_refs, "/proc/self/clear_refs", O_WRONLY|O_CLOEXEC);
138   if( ::write(mc_model_checker->fd_clear_refs, "4\n", 2) != 2) {
139     xbt_die("Could not reset softdirty bits");
140   }
141 }
142
143 /** @brief Read memory page informations
144  *
145  *  For each virtual memory page of the process,
146  *  /proc/self/pagemap provides a 64 bit field of information.
147  *  We are interested in the soft-dirty bit: with this we can track which
148  *  pages were modified between snapshots/restorations and avoid
149  *  copying data which was not modified.
150  *
151  *  See https://www.kernel.org/doc/Documentation/vm/pagemap.txt
152  *
153  *  @param pagemap    Output buffer for pagemap informations
154  *  @param start_addr Address of the first page
155  *  @param page_count Number of pages
156  */
157 static void mc_read_pagemap(uint64_t* pagemap, size_t page_start, size_t page_count)
158 {
159   mc_ensure_fd(&mc_model_checker->fd_pagemap, "/proc/self/pagemap", O_RDONLY|O_CLOEXEC);
160   size_t bytesize = sizeof(uint64_t) * page_count;
161   off_t offset = sizeof(uint64_t) * page_start;
162   if (pread_whole(mc_model_checker->fd_pagemap, pagemap, bytesize, offset) != bytesize) {
163     xbt_die("Could not read pagemap");
164   }
165 }
166
167 // ***** High level API
168
169 mc_mem_region_t mc_region_new_sparse(int type, void *start_addr, void* permanent_addr, size_t size, mc_mem_region_t ref_reg)
170 {
171   mc_mem_region_t new_reg = xbt_new(s_mc_mem_region_t, 1);
172
173   new_reg->start_addr = start_addr;
174   new_reg->permanent_addr = permanent_addr;
175   new_reg->data = NULL;
176   new_reg->size = size;
177   new_reg->page_numbers = NULL;
178
179   xbt_assert((((uintptr_t)start_addr) & (xbt_pagesize-1)) == 0,
180     "Not at the beginning of a page");
181   xbt_assert((((uintptr_t)permanent_addr) & (xbt_pagesize-1)) == 0,
182     "Not at the beginning of a page");
183   size_t page_count = mc_page_count(size);
184
185   uint64_t* pagemap = NULL;
186   if (_sg_mc_soft_dirty && mc_model_checker->parent_snapshot) {
187       pagemap = (uint64_t*) mmalloc_no_memset(mc_heap, sizeof(uint64_t) * page_count);
188       mc_read_pagemap(pagemap, mc_page_number(NULL, permanent_addr), page_count);
189   }
190
191   // Take incremental snapshot:
192   new_reg->page_numbers = mc_take_page_snapshot_region(permanent_addr, page_count, pagemap,
193     ref_reg==NULL ? NULL : ref_reg->page_numbers);
194
195   if(pagemap) {
196     mfree(mc_heap, pagemap);
197   }
198   return new_reg;
199 }
200
201 void mc_region_restore_sparse(mc_mem_region_t reg, mc_mem_region_t ref_reg)
202 {
203   xbt_assert((((uintptr_t)reg->permanent_addr) & (xbt_pagesize-1)) == 0,
204     "Not at the beginning of a page");
205   size_t page_count = mc_page_count(reg->size);
206
207   uint64_t* pagemap = NULL;
208
209   // Read soft-dirty bits if necessary in order to know which pages have changed:
210   if (_sg_mc_soft_dirty && mc_model_checker->parent_snapshot) {
211     pagemap = (uint64_t*) mmalloc_no_memset(mc_heap, sizeof(uint64_t) * page_count);
212     mc_read_pagemap(pagemap, mc_page_number(NULL, reg->permanent_addr), page_count);
213   }
214
215   // Incremental per-page snapshot restoration:
216   mc_restore_page_snapshot_region(reg->permanent_addr, page_count, reg->page_numbers,
217     pagemap, ref_reg ? ref_reg->page_numbers : NULL);
218
219   if(pagemap) {
220     free(pagemap);
221   }
222 }
223
224 }