Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
[mc] Multiple .so support for region snapshots
[simgrid.git] / src / mc / mc_page_snapshot.cpp
1 #include "mc_page_store.h"
2 #include "mc_mmu.h"
3 #include "mc_private.h"
4 #include "mc_snapshot.h"
5
6 #include <xbt/mmalloc.h>
7
8 #define SOFT_DIRTY_BIT_NUMBER 55
9 #define SOFT_DIRTY (((uint64_t)1) << SOFT_DIRTY_BIT_NUMBER)
10
11 extern "C" {
12
13 // ***** Region management:
14
15 /** @brief Take a per-page snapshot of a region
16  *
17  *  @param data            The start of the region (must be at the beginning of a page)
18  *  @param pag_count       Number of pages of the region
19  *  @param pagemap         Linux kernel pagemap values fot this region (or NULL)
20  *  @param reference_pages Snapshot page numbers of the previous soft_dirty_reset (or NULL)
21  *  @return                Snapshot page numbers of this new snapshot
22  */
23 size_t* mc_take_page_snapshot_region(void* data, size_t page_count, uint64_t* pagemap, size_t* reference_pages)
24 {
25   size_t* pagenos = (size_t*) malloc(page_count * sizeof(size_t));
26
27   for (size_t i=0; i!=page_count; ++i) {
28     bool softclean = pagemap && !(pagemap[i] & SOFT_DIRTY);
29     if (softclean && reference_pages) {
30       // The page is softclean, it is the same page as the reference page:
31       pagenos[i] = reference_pages[i];
32       mc_model_checker->pages->ref_page(reference_pages[i]);
33     } else {
34       // Otherwise, we need to store the page the hard way
35       // (by reading its content):
36       void* page = (char*) data + (i << xbt_pagebits);
37       pagenos[i] = mc_model_checker->pages->store_page(page);
38     }
39   }
40
41   return pagenos;
42 }
43
44 void mc_free_page_snapshot_region(size_t* pagenos, size_t page_count)
45 {
46   for (size_t i=0; i!=page_count; ++i) {
47     mc_model_checker->pages->unref_page(pagenos[i]);
48   }
49 }
50
51 /** @brief Restore a snapshot of a region
52  *
53  *  If possible, the restoration will be incremental
54  *  (the modified pages will not be touched).
55  *
56  *  @param start_addr
57  *  @param page_count       Number of pages of the region
58  *  @param pagenos
59  *  @param pagemap         Linux kernel pagemap values fot this region (or NULL)
60  *  @param reference_pages Snapshot page numbers of the previous soft_dirty_reset (or NULL)
61  */
62 void mc_restore_page_snapshot_region(void* start_addr, size_t page_count, size_t* pagenos, uint64_t* pagemap, size_t* reference_pagenos)
63 {
64   for (size_t i=0; i!=page_count; ++i) {
65
66     bool softclean = pagemap && !(pagemap[i] & SOFT_DIRTY);
67     if (softclean && reference_pagenos && pagenos[i] == reference_pagenos[i]) {
68       // The page is softclean and is the same as the reference one:
69       // the page is already in the target state.
70       continue;
71     }
72
73     // Otherwise, copy the page:
74     void* target_page = mc_page_from_number(start_addr, i);
75     const void* source_page = mc_model_checker->pages->get_page(pagenos[i]);
76     memcpy(target_page, source_page, xbt_pagesize);
77   }
78 }
79
80 // ***** Soft dirty tracking
81
82 /** @brief Like pread() but without partial reads */
83 static size_t pread_whole(int fd, void* buf, size_t count, off_t offset) {
84   size_t res = 0;
85
86   char* data = (char*) buf;
87   while(count) {
88     ssize_t n = pread(fd, buf, count, offset);
89     // EOF
90     if (n==0)
91       return res;
92
93     // Error (or EINTR):
94     if (n==-1) {
95       if (errno == EINTR)
96         continue;
97       else
98         return -1;
99     }
100
101     // It might be a partial read:
102     count -= n;
103     data += n;
104     offset += n;
105     res += n;
106   }
107
108   return res;
109 }
110
111 static inline  __attribute__ ((always_inline))
112 void mc_ensure_fd(int* fd, const char* path, int flags) {
113   if (*fd != -1)
114     return;
115   *fd = open(path, flags);
116   if (*fd == -1) {
117     xbt_die("Could not open file %s", path);
118   }
119 }
120
121 /** @brief Reset the soft-dirty bits
122  *
123  *  This is done after checkpointing and after checkpoint restoration
124  *  (if per page checkpoiting is used) in order to know which pages were
125  *  modified.
126  *
127  *  See https://www.kernel.org/doc/Documentation/vm/soft-dirty.txt
128  * */
129 void mc_softdirty_reset() {
130   mc_ensure_fd(&mc_model_checker->fd_clear_refs, "/proc/self/clear_refs", O_WRONLY|O_CLOEXEC);
131   if( ::write(mc_model_checker->fd_clear_refs, "4\n", 2) != 2) {
132     xbt_die("Could not reset softdirty bits");
133   }
134 }
135
136 /** @brief Read memory page informations
137  *
138  *  For each virtual memory page of the process,
139  *  /proc/self/pagemap provides a 64 bit field of information.
140  *  We are interested in the soft-dirty bit: with this we can track which
141  *  pages were modified between snapshots/restorations and avoid
142  *  copying data which was not modified.
143  *
144  *  See https://www.kernel.org/doc/Documentation/vm/pagemap.txt
145  *
146  *  @param pagemap    Output buffer for pagemap informations
147  *  @param start_addr Address of the first page
148  *  @param page_count Number of pages
149  */
150 static void mc_read_pagemap(uint64_t* pagemap, size_t page_start, size_t page_count)
151 {
152   mc_ensure_fd(&mc_model_checker->fd_pagemap, "/proc/self/pagemap", O_RDONLY|O_CLOEXEC);
153   size_t bytesize = sizeof(uint64_t) * page_count;
154   off_t offset = sizeof(uint64_t) * page_start;
155   if (pread_whole(mc_model_checker->fd_pagemap, pagemap, bytesize, offset) != bytesize) {
156     xbt_die("Could not read pagemap");
157   }
158 }
159
160 // ***** High level API
161
162 mc_mem_region_t mc_region_new_sparse(mc_region_type_t region_type,
163   void *start_addr, void* permanent_addr, size_t size,
164   mc_mem_region_t ref_reg)
165 {
166   mc_mem_region_t region = xbt_new(s_mc_mem_region_t, 1);
167   region->region_type = region_type;
168   region->storage_type = MC_REGION_STORAGE_TYPE_CHUNKED;
169   region->start_addr = start_addr;
170   region->permanent_addr = permanent_addr;
171   region->size = size;
172
173   xbt_assert((((uintptr_t)start_addr) & (xbt_pagesize-1)) == 0,
174     "Not at the beginning of a page");
175   xbt_assert((((uintptr_t)permanent_addr) & (xbt_pagesize-1)) == 0,
176     "Not at the beginning of a page");
177   size_t page_count = mc_page_count(size);
178
179   uint64_t* pagemap = NULL;
180   if (_sg_mc_soft_dirty && mc_model_checker->parent_snapshot) {
181       pagemap = (uint64_t*) mmalloc_no_memset(mc_heap, sizeof(uint64_t) * page_count);
182       mc_read_pagemap(pagemap, mc_page_number(NULL, permanent_addr), page_count);
183   }
184
185   size_t* reg_page_numbers = NULL;
186   if (ref_reg!=NULL && ref_reg->storage_type == MC_REGION_STORAGE_TYPE_CHUNKED)
187     reg_page_numbers = ref_reg->chunked.page_numbers;
188
189   // Take incremental snapshot:
190   region->chunked.page_numbers = mc_take_page_snapshot_region(
191     permanent_addr, page_count, pagemap, reg_page_numbers);
192
193   if(pagemap) {
194     mfree(mc_heap, pagemap);
195   }
196   return region;
197 }
198
199 void mc_region_restore_sparse(mc_mem_region_t reg, mc_mem_region_t ref_reg)
200 {
201   xbt_assert((((uintptr_t)reg->permanent_addr) & (xbt_pagesize-1)) == 0,
202     "Not at the beginning of a page");
203   size_t page_count = mc_page_count(reg->size);
204
205   uint64_t* pagemap = NULL;
206
207   // Read soft-dirty bits if necessary in order to know which pages have changed:
208   if (_sg_mc_soft_dirty && mc_model_checker->parent_snapshot) {
209     pagemap = (uint64_t*) mmalloc_no_memset(mc_heap, sizeof(uint64_t) * page_count);
210     mc_read_pagemap(pagemap, mc_page_number(NULL, reg->permanent_addr), page_count);
211   }
212
213   // Incremental per-page snapshot restoration:s
214   size_t* reg_page_numbers = NULL;
215   if (ref_reg && ref_reg->storage_type == MC_REGION_STORAGE_TYPE_CHUNKED)
216     reg_page_numbers = ref_reg->chunked.page_numbers;
217
218   mc_restore_page_snapshot_region(reg->permanent_addr, page_count, reg->chunked.page_numbers,
219     pagemap, reg_page_numbers);
220
221   if(pagemap) {
222     free(pagemap);
223   }
224 }
225
226 }