Added parsing of command line options to set sample factor, disabling storage
[SXSI/xpathcomp.git] / OCamlDriver.cpp
1 /**************************************
2  * OCamlDriver.cpp
3  * -------------------
4  * A Test Ocaml Driver which calls the C++ methods and
5  * adds a C wrapper interface with OCaml code.
6  * 
7  * Author: Kim Nguyen
8  * Date: 04/11/08
9  */
10
11 /* OCaml memory managment */
12 extern "C" {
13 #include <caml/mlvalues.h>
14 #include <caml/alloc.h>
15 #include <caml/memory.h>
16 #include <caml/callback.h>
17 #include <caml/fail.h>
18 #include <caml/custom.h>
19   
20
21 } //extern C
22
23 //#include "TextCollection/TextCollection.h"
24 #include "XMLDocShredder.h"
25 #include "XMLTree.h"
26 #include "Utils.h"
27
28 #define CAMLRAISECPP(e) (caml_failwith( ((e).what())))
29 #define NOT_IMPLEMENTED(s)  (caml_failwith(s))
30 #define XMLTREE(x) ((XMLTree *)(* (XMLTree**) Data_custom_val(x)))
31 #define TEXTCOLLECTION(x)
32 #define TREENODEVAL(i) ((treeNode) (Int_val(i)))
33
34 extern "C" {
35   static struct custom_operations ops;
36   static bool initialized = false;
37 }
38 extern "C" void caml_xml_tree_finalize(value tree){
39   delete XMLTREE(tree);
40   return;
41 }
42
43 extern "C" void caml_init_ops () {
44
45   if (initialized)
46     return; 
47   ops.identifier = (char*) "XMLTree";
48   ops.finalize = caml_xml_tree_finalize;
49   return;
50 }
51
52 extern "C" CAMLprim value caml_call_shredder_uri(value uri,value sf, value iet, value dtc){
53   CAMLparam1(uri);
54   CAMLlocal1(doc);
55   char *fn = String_val(uri);
56   try {
57     XMLDocShredder shredder(fn,Int_val(sf),Bool_val(iet),Bool_val(dtc));
58   XMLTree * tree;
59   shredder.processStartDocument(fn);  
60   shredder.parse();  
61   shredder.processEndDocument();
62   caml_init_ops();
63   doc = caml_alloc_custom(&ops,sizeof(XMLTree*),1,2);
64   tree = (XMLTree *) shredder.storageIfc_->returnDocument();
65   memcpy(Data_custom_val(doc),&tree,sizeof(XMLTree*));
66   CAMLreturn(doc);
67   }
68   catch (const std::exception& e){
69     CAMLRAISECPP(e);
70   };
71   
72 }
73
74 extern "C" CAMLprim value caml_call_shredder_string(value data,value sf, value iet, value dtc){
75   CAMLparam1(data);
76   CAMLlocal1(doc);
77   unsigned int ln = string_length(data);
78   unsigned char *fn = (unsigned char*) String_val(data);
79   
80   try {
81     XMLDocShredder shredder(fn,ln,Int_val(sf),Bool_val(iet),Bool_val(dtc));  
82     XMLTree* tree;
83     shredder.processStartDocument("");  
84     shredder.parse();  
85     shredder.processEndDocument();
86     caml_init_ops();
87     doc = caml_alloc_custom(&ops,sizeof(XMLTree*),1,2);
88     tree = (XMLTree *) shredder.storageIfc_->returnDocument();
89     memcpy(Data_custom_val(doc),&tree,sizeof(XMLTree*));
90     CAMLreturn(doc);
91   }
92   catch (const std::exception& e) {
93     CAMLRAISECPP(e);
94   };
95 }
96
97 void traversal_rec(XMLTree* tree, treeNode id){
98  DocID tid; 
99   if (id == NULLT)
100     return;
101   //  int tag = tree->Tag(id);
102    if (id) {
103         tid = tree->PrevText(id);
104         char * data = (char *) (tree->getTextCollection())->GetText(tid);
105         if (tree->IsLeaf(id)){
106           tid = tree->MyText(id);
107
108           data = (char*) (tree->getTextCollection())->GetText(tid);
109         };
110   
111         if (tree->NextSibling(id) == NULLT){
112           tid = tree->NextText(id);
113           data = (char*) (tree->getTextCollection())->GetText(tid);
114         }; 
115    };
116    traversal_rec(tree,tree->FirstChild(id));
117    traversal_rec(tree,tree->NextSibling(id));
118    return;
119 }
120
121 extern "C" CAMLprim value caml_cpp_traversal(value tree){
122   CAMLparam1(tree);
123   traversal_rec(XMLTREE(tree),XMLTREE(tree)->Root());
124   CAMLreturn(Val_unit);
125 }
126
127 extern "C" CAMLprim value caml_text_collection_get_text(value tree, value id){
128   CAMLparam2(tree,id);  
129   const char* txt = (const char*) (XMLTREE(tree)->GetText((DocID) Int_val(id))); 
130   CAMLreturn (caml_copy_string(txt));
131 }
132 extern "C" CAMLprim value caml_text_collection_empty_text(value tree,value id){
133   CAMLparam2(tree,id);
134   CAMLreturn ( Val_int((XMLTREE(tree))->EmptyText((DocID) Int_val(id))));
135 }
136
137 extern "C" CAMLprim value caml_text_collection_is_contains(value tree,value str){
138   CAMLparam2(tree,str);
139   uchar * cstr = (uchar *) String_val(str);  
140   CAMLreturn ( Val_bool((int) XMLTREE(tree)->IsContains(cstr)));
141 }
142
143 extern "C" CAMLprim value caml_text_collection_count_contains(value tree,value str){
144   CAMLparam2(tree,str);
145   uchar * cstr = (uchar *) String_val(str);  
146   CAMLreturn (Val_int((XMLTREE(tree)->CountContains(cstr))));
147   
148 }
149
150 extern "C" CAMLprim value caml_text_collection_contains(value tree,value str){
151   CAMLparam2(tree,str);
152   CAMLlocal1(resarray);
153   uchar * cstr = (uchar *) String_val(str);  
154   std::vector<DocID> results;
155   results = XMLTREE(tree)->Contains(cstr);
156
157   resarray = caml_alloc_tuple(results.size());
158
159   for (unsigned int i=0; i<results.size();i++){
160     caml_initialize(&Field(resarray,i),Val_int(results[i]));
161   };
162   CAMLreturn (resarray);  
163 }
164
165
166 extern "C" CAMLprim value caml_xml_tree_root(value tree){
167   CAMLparam1(tree);
168   CAMLreturn (TREENODEVAL(XMLTREE(tree)->Root()));
169 }
170 extern "C" CAMLprim value caml_xml_tree_text_collection(value tree){
171   CAMLparam1(tree);
172   CAMLreturn((value) XMLTREE(tree)->getTextCollection());
173 }
174 extern "C" CAMLprim value caml_xml_tree_parent(value tree, value id){
175   CAMLparam2(tree,id);
176   CAMLreturn(Val_int (XMLTREE(tree)->Parent(TREENODEVAL(id))));
177 }
178 extern "C" CAMLprim value caml_xml_tree_parent_doc(value tree, value id){
179   CAMLparam2(tree,id);
180   CAMLreturn(Val_int (XMLTREE(tree)->ParentNode(TREENODEVAL(id))));
181 }
182
183 extern "C" CAMLprim value caml_xml_tree_is_ancestor(value tree,value id1, value id2) {
184   CAMLparam3(tree,id1,id2);
185   CAMLreturn(Val_bool (XMLTREE(tree)->IsAncestor(TREENODEVAL(id1),TREENODEVAL(id2))));
186 }
187
188 extern "C" CAMLprim value caml_xml_tree_serialize(value tree, value filename){
189   CAMLparam2(tree,filename);
190   NOT_IMPLEMENTED("caml_xml_tree_serialize");
191   CAMLreturn(Val_unit);
192 }
193
194 extern "C" CAMLprim value caml_xml_tree_unserialize(value filename){
195   CAMLparam1(filename);
196   NOT_IMPLEMENTED("caml_xml_tree_unserialize");
197   CAMLreturn(Val_unit);
198 }
199
200
201 extern "C" CAMLprim value caml_xml_tree_first_child(value tree, value id){
202   CAMLparam2(tree,id);
203   CAMLreturn(Val_int (XMLTREE(tree)->FirstChild(TREENODEVAL(id))));
204 }
205
206 extern "C" CAMLprim value caml_xml_tree_is_leaf(value tree, value id){
207   CAMLparam2(tree,id);
208   CAMLreturn(Val_bool (XMLTREE(tree)->IsLeaf(TREENODEVAL(id))));
209 }
210
211 extern "C" CAMLprim value caml_xml_tree_next_sibling(value tree, value id){
212   CAMLparam2(tree,id);
213   CAMLreturn(Val_int (XMLTREE(tree)->NextSibling(TREENODEVAL(id))));
214 }
215
216 extern "C" CAMLprim value caml_xml_tree_prev_text(value tree, value id){
217   CAMLparam2(tree,id);
218   CAMLlocal1(res);
219   CAMLreturn(Val_int((XMLTREE(tree)->PrevText(TREENODEVAL(id)))));
220   CAMLreturn(res);
221 }
222 extern "C" CAMLprim value caml_xml_tree_next_text(value tree, value id){
223   CAMLparam2(tree,id);
224   CAMLreturn(Val_int((XMLTREE(tree)->NextText(TREENODEVAL(id)))));
225 }
226 extern "C" CAMLprim value caml_xml_tree_my_text(value tree, value id){
227   CAMLparam2(tree,id);
228   CAMLreturn(Val_int((XMLTREE(tree)->MyText(TREENODEVAL(id)))));
229 }
230
231 extern "C" CAMLprim value caml_xml_tree_text_xml_id(value tree, value id){
232   CAMLparam2(tree,id);
233   CAMLreturn(Val_int((XMLTREE(tree)->TextXMLId(TREENODEVAL(id)))));
234 }
235 extern "C" CAMLprim value caml_xml_tree_node_xml_id(value tree, value id){
236   CAMLparam2(tree,id);
237   CAMLreturn(Val_int((XMLTREE(tree)->NodeXMLId(TREENODEVAL(id)))));
238 }
239 extern "C" CAMLprim value caml_xml_tree_tag(value tree, value id){
240   CAMLparam2(tree,id);
241   const char* tag;
242   tag =(const char*) XMLTREE(tree)->GetTagName(XMLTREE(tree)->Tag(TREENODEVAL(id)));
243
244   CAMLreturn (caml_copy_string(tag));
245 }
246
247 extern "C" CAMLprim value caml_xml_tree_tag_name(value tree, value tagid){
248   CAMLparam2(tree,tagid);
249   const char* tag;
250   tag = (const char*) XMLTREE(tree)->GetTagName((TagType) (Int_val(tagid)));
251
252   CAMLreturn (caml_copy_string(tag));
253 }
254
255
256 extern "C" CAMLprim value caml_xml_tree_tag_id(value tree,value id){
257   CAMLparam2(tree,id);  
258   CAMLreturn (Val_int(XMLTREE(tree)->Tag(TREENODEVAL(id))));
259 }
260
261 extern "C" CAMLprim value caml_xml_tree_register_tag(value tree,value str){
262   CAMLparam2(tree,str);
263   CAMLlocal1(id);
264   unsigned char* tag;
265   tag = (unsigned char*) (String_val(str));
266   id = Val_int(XMLTREE(tree)->RegisterTag(tag));
267   CAMLreturn (id);
268 }
269
270 extern "C" CAMLprim value caml_xml_tree_nullt(value unit){
271   CAMLparam1(unit);
272   CAMLreturn (NULLT);
273 }