Finish porting to the Grammar2 API
[SXSI/xpathcomp.git] / src / grammar2.ml
index 82cf036..d2d497e 100644 (file)
@@ -200,30 +200,30 @@ struct
       loop 1 l
     in
     Hashtbl.iter (fun lhs rhs ->
-      let Node( head, _ ) = lhs in
+      let Node( head, args ) = lhs in
       let Node( tag1, params) = rhs in
       let tag2, pos2 = pos_id2 params in
       let id1 = h_find ~msg:"7" tag_to_id tag1
-      and id2 = h_find ~msg:"8" tag_to_id tag2
-      in
+      and id2 = h_find ~msg:"8" tag_to_id tag2 in
       let rule_ = id2 lsl 27 in
       let rule_ = (rule_ lor id1) lsl 2 in
       let rule_ = (rule_ lor pos2) lsl 2 in
-      let rule_ = rule_ lor (List.length params) in
+      let rule_ = (rule_ lor (List.length params)) lsl 2 in
+      let rule_ = rule_ lor (List.length args) in
       r_array.((h_find  ~msg:"9" tag_to_id head) - rules_offset ) <- rule_
     ) rules;
-    let l = Array.length renum_tags in
-    let tag32 = Array32.create l 0 in
+    (*let l = Array.length renum_tags in *)
+    (*let tag32 = Array32.create l 0 in
     for i = 0 to l - 1 do
       Array32.set tag32 i (renum_tags.(i) land 0x7ffffff);
-    done;
+    done; *)
     (* Remove the non-terminal names from the hash tables *)
     let tag_to_id2 = Hashtbl.create 31 in
     Hashtbl.iter (fun s i -> if i < rules_offset then Hashtbl.add tag_to_id2 s i)
       tag_to_id;
     { start = bv;
-      tags = tag32;
-      rules = renum_tags;
+      tags = renum_tags;
+      rules = r_array;
       rules_offset = rules_offset;
       tag_to_id = tag_to_id2;
       tag_of_id = Array.sub old_new_mapping 0 rules_offset
@@ -258,23 +258,14 @@ let save g f =
 
 let load f =
   let cin = open_in f in
-  let pr_pos () =
-    Printf.eprintf "Position: %i kiB\n" (pos_in cin / 1024)
-  in
   let read () = Marshal.from_channel cin in
   if read () != _GRAMMAR_MAGIC then failwith "Invalid grammar file";
   if read () != _GRAMMAR_VERSION then failwith "Deprecated grammar format";
-  pr_pos();
   let tags : int array = read () in
-  pr_pos();
   let rules : int array = read () in
-  pr_pos();
   let rules_offset : int = read () in
-  pr_pos();
   let tag_to_id : (string, int) Hashtbl.t = read () in
-  pr_pos();
   let tag_of_id : string array = read () in
-  pr_pos();
   let fd = Unix.descr_of_in_channel cin in
   let pos = pos_in cin in
   ignore(Unix.lseek fd pos Unix.SEEK_SET);
@@ -290,30 +281,37 @@ let load f =
   }
 
 
-type node = [ `Grammar ] Node.t
+type node = [ `Start ] Node.t
 
-type p_type  = [ `Parameter ]
 type n_type = [ `NonTerminal ]
 type t_type = [ `Terminal ]
-type any_type = [ p_type | n_type | t_type ]
-type symbol = [ any_type ] Node.t
+type r_type = [ `Rule ]
+type any_type = [ n_type | t_type ]
+type rhs = [ r_type ] Node.t
 
-type p_symbol = p_type Node.t
 type n_symbol = n_type Node.t
 type t_symbol = t_type Node.t
-type tn_symbol = [ n_type | t_type ] Node.t
+type tn_symbol = [ any_type ] Node.t
+
 
+type partial =
+    Leaf of node
+  | Node of tn_symbol * partial array
 
-let is_nil : (t:t_symbol) =
+
+let is_nil  (t : t_symbol) =
   (Node.to_int t) == 4
 
 let nil_symbol : t_symbol =
   (Node.of_int 4)
 
 let translate_tag _ t  = if t == 4 then ~-1 else t
-let to_string t tag = tag_of_id.(Tag.to_int tag)
-let register_tag t tag =
-  try Hashtbl.find t.tag_to_id (Tag.to_int tag) with
+let to_string t tag =
+  if tag < Array.length t.tag_of_id then t.tag_of_id.(Tag.to_int tag)
+  else "<!INVALID TAG!>"
+
+let register_tag t s =
+  try Hashtbl.find t.tag_to_id s with
     Not_found -> 4
 
 let tag_operations t = {
@@ -322,21 +320,48 @@ let tag_operations t = {
   Tag.translate = (fun s -> translate_tag t s);
 }
 
+let start_root : node = Node.of_int 0
+let start_tag g (idx : node) : [<any_type] Node.t =
+  Node.of_int (g.tags.(Bp.preorder_rank g.start (Node.to_int idx)))
 
-let rhs_tag t idx =
-  t.tags.(Bp.preorder_rank t.start idx)
+;;
 
-let rhs_first_child t idx =
-  Bp.first_child t.start idx
+let start_first_child t (idx : node) =
+  Node.of_int (Bp.first_child t.start (Node.to_int idx))
 
-let rhs_next_sibling t idx =
-  Bp.next_sibling t.start idx
+let start_next_sibling t (idx : node) =
+  Node.of_int (Bp.next_sibling t.start (Node.to_int idx))
 
 let is_non_terminal t (n : [< any_type ] Node.t) =
   let n = Node.to_int n in
   n >= t.rules_offset
 
-let is_terminal t (n : [< any_type ] Node.t) = not(is_terminal t n)
+let is_terminal t (n : [< any_type ] Node.t) = not(is_non_terminal t n)
+
+external terminal : [< any_type ] Node.t -> t_symbol = "%identity"
+external non_terminal : [< any_type ] Node.t -> n_symbol = "%identity"
+
 
 let tag (n : t_symbol) : Tag.t = Obj.magic n
 
+let get_rule g (r : n_symbol) : rhs =
+  Node.of_int (g.rules.((Node.to_int r) - g.rules_offset))
+
+let get_id1 (r : rhs) : tn_symbol =
+  Node.of_int(
+    ((Node.to_int r) lsr 6) land 0x7ffffff)
+
+let get_id2 (r : rhs) : tn_symbol =
+  Node.of_int((Node.to_int r) lsr 33)
+
+let get_rank (r : rhs) : int =
+  (Node.to_int r) land 0b11
+
+let get_id1_rank (r : rhs) : int =
+  ((Node.to_int r) lsr 2) land 0b11
+
+let get_id2_pos (r : rhs) : int =
+  ((Node.to_int r) lsr 4) land 0b11
+
+let get_id2_rank (r : rhs) : int =
+  get_rank r  + 1 - get_id1_rank r