File Coverage

blib/lib/Mojo/DOM.pm
Criterion Covered Total %
statement 226 226 100.0
branch 119 122 97.5
condition 63 71 88.7
subroutine 75 75 100.0
pod 43 43 100.0
total 526 537 97.9


line stmt bran cond sub pod time code
1             package Mojo::DOM;
2 62     62   67679 use Mojo::Base -strict;
  62         160  
  62         478  
3             use overload
4 4     4   13 '@{}' => sub { shift->child_nodes },
5 100     100   279 '%{}' => sub { shift->attr },
6 392     392   7414 bool => sub {1},
7 142     142   15818 '""' => sub { shift->to_string },
8 62     62   767 fallback => 1;
  62         225  
  62         955  
9              
10             # "Fry: This snow is beautiful. I'm glad global warming never happened.
11             # Leela: Actually, it did. But thank God nuclear winter canceled it out."
12 62     62   8289 use Mojo::Collection;
  62         159  
  62         3219  
13 62     62   33653 use Mojo::DOM::CSS;
  62         181  
  62         561  
14 62     62   30726 use Mojo::DOM::HTML;
  62         274  
  62         3833  
15 62     62   510 use Scalar::Util qw(blessed weaken);
  62         161  
  62         3279  
16 62     62   47302 use Storable qw(dclone);
  62         224384  
  62         329025  
17              
18 28     28 1 87 sub all_text { _text(_nodes($_[0]->tree), $_[0]->xml, 1) }
19              
20 15     15 1 65 sub ancestors { _select($_[0]->_collect([_ancestors($_[0]->tree)]), $_[1]) }
21              
22 9     9 1 34 sub append { shift->_add(1, @_) }
23 13     13 1 42 sub append_content { shift->_content(1, 0, @_) }
24              
25             sub at {
26 764     764 1 3051 my $self = shift;
27 764 100       1839 return undef unless my $result = $self->_css->select_one(@_);
28 694         3983 return $self->_build($result, $self->xml);
29             }
30              
31             sub attr {
32 181     181 1 349 my $self = shift;
33              
34             # Hash
35 181         337 my $tree = $self->tree;
36 181 100       458 my $attrs = $tree->[0] ne 'tag' ? {} : $tree->[2];
37 181 100       1284 return $attrs unless @_;
38              
39             # Get
40 48 100 100     437 return $attrs->{$_[0]} unless @_ > 1 || ref $_[0];
41              
42             # Set
43 4 100       17 my $values = ref $_[0] ? $_[0] : {@_};
44 4         13 @$attrs{keys %$values} = values %$values;
45              
46 4         21 return $self;
47             }
48              
49 59     59 1 157 sub child_nodes { $_[0]->_collect(_nodes($_[0]->tree)) }
50              
51 13     13 1 58 sub children { _select($_[0]->_collect(_nodes($_[0]->tree, 1)), $_[1]) }
52              
53             sub content {
54 59     59 1 116 my $self = shift;
55              
56 59         127 my $type = $self->type;
57 59 100 100     262 if ($type eq 'root' || $type eq 'tag') {
58 28 100       105 return $self->_content(0, 1, @_) if @_;
59 7         19 my $html = Mojo::DOM::HTML->new(xml => $self->xml);
60 7         13 return join '', map { $html->tree($_)->render } @{_nodes($self->tree)};
  12         34  
  7         19  
61             }
62              
63 31 100       82 return $self->tree->[1] unless @_;
64 3         16 $self->tree->[1] = shift;
65 3         10 return $self;
66             }
67              
68 13     13 1 37 sub descendant_nodes { $_[0]->_collect(_all(_nodes($_[0]->tree))) }
69              
70             sub find {
71 444     444 1 2672 my $self = shift;
72 444         1081 return $self->_collect($self->_css->select(@_));
73             }
74              
75 8     8 1 26 sub following { _select($_[0]->_collect(_siblings($_[0]->tree, 1, 1)), $_[1]) }
76 7     7 1 19 sub following_nodes { $_[0]->_collect(_siblings($_[0]->tree, 0, 1)) }
77              
78 44     44 1 119 sub matches { shift->_css->matches(@_) }
79              
80             sub namespace {
81 18     18 1 35 my $self = shift;
82              
83 18 100       40 return undef if (my $tree = $self->tree)->[0] ne 'tag';
84              
85             # Extract namespace prefix and search parents
86 16 100       78 my $ns = $tree->[1] =~ /^(.*?):/ ? "xmlns:$1" : undef;
87 16         36 for my $node ($tree, _ancestors($tree)) {
88              
89             # Namespace for prefix
90 35         59 my $attrs = $node->[2];
91 35 100 100     97 if ($ns) { $_ eq $ns and return $attrs->{$_} for keys %$attrs }
  13 100       120  
92              
93             # Namespace attribute
94 10         110 elsif (defined $attrs->{xmlns}) { return $attrs->{xmlns} }
95             }
96              
97 1         6 return undef;
98             }
99              
100             sub new {
101 2397     2397 1 331787 my $class = shift;
102 2397   66     5741 my $self = bless \Mojo::DOM::HTML->new, ref $class || $class;
103 2397 100       7557 return @_ ? $self->parse(@_) : $self;
104             }
105              
106             sub new_tag {
107 11     11 1 2742 my $self = shift;
108 11         29 my $new = $self->new;
109 11         57 $$new->tag(@_);
110 11 100       34 $$new->xml($$self->xml) if ref $self;
111 11         63 return $new;
112             }
113              
114 13     13 1 35 sub next { $_[0]->_maybe(_siblings($_[0]->tree, 1, 1, 0)) }
115 5     5 1 12 sub next_node { $_[0]->_maybe(_siblings($_[0]->tree, 0, 1, 0)) }
116              
117             sub parent {
118 48     48 1 82 my $self = shift;
119 48 50       90 return undef if (my $tree = $self->tree)->[0] eq 'root';
120 48         99 return $self->_build(_parent($tree), $self->xml);
121             }
122              
123 261 50   261 1 416 sub parse { ${$_[0]}->parse($_[1]) and return $_[0] }
  261         1517  
124              
125 5     5 1 16 sub preceding { _select($_[0]->_collect(_siblings($_[0]->tree, 1, 0)), $_[1]) }
126 7     7 1 19 sub preceding_nodes { $_[0]->_collect(_siblings($_[0]->tree, 0)) }
127              
128 11     11 1 40 sub prepend { shift->_add(0, @_) }
129 6     6 1 23 sub prepend_content { shift->_content(0, 0, @_) }
130              
131 7     7 1 22 sub previous { $_[0]->_maybe(_siblings($_[0]->tree, 1, 0, -1)) }
132 5     5 1 17 sub previous_node { $_[0]->_maybe(_siblings($_[0]->tree, 0, 0, -1)) }
133              
134 6     6 1 16 sub remove { shift->replace('') }
135              
136             sub replace {
137 24     24 1 68 my ($self, $new) = @_;
138 24 100       55 return $self->parse($new) if (my $tree = $self->tree)->[0] eq 'root';
139 16         40 return $self->_replace(_parent($tree), $tree, _nodes($self->_parse($new)));
140             }
141              
142             sub root {
143 14     14 1 39 my $self = shift;
144 14 100       34 return $self unless my $tree = _ancestors($self->tree, 1);
145 11         56 return $self->_build($tree, $self->xml);
146             }
147              
148             sub selector {
149 13 100   13 1 42 return undef unless (my $tree = shift->tree)->[0] eq 'tag';
150 11         35 return join ' > ', reverse map { $_->[1] . ':nth-child(' . (@{_siblings($_, 1)} + 1) . ')' } $tree, _ancestors($tree);
  31         66  
  31         61  
151             }
152              
153             sub strip {
154 9     9 1 30 my $self = shift;
155 9 100       19 return $self if (my $tree = $self->tree)->[0] ne 'tag';
156 7         23 return $self->_replace($tree->[3], $tree, _nodes($tree));
157             }
158              
159             sub tag {
160 101     101 1 278 my ($self, $tag) = @_;
161 101 100       227 return undef if (my $tree = $self->tree)->[0] ne 'tag';
162 99 100       595 return $tree->[1] unless $tag;
163 1         3 $tree->[1] = $tag;
164 1         5 return $self;
165             }
166              
167 1     1 1 6 sub tap { shift->Mojo::Base::tap(@_) }
168              
169 838     838 1 2265 sub text { _text(_nodes(shift->tree), 0, 0) }
170              
171 152     152 1 281 sub to_string { ${shift()}->render }
  152         506  
172              
173 5086 100 50 5086 1 9857 sub tree { @_ > 1 ? (${$_[0]}->tree($_[1]) and return $_[0]) : ${$_[0]}->tree }
  2957         8224  
174              
175 82     82 1 153 sub type { shift->tree->[0] }
176              
177             sub val {
178 32     32 1 61 my $self = shift;
179              
180             # "option"
181 32 100 66     119 return $self->{value} // $self->text if (my $tag = $self->tag) eq 'option';
182              
183             # "input" ("type=checkbox" and "type=radio")
184 22   100     66 my $type = $self->{type} // '';
185 22 100 100     107 return $self->{value} // 'on' if $tag eq 'input' && ($type eq 'radio' || $type eq 'checkbox');
      100        
      100        
186              
187             # "textarea", "input" or "button"
188 17 100       72 return $tag eq 'textarea' ? $self->text : $self->{value} if $tag ne 'select';
    100          
189              
190             # "select"
191 6     6   18 my $v = $self->find('option:checked:not([disabled])')->grep(sub { !$_->ancestors('optgroup[disabled]')->size })
192 5         12 ->map('val');
193 5 100       41 return exists $self->{multiple} ? $v->size ? $v->to_array : undef : $v->last;
    100          
194             }
195              
196 1     1 1 633 sub with_roles { shift->Mojo::Base::with_roles(@_) }
197              
198 9     9 1 35 sub wrap { shift->_wrap(0, @_) }
199 7     7 1 20 sub wrap_content { shift->_wrap(1, @_) }
200              
201 3613 100 50 3613 1 7020 sub xml { @_ > 1 ? (${$_[0]}->xml($_[1]) and return $_[0]) : ${$_[0]}->xml }
  1465         4939  
202              
203             sub _add {
204 20     20   42 my ($self, $offset, $new) = @_;
205              
206 20 100       48 return $self if (my $tree = $self->tree)->[0] eq 'root';
207              
208 16         41 my $parent = _parent($tree);
209 16         58 splice @$parent, _offset($parent, $tree) + $offset, 0, @{_link($parent, _nodes($self->_parse($new)))};
  16         44  
210              
211 16         92 return $self;
212             }
213              
214             sub _all {
215 21     21   34 my $nodes = shift;
216 21 100       39 @$nodes = map { $_->[0] eq 'tag' ? ($_, @{_all(_nodes($_))}) : ($_) } @$nodes;
  60         137  
  8         14  
217 21         53 return $nodes;
218             }
219              
220             sub _ancestors {
221 56     56   191 my ($tree, $root) = @_;
222              
223 56 100       137 return () unless $tree = _parent($tree);
224 53         88 my @ancestors;
225 53   66     74 do { push @ancestors, $tree } while ($tree->[0] eq 'tag') && ($tree = $tree->[3]);
  141         468  
226 53 100       267 return $root ? $ancestors[-1] : @ancestors[0 .. $#ancestors - 1];
227             }
228              
229 2129     2129   4513 sub _build { shift->new->tree(shift)->xml(shift) }
230              
231             sub _collect {
232 570   50 570   1704 my ($self, $nodes) = (shift, shift // []);
233 570         1144 my $xml = $self->xml;
234 570         1220 return Mojo::Collection->new(map { $self->_build($_, $xml) } @$nodes);
  1356         2432  
235             }
236              
237             sub _content {
238 40     40   102 my ($self, $start, $offset, $new) = @_;
239              
240 40         77 my $tree = $self->tree;
241 40 100 100     204 unless ($tree->[0] eq 'root' || $tree->[0] eq 'tag') {
242 2         15 my $old = $self->content;
243 2 100       22 return $self->content($start ? $old . $new : $new . $old);
244             }
245              
246 38 100       120 $start = $start ? ($#$tree + 1) : _start($tree);
247 38 100       84 $offset = $offset ? $#$tree : 0;
248 38         55 splice @$tree, $start, $offset, @{_link($tree, _nodes($self->_parse($new)))};
  38         91  
249              
250 38         205 return $self;
251             }
252              
253 1252     1252   3254 sub _css { Mojo::DOM::CSS->new(tree => shift->tree) }
254              
255 1     1   9 sub _fragment { _link(my $r = ['root', @_], [@_]); $r }
  1         5  
256              
257             sub _link {
258 102     102   192 my ($parent, $children) = @_;
259              
260             # Link parent to children
261 102         178 for my $node (@$children) {
262 106 100       230 my $offset = $node->[0] eq 'tag' ? 3 : 2;
263 106         172 $node->[$offset] = $parent;
264 106         484 weaken $node->[$offset];
265             }
266              
267 102         322 return $children;
268             }
269              
270 30 100   30   117 sub _maybe { $_[1] ? $_[0]->_build($_[1], $_[0]->xml) : undef }
271              
272             sub _nodes {
273 1317 50   1317   2851 return () unless my $tree = shift;
274 1317         2658 my @nodes = @$tree[_start($tree) .. $#$tree];
275 1317 100       4078 return shift() ? [grep { $_->[0] eq 'tag' } @nodes] : \@nodes;
  84         300  
276             }
277              
278             sub _offset {
279 46     46   91 my ($parent, $child) = @_;
280 46         78 my $i = _start($parent);
281 46 100       233 $_ eq $child ? last : $i++ for @$parent[$i .. $#$parent];
282 46         103 return $i;
283             }
284              
285 225 100   225   710 sub _parent { $_[0]->[$_[0][0] eq 'tag' ? 3 : 2] }
286              
287             sub _parse {
288 84     84   183 my ($self, $input) = @_;
289 84 100 66     436 return Mojo::DOM::HTML->new(xml => $self->xml)->parse($input)->tree unless blessed $input && $input->isa('Mojo::DOM');
290 21         56 my $tree = dclone $input->tree;
291 21 100       118 return $tree->[0] eq 'root' ? $tree : _fragment($tree);
292             }
293              
294             sub _replace {
295 30     30   88 my ($self, $parent, $child, $nodes) = @_;
296 30         66 splice @$parent, _offset($parent, $child), 1, @{_link($parent, $nodes)};
  30         70  
297 30         92 return $self->parent;
298             }
299              
300 41 100   41   258 sub _select { $_[1] ? $_[0]->grep(matches => $_[1]) : $_[0] }
301              
302             sub _siblings {
303 88     88   183 my ($tree, $tags, $tail, $i) = @_;
304              
305 88 100       229 return defined $i ? undef : [] if $tree->[0] eq 'root';
    100          
306              
307 82         140 my $nodes = _nodes(_parent($tree));
308 82         137 my $match = -1;
309 82   66     703 defined($match++) and $_ eq $tree and last for @$nodes;
      100        
310              
311 82 100       172 if ($tail) { splice @$nodes, 0, $match + 1 }
  30         63  
312 52         115 else { splice @$nodes, $match, ($#$nodes + 1) - $match }
313              
314 82 100       184 @$nodes = grep { $_->[0] eq 'tag' } @$nodes if $tags;
  171         392  
315              
316 82 100 100     402 return defined $i ? $i == -1 && !@$nodes ? undef : $nodes->[$i] : $nodes;
    100          
317             }
318              
319 1394 100   1394   4522 sub _start { $_[0][0] eq 'root' ? 1 : 4 }
320              
321             sub _text {
322 866     866   1541 my ($nodes, $xml, $all) = @_;
323              
324 866         1427 my $text = '';
325 866         2224 while (my $node = shift @$nodes) {
326 1225         2169 my $type = $node->[0];
327              
328             # Text
329 1225 100 100     3911 if ($type eq 'text' || $type eq 'cdata' || $type eq 'raw') { $text .= $node->[1] }
  1007 100 100     3060  
      100        
330              
331             # Nested tag
332             elsif ($type eq 'tag' && $all) {
333 155 100 100     592 unshift @$nodes, @{_nodes($node)} if $xml || ($node->[1] ne 'script' && $node->[1] ne 'style');
  143   100     202  
334             }
335             }
336              
337 866         5933 return $text;
338             }
339              
340             sub _wrap {
341 16     16   46 my ($self, $content, $new) = @_;
342              
343 16 100 100     34 return $self if (my $tree = $self->tree)->[0] eq 'root' && !$content;
344 15 100 100     94 return $self if $tree->[0] ne 'root' && $tree->[0] ne 'tag' && $content;
      100        
345              
346             # Find innermost tag
347 14         21 my $current;
348 14         36 my $first = $new = $self->_parse($new);
349 14         72 $current = $first while $first = _nodes($first, 1)->[0];
350 14 100       60 return $self unless $current;
351              
352             # Wrap content
353 12 100       34 if ($content) {
354 5         12 push @$current, @{_link($current, _nodes($tree))};
  5         17  
355 5         20 splice @$tree, _start($tree), $#$tree, @{_link($tree, _nodes($new))};
  5         13  
356 5         34 return $self;
357             }
358              
359             # Wrap element
360 7         21 $self->_replace(_parent($tree), $tree, _nodes($new));
361 7         30 push @$current, @{_link($current, [$tree])};
  7         25  
362 7         50 return $self;
363             }
364              
365             1;
366              
367             =encoding utf8
368              
369             =head1 NAME
370              
371             Mojo::DOM - Minimalistic HTML/XML DOM parser with CSS selectors
372              
373             =head1 SYNOPSIS
374              
375             use Mojo::DOM;
376              
377             # Parse
378             my $dom = Mojo::DOM->new('

Test

123

');
379              
380             # Find
381             say $dom->at('#b')->text;
382             say $dom->find('p')->map('text')->join("\n");
383             say $dom->find('[id]')->map(attr => 'id')->join("\n");
384              
385             # Iterate
386             $dom->find('p[id]')->reverse->each(sub { say $_->{id} });
387              
388             # Loop
389             for my $e ($dom->find('p[id]')->each) {
390             say $e->{id}, ':', $e->text;
391             }
392              
393             # Modify
394             $dom->find('div p')->last->append('

456

');
395             $dom->at('#c')->prepend($dom->new_tag('p', id => 'd', '789'));
396             $dom->find(':not(p)')->map('strip');
397              
398             # Render
399             say "$dom";
400              
401             =head1 DESCRIPTION
402              
403             L is a minimalistic and relaxed HTML/XML DOM parser with CSS selector support. It will even try to interpret
404             broken HTML and XML, so you should not use it for validation.
405              
406             =head1 NODES AND ELEMENTS
407              
408             When we parse an HTML/XML fragment, it gets turned into a tree of nodes.
409              
410            
411            
412             Hello
413             World!
414            
415              
416             There are currently eight different kinds of nodes, C, C, C, C, C, C, C
417             and C. Elements are nodes of the type C.
418              
419             root
420             |- doctype (html)
421             +- tag (html)
422             |- tag (head)
423             | +- tag (title)
424             | +- raw (Hello)
425             +- tag (body)
426             +- text (World!)
427              
428             While all node types are represented as L objects, some methods like L and L only
429             apply to elements.
430              
431             =head1 HTML AND XML
432              
433             L defaults to HTML semantics, that means all tags and attribute names are lowercased and selectors need to
434             be lowercase as well.
435              
436             # HTML semantics
437             my $dom = Mojo::DOM->new('

Hi!

');
438             say $dom->at('p[id]')->text;
439              
440             If an XML declaration is found, the parser will automatically switch into XML mode and everything becomes
441             case-sensitive.
442              
443             # XML semantics
444             my $dom = Mojo::DOM->new('

Hi!

');
445             say $dom->at('P[ID]')->text;
446              
447             HTML or XML semantics can also be forced with the L method.
448              
449             # Force HTML semantics
450             my $dom = Mojo::DOM->new->xml(0)->parse('

Hi!

');
451             say $dom->at('p[id]')->text;
452              
453             # Force XML semantics
454             my $dom = Mojo::DOM->new->xml(1)->parse('

Hi!

');
455             say $dom->at('P[ID]')->text;
456              
457             =head1 METHODS
458              
459             L implements the following methods.
460              
461             =head2 all_text
462              
463             my $text = $dom->all_text;
464              
465             Extract text content from all descendant nodes of this element. For HTML documents C