File Coverage

blib/lib/CSS/DOM/Parser.pm

Criterion	Covered	Total	%
statement	279	313	89.1
branch	162	232	69.8
condition	58	82	70.7
subroutine	23	23	100.0
pod	0	5	0.0
total	522	655	79.6

line	stmt	bran	cond	sub	pod	time	code
1							package CSS::DOM::Parser;
2
3							$VERSION = '0.16';
4
5	22			22		166	use strict; use warnings; no warnings qw 'utf8 parenthesis';
	22			22		46
	22			22		577
	22					118
	22					37
	22					655
	22					112
	22					40
	22					962
6	22			22		148	use re 'taint';
	22					44
	22					1109
7
8	22			22		113	use Carp 1.01 qw 'shortmess croak';
	22					580
	22					1397
9	22			22		4584	use CSS::DOM;
	22					48
	22					597
10	22			22		14834	use CSS::DOM::Rule::Style;
	22					61
	22					943
11	22			22		7688	use CSS::DOM::Style;
	22					53
	22					621
12	22			22		128	use CSS::DOM::Util 'unescape';
	22					45
	22					12381
13
14							our @CARP_NOT = qw "CSS::DOM CSS::DOM::Rule::Media";
15
16
17							# Tokeniser regexps
18
19							my $token_re;
20
21							# This one has to be outside the scope, because we need it in tokenise.
22							my $_optspace = qr/[ \t\r\n\f]*/;
23							{
24
25							# Vars beginning with _ here are not token regexps, but are used to
26							# build them.
27							my $_escape =qr/\\(?:[0-9a-f]{1,6}(?:\r\n\|[ \n\r\t\f])?\|[^\n\r\f0-9a-f])/i;
28							my $_id_start = qr/[_a-zA-Z]\|[^\0-\177]\|$_escape/;
29							my $_id_cont = qr/[_a-zA-Z0-9-]\|[^\0-\177]\|$_escape/;
30							my $_nl = qr/\r\n?\|[\n\f]/;
31							my $_invalid_qq = qr/"[^\n\r\f\\"](?:(?:\\$_nl\|$_escape)[^\n\r\f\\"])*/;
32							my $_invalid_q = qr/'[^\n\r\f\\'](?:(?:\\$_nl\|$_escape)[^\n\r\f\\'])*/;
33
34							my $ident = qr/-?$_id_start$_id_cont*/;
35							my $at = qr/\@$ident/;
36							my $str = qr/$_invalid_qq(?:"\|\z)\|$_invalid_q(?:'\|\z)/;
37							my $invalid = qr/$_invalid_qq\|$_invalid_q/;
38							my $hash = qr/#$_id_cont+/;
39							my $num = qr/(?=\.?[0-9])[0-9](?:\.[0-9])?/;
40							my $percent = qr/$num%/;
41							my $dim = qr/$num$ident/;
42							my $url = qr/url\($_optspace(?:
43							$str
44							\|
45							[^\0- "'()\\\x7f](?:$_escape[^\0- "'()\\\x7f])*
46							)$_optspace(?:\)\|\z)/x;
47							my $uni_range = qr/U\+[0-9A-F?]{1,6}(?:-[0-9a-f]{1,6})?/i;
48							my $space = qr/(?:[ \t\r\n\f]+\|\/\.?(?:\\/\|\z))[ \t\r\n\f]
49							(?:\/\.?(?:\\/\|\z)[ \t\r\n\f])*/xs;
50							my $function = qr/$ident\(/;
51
52							# Literal tokens are as follows:
53							# ; { } ( ) [ ] ~= \|= , :
54
55							# The order of some tokens is important. $url, $uni_range and $function
56							# have to come before $ident. $url has to come before $function. $percent
57							# and $dim have to come before $num.
58							$token_re = qr/\G(?:
59							($url)\|($uni_range)\|($function)\|($ident)\|($at)\|($str)\|($invalid)\|
60							($hash)\|($percent)\|($dim)\|($num)\|()\|(;)\|({)\|(})\|($)\|($)
61							\|(\[)\|(])\|($space)\|(~=)\|(\\|=)\|(,)\|(:)\|(.)
62							)/xs;
63
64							} # end of tokeniser regexps
65
66							# tokenise returns a string of token types in addition to the array of
67							# tokens so that we can apply grammar rules using regexps. The types are
68							# as follows:
69							# u url
70							# U unicode range
71							# f function
72							# i identifier
73							# @ at keyword
74							# ' string
75							# " invalid string (unterminated)
76							# # hash
77							# % percentage
78							# D dimension
79							# 1 number (not 0, because we want it true)
80							# < html comment delimiter
81							# s space/comments
82							# ~ ~=
83							# \| \|=
84							# d delimiter (miscellaneous character)
85							# The characters ;{}()[],: represent themselves. The comma and colon are
86							# actually delimiters according to the CSS 2.1 spec, but it’s more conveni-
87							# ent to have them as their own tokens.
88							# ~~~ It might actually make the code cleaner if we make them all their own
89							# tokens, in which case we can provide a $delim_re for matching against a
90							# token type string.
91
92	1991	50		1991	0	5605	sub tokenise { warn caller unless defined $_[0];for (''.shift) {
	1991					6630
93	1991					3972	my($tokens,@tokens)='';
94	1991					224660	while(/$token_re/gc){
95	6967					137540	my $which = (grep defined $+[$_], 1..$#+)[0];
96	22			22		132	no strict 'refs';
	22					52
	22					968
97	6967					28064	push @tokens, $$which;
98	22			22		150	no warnings qw]qw];
	22					55
	22					11767
99	6967					14515	$tokens .=
100							qw/u U f i @ ' " # % D 1 < ; { } ( ) [ ] s ~ \| , : d/
101							[$which-1];
102
103							# We need to close unterminated tokens for the sake of
104							# serialisation. If we don’t, then too many other parts of
105							# the code base have to deal with it.
106	6967	100				80117	if($tokens =~ /'\z/) {
		100
107	127	100	66			1933	$tokens[-1] =~ /^(')[^'\\](?:\\.[^'\\])*\z
108							\|
109							^(")[^"\\](?:\\.[^"\\])*\z/xs
110							and $tokens[-1] .= $1 \|\| $2;
111							}
112							elsif($tokens =~ /u\z/) {
113	75					883	(my $copy = $tokens[-1]) =~ s/^url\($_optspace(?:
114							(')[^'\\](?:\\.[^'\\])*
115							\|
116							(")[^"\\](?:\\.[^"\\])*
117							\|
118							[^)\\](?:\\.[^)\\])*
119							)//sox;
120	75		66			390	my $str_delim = $1\|\|$2;
121	75	100	100			370	$str_delim and $copy!~s/^['"]$_optspace//o
122							and $tokens[-1] .= $str_delim;
123	75	100				869	$copy or $tokens[-1] .= ')';
124							}
125							}
126							# This can’t ever happen:
127	1991	50	66			11684	pos and pos() < length
128							and die "CSS::DOM::Parser internal error (please report this):"
129							." Can't tokenise " .substr $_,pos;
130
131							# close bracketed constructs: again, we do this here so that other
132							# pieces of code scattered all over the place (including the reg-
133							# exps below, which would need things like ‘(?:\)\|\z)’)
134							# don’t have to.
135	1991					9117	my $brack_count = (()=$tokens=~/[(f]/g)-(()=$tokens=~/\)/g)
136							+ (()=$tokens=~/\[/g)-(()=$tokens=~/]/g)
137							+ (()=$tokens=~/{/g)-(()=$tokens=~/}/g);
138	1991					3877	my $tokens_copy = reverse $tokens;
139	1991					6000	for(1..$brack_count) {
140	74					275	$tokens_copy =~ s/.*?([[{(f])//;
141	74	100				353	push @tokens, $1 eq'['?']':$1 eq'{'?'}':')';
		100
142	74					197	$tokens .= $tokens[-1];
143							}
144
145	1991					9210	return $tokens,\@tokens, ;
146							}}
147
148							# Each statement is either an @ rule or a ruleset (style rule)
149							# @ rule syntax is
150							# @ s? any* followed by block or ;
151							# A block is { s? (any\|block\|@ s?\|; s?)* } s?
152							# ruleset syntax is
153							# any* { s? [d,:]? ident s? : s? (any\|block\|@ s?)+
154							# (; s? [d,:]? ident s? : s? (any\|block\|@ s?)+)* } s?
155							# "any" means
156							# ( [i1%D'd,:u#U~\|] \| f s? any* \) \| $s? any $ \| \[ s? any \] ) s?
157							# That’s the ‘future-compatible’ CSS syntax. Below, we sift out the valid
158							# CSS 2.1 rules to put them in the right classes. Everything else goes in
159							# ‘Unknown’.
160
161							# Methods beginning with _parse truncate the arguments (a string of token
162							# types and an array ref of tokens) and return an object. What’s left of
163							# the args is whatever couldn’t be parsed. If the args were parsed in their
164							# entirety, they end up blank.
165
166							our $any_re; our $block_re;
167	22			22		132	no warnings 'regexp';
	22					42
	22					118717
168							# Although we include invalid strings (") in the $any_re, they are not
169							# actually valid, but cause the enclosing property declaration or rule to
170							# be ignored.
171							$any_re =
172							qr/(?:
173							[i1%D'"d,:u#U~\|]
174							\|
175							[f(]s?(??{$any_re})*\)
176							\|
177							\[s?(??{$any_re})*]
178							)s?/x;
179							$block_re =
180							qr/{s?(?:(??{$any_re})\|(??{$block_re})\|[\@;]s?)*}s?/;
181
182							sub tokenise_value { # This is for ::Style to use. It dies if there are
183							# tokens left over.
184	1054			1054	0	2556	my ($types, $tokens) = tokenise($_[0]);
185	1054	100				79417	$types =~ /^s?(?:$any_re\|$block_re\|\@s?)*\z/ or die
186							"Invalid property value: $_[0]";
187	1053					9415	return $types, $tokens;
188							}
189
190							sub parse { # Don’t shift $_[0] off @_. We’d end up copying it if we did
191							# that--something we ought to avoid, in case it’s huge.
192	74			74	0	168	my $pos = pos $_[0];
193	74					274	my(%args) = @_[1..$#_];
194	74					130	my $src;
195	74	100				353	if( $args{qw[encoding_hint decode][exists $args{decode}]} ) {
196	22					69	$src = _decode(@_);
197	22	50				24567	defined $src or shift, return new CSS::DOM @_;
198							}
199	74	100				319	my($types,$tokens,) = tokenise defined $src ? $src : $_[0];
200	74					504	my $sheet = new CSS::DOM @_[1..$#_];
201	74					284	my $stmts = $sheet->cssRules;
202	74					154	eval { for($types) {
	74					195
203	74					211	while($_) {
204	103	100				476	s/^([s<]+)//
205							and splice @$tokens, 0, length $1;
206	103					180	my $tokcount = @$tokens;
207	103	100				332	if(/^@/) {
208	44					142	push @$stmts,
209							_parse_at_rule($_,$tokens,$sheet);
210							}
211							else {
212	59					171	push @$stmts, _parse_ruleset(
213							$_,$tokens,$sheet
214							);
215							}
216	96	100				533	if($tokcount == @$tokens) {
217	10	100				42	$types and _expected("rule",$tokens)
218							}
219							}
220							}};
221	74					210	pos $_[0] = $pos;
222	74					463	return $sheet;
223							}
224
225							sub parse_statement {
226	177			177	0	314	my $pos = pos $_[0];
227	177					442	my($types,$tokens,) = tokenise $_[0];
228	177					292	my $stmt;
229	177					362	eval{ for($types) {
	177					449
230	177	100				561	s/^s//
231							and shift @$tokens;
232	177	100				618	if(/^@/) {
233	146					398	$stmt = _parse_at_rule($_,$tokens,$_[1]);
234							}
235							else {
236							#use DDS; Dump [$_,$tokens];
237	31	100				98	$stmt = _parse_ruleset(
238							$_,$tokens,$_[1]
239							) or last;
240							# use DDS; Dump $stmt;
241							}
242							}};
243	177					464	pos $_[0] = $pos;
244	177	100				1831	$@ = length $types ? shortmess "Invalid CSS statement"
		50
245							: ''
246							unless $@;
247	177					975	return $stmt;
248							}
249
250							sub parse_style_declaration {
251	398			398	0	652	my $pos = pos $_[0];
252							#use DDS; Dump tokenise $_[0]; pos $_[0] = $pos;
253	398					1006	my @tokens = tokenise $_[0];
254	398	100				1245	$tokens[0] =~ s/^s// and shift @{$tokens[1]};
	2					5
255	398	100	66			1171	$@ = (
256							my $style = _parse_style_declaration(
257							@tokens,undef,@_[1..$#_]
258							) and!$tokens[0]
259							) ? '' : shortmess 'Invalid style declaration';
260	398					1010	pos $_[0] = $pos;
261	398					1623	return $style;
262							}
263
264							# This one will die if it fails to match a rule. We only call it when we
265							# are certain that we could only have an @ rule.
266							# This accepts as an optional third arg the parent rule or stylesheet.
267	190			190		407	sub _parse_at_rule { for (shift) { for my $tokens (shift) {
	190					364
268	190					686	my $unesc_at = lc unescape(my $at = shift @$tokens);
269	190					345	my $type;
270	190					622	s/^@//;
271	190	100	100			2664	if($unesc_at eq '@media'
		100	100
		100	66
		100	66
			100
			100
			100
			100
			100
272							&& s/^(s?is?(?:,s?is?)*\{)//) {
273							# There’s a good chance
274							# this is a @media rule,
275							# but if what follows this
276							# regexp match turns out
277							# not to be a valid set of
278							# rulesets, we have an
279							# unknown rule.
280	66					158	my $header = $1;
281	66					273	my @header = splice @$tokens,
282							0,
283							length $1;
284							# set aside all body tokens in case this turns out to be
285							# an unknown rule
286	66					118	my ($body,@body);
287	66	50				2138	"{$_" =~ /^$block_re/
288							? ($body = substr($_,0,$+[0]-1),
289							@body = @$tokens[0..$+[0]-2])
290							: croak "Invalid block in \@media rule";
291
292							#use DDS; Dump $body, \@body;
293							# We need to record the number of tokens we have now, so
294							# that, if we revert to ‘unknown’ status, we can remove the
295							# right number of tokens.
296	66					164	my $tokens_to_begin_with = length;
297	66	100				271	s/^s// and shift @$tokens;
298	66					102	my @rulesets;
299	66					175	while($_) {
300	94		100			220	push @rulesets, _parse_ruleset ($_, $tokens)\|\|last;
301							}
302
303	66	100				474	if(s/^}s?//) {
304	49					143	splice @$tokens, 0, $+[0];
305	49					4477	require CSS::DOM::Rule::Media;
306	49		66			314	my $rule = new CSS::DOM::Rule::Media $_[0]\|\|();
307	49					96	@{$rule->cssRules} = @rulesets;
	49					178
308							$_->_set_parentRule($rule),
309							$_[0] &&$_->_set_parentStyleSheet($_[0])
310	49		33			208	for @rulesets;
311	49					159	my $media = $rule->media;
312	49					264	while($header =~ /i/g) {
313	82					365	push @$media, unescape($header[$-[0]]);
314							}
315	49					487	return $rule;
316							}
317							else {
318							# ignore rules w/invalid strings
319	17	50				52	$body =~ /"/ and return;
320
321	17					31	my $length = $tokens_to_begin_with-length $body;
322	17	100				44	$_ = $length ? substr $_, -$length : '';
323	17					62	@$tokens = @$tokens[-$length..-1];
324
325	17	100				53	$body =~ s/s\z// and pop @body;
326	17					84	require CSS::DOM::Rule;
327	17		33			87	(my $rule = new CSS::DOM::Rule $_[0]\|\|())
328							->_set_tokens(
329							"\@$header$body",
330							[$at,@header,@body]
331							);
332	17					137	return $rule;
333							}
334							}
335							elsif($unesc_at eq '@page' && s/^((?:s?:i)?)(s?{s?)//
336							\|\|$unesc_at eq '@font-face' && s/^()(s?{s?)// ) {
337	22					62	my $selector = "\@$1";
338	22					95	my @selector = ('@page', splice @$tokens, 0, $+[1]);
339	22					88	my @block_start =
340							splice @$tokens, 0, length(my $block_start = $2);
341
342	22					52	my $class = qw[FontFace Page][$unesc_at eq '@page'];
343
344							# Unfortunately, these two lines may turn out to
345							# be a waste.
346	22					3950	require "CSS/DOM/Rule/$class.pm";
347	22		66			207	my $style = (
348							my $rule = "CSS::DOM::Rule::$class"->new(
349							$_[0]\|\|()
350							)
351							) -> style;
352
353	22					71	$style = _parse_style_declaration($_,$tokens,$style);
354	22	100				70	if($style) {
355	20	50				147	s/^}s?// and splice @$tokens, 0, $+[0]; # remove }
356	20	100				124	$rule->selectorText(join '', @selector)
357							if $class eq 'Page';
358	20					126	return $rule;
359							}
360							else {
361	2	50				230	"{$_" =~ /^$block_re/
362							or croak "Invalid block in \@page rule";
363	0					0	$selector .= $block_start .substr($_,0,$+[0]-1,''),
364							push @selector, @block_start ,
365							splice @$tokens, 0, $+[0]-1;
366
367							# ignore rules w/invalid strings
368	0	0				0	$selector =~ /"/ and return;
369
370	0	0				0	$selector =~ s/s\z// and pop @selector;
371
372	0					0	require CSS'DOM'Rule;
373	0		0			0	(my $rule = new CSS::DOM::Rule $_[0]\|\|())
374							->_set_tokens(
375							$selector,\@selector
376							# not exactly a selector any more
377							);
378	0					0	return $rule;
379							}
380							}
381							elsif($unesc_at eq '@import'
382							&& s/^s?([u'])s?(is?(?:,s?is?)*)?(?:;s?\|\z)//) {
383	43					135	my($url_type,$media_token_types) = ($1,$2);
384	43					141	my $url = $$tokens[$-[1]];
385	43	100				176	my @media_tokens = $2?@$tokens[$-[2]..$+[2]]:();
386	43					169	splice @$tokens, 0, $+[0];
387	43					4929	require CSS::DOM::Rule::Import;
388	43		66			333	my $rule = new CSS::DOM::Rule::Import $_[0]\|\|();
389	43					160	$rule->_set_url_token($url_type,$url);
390	43	100				283	@media_tokens or return $rule;
391	5					24	my $media = $rule->media;
392	5					34	while($media_token_types =~ /i/g) {
393	9					44	push @$media, unescape($media_tokens[$-[0]]);
394							}
395	5					36	return $rule;
396							}
397							elsif($at eq '@charset' # NOT $unesc_at!
398							&& @$tokens >= 3 # @charset rule syntax
399							&& $tokens->[0] eq ' ' # is stricter than the
400							&& $tokens->[1] =~ /^"/ # tokenisation rules.
401							&& s/^s';s?//) {
402	22					41	my $esc_enc = $tokens->[1];
403	22					98	splice @$tokens, 0, $+[0];
404	22					2786	require CSS::DOM::Rule::Charset;
405	22		66			187	my $rule = new CSS::DOM::Rule::Charset $_[0]\|\|();
406	22					101	$rule->encoding(unescape(substr $esc_enc, 1,-1));
407	22					122	return $rule;
408							}
409							else { # unwist
410							#warn $_;
411	37	100				128	s/^(s?(??{$any_re})*(?:(??{$block_re})\|(?:;s?\|\z)))//
412							or croak "Invalid $at rule";
413	32					241	my ($types,@tokens) = ("\@$1",$at,splice @$tokens,0,$+[0]);
414	32	100				138	$types =~ /"/ and return; # ignore rules w/invalid strings
415	31	100				118	$types =~ s/s\z// and pop @tokens;
416	31					150	require CSS'DOM'Rule;
417	31		66			209	(my $rule = new CSS::DOM::Rule $_[0]\|\|())
418							->_set_tokens(
419							$types, \@tokens
420							);
421	31					162	return $rule;
422							}
423							}}}
424
425	184			184		435	sub _parse_ruleset { for (shift) {
426							# Just return if there isn’t a ruleset
427	184	100				17351	s/(^($any_re)\{s?(?:$any_re\|$block_re\|[\@;]s?)}s?)//x
428							or return;
429							index $2,'"' =>== -1 or
430	106	100				640	splice (@{+shift}, 0, $+[0]), return;
	1					6
431
432	105					360	for(my $x = $1) {
433	105					176	my $tokens = [splice @{+shift}, 0, $+[0]];
	105					642
434
435	105		66			998	(my $ruleset = new CSS::DOM::Rule::Style $_[0]\|\|())
436							->_set_selector_tokens(_parse_selector($_,$tokens));
437
438	105	50				747	s/^{s?// and splice @$tokens, 0, $+[0]; # remove {
439
440							#use DDS; Dump$_,$tokens;
441	105					453	_parse_style_declaration($_,$tokens,$ruleset->style);
442
443	105	50				758	s/^}s?// and splice @$tokens, 0, $+[0]; # remove }
444
445
446	105					722	return $ruleset
447
448							}}}
449
450	105			105		258	sub _parse_selector { for (shift) { for my $tokens (shift) {
	105					250
451	105					225	my($selector,@selector) = '';
452	105	100				5004	if(s/^($any_re+)//) {
453	78					185	$selector = $1;
454	78					299	push @selector, splice @$tokens, 0, length $1;
455							}
456	105	100				561	$selector =~ s/s\z// and pop @selector;
457	105					688	return $selector, \@selector;
458							}}}
459
460							# This one takes optional extra args:
461							# 2) the style decl object to add properties to
462							# 3..) extra args to pass to the style obj’s constructor if 2 is undef
463	525			525		1229	sub _parse_style_declaration { for (shift) { for my $tokens (shift) {
	525					939
464							# return if there isn’t one
465	525	100				38381	/^(?:$any_re\|$block_re\|[\@;]s?)*(?:}s?\|\z)/x
466							or return;
467
468	523		66			3907	my $style = shift\|\|new CSS::DOM::Style @_;
469
470							{
471	523	100				735	if(s/^is?:s?((?:$any_re\|$block_re\|\@s?)+)//) {
	687	100				40032
472	633					2835	my ($prop) = splice @$tokens, 0, $-[1];
473	633					1908	my $types = $1;
474	633					1878	my @tokens = splice @$tokens, 0, length $1;
475	633	100				1967	unless($types =~ /"/) { # ignore invalid strings
476	631	100				1722	$types =~ s/s\z// and pop @tokens;;
477	631					1916	$style->_set_property_tokens(
478							unescape($prop),$types,\@tokens
479							);
480							}
481	633	100				3635	s/^;s?// and splice(@$tokens, 0, $+[0]), redo;
482							}
483							elsif(s/^;s?//) {
484	21					59	splice @$tokens, 0, $+[0]; redo;
	21					63
485							}
486							else {
487							# Ignorable declaration
488	33					1946	s/^(?:$any_re\|$block_re\|\@s?)*//;
489	33					167	splice @$tokens, 0, $+[0];
490	33	100				185	s/^;s?// and splice(@$tokens, 0, $+[0]), redo;
491							}
492							# else last
493							}
494
495	523					3749	return $style;
496							}}}
497
498							sub _expected {
499	9			9		17	my $tokens = pop;
500	9	100				1760	croak
		100
501							"Syntax error: expected $_[0] but found '"
502							.join('',@$tokens[
503							0..(10<$#$tokens?10 : $#$tokens)
504							]) . ($#$tokens > 10 ? '...' : '') . "'";
505							}
506
507	22			22		30	sub _decode { my $at; for(''.shift) {
	22					89
508							# ~~~ Some of this is repetitive and could probably be compressed.
509	22					1084	require Encode;
510	22	50				11219	if(/^(\xef\xbb\xbf(\@charset "(.*?)";))/s) {
		100
		50
		50
		100
		100
		100
		100
		100
		100
		100
		100
		100
		100
		100
		100
511	0					0	my $enc = $3;
512	0					0	my $dec = eval{Encode::decode($3, $1, 9)};
	0					0
513	0	0				0	if(defined $dec) {
514	0	0				0	$dec =~ /^(\x{feff}?)$2\z/
		0
515							and return Encode::decode($enc,
516							$1 ? substr $_, 3 : $_);
517	0	0				0	$@ = $1?"Invalid BOM for $enc: \\xef\\xbb\\xbf"
518							:"\"$enc\" is encoded in ASCII but is not"
519							." ASCII-based";
520							}
521							}
522							elsif(/^\xef\xbb\xbf/) {
523	2					11	return Encode::decode_utf8(substr $_,3);
524							}
525							elsif(/^(\@charset "(.*?)";)/s) {
526	0					0	my $dec = eval{Encode::decode($2, $1, 9)};
	0					0
527	0	0				0	if(defined $dec) {
528	0	0				0	$dec eq $1
529							and return Encode::decode($2, $_);
530	0					0	$@ = "\"$2\" is encoded in ASCII but is not "
531							."ASCII-based";
532							}
533							}
534							elsif(
535							/^(\xfe\xff(\0\@\0c\0h\0a\0r\0s\0e\0t\0 \0"((?:\0.)*?)\0"\0;))/s
536							) {
537	0					0	my $enc = Encode::decode('utf16be', $3);
538	0					0	my $dec = eval{Encode::decode($enc, $1, 9)};
	0					0
539	0	0				0	if(defined $dec) {
540	0	0				0	$dec =~ /^(\x{feff}?)\@charset "$enc";\z/
		0
541							and return Encode::decode($enc,
542							$1 ? substr $_, 2 : $_);
543	0	0				0	$@ = $1?"Invalid BOM for $enc: \\xfe\xff"
544							:"\"$enc\" is encoded in UCS-2 but is not"
545							." UCS-2-based";
546							}
547							}
548							elsif(
549							/^(\0\@\0c\0h\0a\0r\0s\0e\0t\0 \0"((?:\0.)*?)\0"\0;)/s
550							) {
551	1					5	my $origenc = my $enc = Encode::decode('utf16be', $2);
552	1					700	my $dec = eval{Encode::decode($enc, $1, 9)};
	1					4
553							defined $dec or $dec
554	1	50				55	= eval{Encode::decode($enc.='-be', $1, 9)};
	1					6
555	1	50				792	if(defined $dec) {
556	1	50				11	$dec eq "\@charset \"$origenc\";"
557							and return Encode::decode($enc, $_);
558	0					0	$@ ="\"$origenc\" is encoded in UCS-2 but is not "
559							."UCS-2-based";
560							}
561							}
562							elsif(
563							/^(\xff\xfe(\@\0c\0h\0a\0r\0s\0e\0t\0 \0"\0((?:.\0)*?)"\0;\0))/s
564							) {
565	1					5	my $enc = Encode::decode('utf16le', $3);
566	1					659	my $dec = eval{Encode::decode($enc, $1, 9)};
	1					4
567	1	50				56	if(defined $dec) {
568	1	50				35	$dec =~ /^(\x{feff}?)\@charset "$enc";\z/
		50
569							and return Encode::decode($enc,
570							$1 ? substr $_, 2 : $_);
571	0	0				0	$@ = $1?"Invalid BOM for $enc: \\xfe\xff"
572							:"\"$enc\" is encoded in UCS-2-LE but is not"
573							." UCS-2-LE-based";
574							}
575							}
576							elsif(
577							/^(\@\0c\0h\0a\0r\0s\0e\0t\0 \0"\0((?:.\0)*?)"\0;\0)/s
578							) {
579	1					6	my $origenc = my $enc = Encode::decode('utf16le', $2);
580	1					64	my $dec = eval{Encode::decode($enc, $1, 9)};
	1					4
581							!defined $dec \|\| $dec !~ /^\@/ and $dec
582	1	50	33			86	= eval{Encode::decode($enc.='-le', $1, 9)};
	1					6
583	1	50				727	if(defined $dec) {
584	1	50				8	$dec eq "\@charset \"$origenc\";"
585							and return Encode::decode($enc, $_);
586	0					0	$@ ="\"$enc\" is encoded in UCS-2-LE but is not "
587							."UCS-2-LE-based";
588							}
589							}
590							elsif(
591							/^(\0\0\xfe\xff(\0{3}\@\0{3}c\0{3}h\0{3}a\0{3}r\0{3}s\0{3}e\0{3}t
592							\0{3}\ \0{3}"((?:\0{3}.)*?)\0{3}"\0{3};))/sx
593							) {
594	1					4	my $enc = Encode::decode('utf32be', $3);
595	1					722	my $dec = eval{Encode::decode($enc, $1, 9)};
	1					5
596	1	50				712	if(defined $dec) {
597	1	50				35	$dec =~ /^(\x{feff}?)\@charset "$enc";\z/
		50
598							and return Encode::decode($enc,
599							$1 ? substr $_, 2 : $_);
600	0	0				0	$@ = $1?"Invalid BOM for $enc: \\xfe\xff"
601							:"\"$enc\" is encoded in UTF-32-BE but is not"
602							." UTF-32-BE-based";
603							}
604							}
605							elsif(
606							/^(\0{3}\@\0{3}c\0{3}h\0{3}a\0{3}r\0{3}s\0{3}e\0{3}t
607							\0{3}\ \0{3}"((?:\0{3}.)*?)\0{3}"\0{3};)/sx
608							) {
609	1					5	my $origenc = my $enc = Encode::decode('utf32be', $2);
610	1					53	my $dec = eval{Encode::decode($enc, $1, 9)};
	1					4
611							defined $dec or $dec
612	1	50				53	= eval{Encode::decode($enc.='-be', $1, 9)};
	1					5
613	1	50				758	if(defined $dec) {
614	1	50				8	$dec eq "\@charset \"$origenc\";"
615							and return Encode::decode($enc, $_);
616	0					0	$@ ="\"$enc\" is encoded in UTF-32-BE but is not "
617							."UTF-32-BE-based";
618							}
619							}
620							elsif(
621							/^(\xff\xfe\0\0(\@\0{3}c\0{3}h\0{3}a\0{3}r\0{3}s\0{3}e\0{3}t
622							\0{3}\ \0{3}"\0{3}((?:.\0{3})*?)"\0{3};\0{3}))/sx
623							) {
624	1					7	my $enc = Encode::decode('utf32le', $3);
625	1					878	my $dec = eval{Encode::decode($enc, $1, 9)};
	1					6
626	1	50				68	if(defined $dec) {
627	1	50				47	$dec =~ /^(\x{feff}?)\@charset "$enc";\z/
		50
628							and return Encode::decode($enc,
629							$1 ? substr $_, 2 : $_);
630	0	0				0	$@ = $1?"Invalid BOM for $enc: \\xfe\xff"
631							:"\"$enc\" is encoded in UTF-32-LE but is not"
632							." UTF-32-LE-based";
633							}
634							}
635							elsif(
636							/^(\@\0{3}c\0{3}h\0{3}a\0{3}r\0{3}s\0{3}e\0{3}t
637							\0{3}\ \0{3}"\0{3}((?:.\0{3})*?)"\0{3};\0{3})/sx
638							) {
639	1					6	my $origenc = my $enc = Encode::decode('utf32le', $2);
640	1					70	my $dec = eval{Encode::decode($enc, $1, 9)};
	1					4
641							!defined $dec \|\| $dec !~ /^\@/ and $dec
642	1	50	33			70	= eval{Encode::decode($enc.='-le', $1, 9)};
	1					7
643	1	50				928	if(defined $dec) {
644	1	50				8	$dec eq "\@charset \"$origenc\";"
645							and return Encode::decode($enc, $_);
646	0					0	$@ ="\"$enc\" is encoded in UTF-32-LE but is not "
647							."UTF-32-LE-based";
648							}
649							}
650							elsif(/^(?:\0\0\xfe\xff\|\xff\xfe\0\0)/) {
651	2					10	return Encode::decode('utf32', $_);
652							}
653							elsif(/^(?:\xfe\xff\|\xff\xfe)/) {
654	3					12	return Encode::decode('utf16', $_);
655							}
656							elsif(
657							/^(\\|\x83\x88\x81\x99\xa2\x85\xa3\@\x7f(.*?)\x7f\^)/s
658							) {
659	2					13	my $enc = Encode::decode('cp37', $2);
660	2					22894	my $dec = eval{Encode::decode($enc, $1, 9)};
	2					15
661	2	50				134	if(defined $dec) {
662	2	50				24	$dec eq "\@charset \"$enc\";"
663							and return Encode::decode($enc, $_);
664	0					0	$@ ="\"$enc\" is encoded in EBCDIC but is not "
665							."EBCDIC-based";
666							}
667							}
668							elsif(
669							/^(\xae\x83\x88\x81\x99\xa2\x85\xa3\@\xfc(.*?)\xfc\^)/s
670							) {
671	1					7	my $enc = Encode::decode('cp1026', $2);
672	1					38	my $dec = eval{Encode::decode($enc, $1, 9)};
	1					6
673	1	50				39	if(defined $dec) {
674	1	50				11	$dec eq "\@charset \"$enc\";"
675							and return Encode::decode($enc, $_);
676	0					0	$@ ="\"$enc\" is encoded in IBM1026 but is not "
677							."IBM1026-based";
678							}
679							}
680							elsif(
681							/^(\0charset "(.*?)";)/s
682							) {
683	1					4	my $enc = Encode::decode('gsm0338', $2);
684	1					6470	my $dec = eval{Encode::decode($enc, $1, 9)};
	1					6
685	1	50				146	if(defined $dec) {
686	1	50				7	$dec eq "\@charset \"$enc\";"
687							and return Encode::decode($enc, $_);
688	0					0	$@ ="\"$enc\" is encoded in GSM 0338 but is not "
689							."GSM 0338-based";
690							}
691							}
692							else {
693	4					15	my %args = @_;
694	4		100			34	return Encode::decode($args{encoding_hint}\|\|'utf8', $_);
695							}
696	0						return;
697							}}
698
699							__END__
700
701							=head1 NAME
702
703							CSS::DOM::Parser - Parser for CSS::DOM
704
705							=head1 VERSION
706
707							Version 0.16
708
709							=head1 DESCRIPTION
710
711							This is a private module (at least for now). Don't use it directly.
712
713							=head1 SEE ALSO
714
715							L