hgbook: en/autoid.py annotate

annotate en/autoid.py @ 751:751ee9bf2e8d

ch00-preface.xml: Typo fix

author	Dongsheng Song <dongsheng.song@gmail.com>
date	Fri, 20 Mar 2009 16:59:07 +0800
parents	c838b3975bc6
children

rev	line source
683 c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	1 #!/usr/bin/env python
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	2 #
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	3 # Add unique ID attributes to para tags. This script should only be
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	4 # run by one person, since otherwise it introduces the possibility of
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	5 # chaotic conflicts among tags.
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	6
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	7 import glob, os, re, sys
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	8
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	9 tagged = re.compile('<para[^>]* id="x_([0-9a-f]+)"[^>]*>', re.M)
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	10 untagged = re.compile('<para>')
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	11
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	12 names = glob.glob('ch.xml') + glob.glob('app.xml')
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	13
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	14 # First pass: find the highest-numbered paragraph ID.
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	15
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	16 biggest_id = 0
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	17 seen = set()
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	18 errs = 0
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	19
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	20 for name in names:
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	21 for m in tagged.finditer(open(name).read()):
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	22 i = int(m.group(1),16)
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	23 if i in seen:
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	24 print >> sys.stderr, '%s: duplication of ID %s' % (name, i)
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	25 errs += 1
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	26 seen.add(i)
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	27 if i > biggest_id:
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	28 biggest_id = i
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	29
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	30 def retag(s):
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	31 global biggest_id
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	32 biggest_id += 1
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	33 return '<para id="x_%x">' % biggest_id
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	34
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	35 # Second pass: add IDs to paragraphs that currently lack them.
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	36
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	37 for name in names:
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	38 f = open(name).read()
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	39 f1 = untagged.sub(retag, f)
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	40 if f1 != f:
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	41 tmpname = name + '.tmp'
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	42 fp = open(tmpname, 'w')
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	43 fp.write(f1)
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	44 fp.close()
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	45 os.rename(tmpname, name)
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	46
c838b3975bc6 Add IDs to paragraphs. Bryan O'Sullivan <bos@serpentine.com> parents: diff changeset	47 sys.exit(errs)

Mercurial > hgbook

annotate en/autoid.py @ 751:751ee9bf2e8d