TMX-Datei bereinigen

Hans List

2012-03-17 06:50:56 UTC

Hallo,

Ich möchte eine Translation Memory Exchange-Datei (TMX) bereinigen und
nur die Sprachencodes, die Sprachensegmente und den Vor- und Nachspann
jeder Translation Unit (TU) behalten. Die UTF-8-Dateien sind riesig
(400.000 Zeilen und mehr).

Eine TU sieht so aus:

<tu>
<prop type="FileFormatGUID">{59BFE790-8ECE-483B-879F-D6431D50F78B}</
prop>
<prop type="Filename">Bedienterminal</prop>

<tuv xml:lang="de-de" changedate="20120309T103527Z"
changeid="Transit">
<seg>Allgemeiner Aufbau der Programmoberfläche</seg>
</tuv>

<tuv xml:lang="nl-nl" changedate="20120208T094333Z" changeid="AA"
creationdate="20120123T124003Z" creationid="AA">
<prop type="Translator">AA</prop>
<seg>Algemene opbouw van de gebruikersinterface</seg>
</tuv>
</tu>

Wäre dies das richtige Vorgehen zur Bereinigung?

Read all lines
If a line contains lang="de-de"
read the next line
write
<tu>
<tuv xml:lang="de-de">
<seg>Allgemeiner Aufbau der Programmoberfläche</seg>
</tuv>
ElseIf a line contains lang="nl-nl"
read the 2nd next line?? (via a counter, n+2?)
write
<tuv xml:lang="nl-nl">
<seg>Algemene opbouw van de gebruikersinterface</seg>
</tuv>
</tu>
EndIf

Für jede Hilfe dankbar!

Hans