Archiv des LibreOffice- und OpenOffice.org-Wiki

[ÜberSicht] [TitelIndex] [WortIndex] [SeiteFinden

(./) SO7 OOo1.1

Dieser Artikel erläutert kurz, was ein Zeichensatz ist und beschreibt dann, an welchen Stellen man bei OpenOffice.org mit dem Problem „Zeichensatz“ konfrontiert wird.

1. Was ist ein Zeichensatz?

Informationen werden für einen Computer binär codiert, d.h. es kommen im Codewort nur zwei Werte nämlich „0“ und „1“ vor. Traditionsgemäß werden jeweils acht solcher Werte (Bit) zu einer Einheit zusammengefasst, einem Byte. Den Zahlenwert kann man binär (1001011011) im Zweiersystem oder dezimal (603) im Zehnersystem oder hexadezimal (25B) im Sechzehnersystem angeben. (Tipp: Mit dem Taschenrechner von WindowsXP kann man zwischen diesen Zahlensystemen umrechnen.)

Ein Byte kann 256 unterschiedliche Werte haben. Oft werden auch mehrere Bytes zu einem Wert zusammengefasst. Bei Zeichensätzen wird dieser Zahlenwert ein „Codepunkt“ (codepoint) genannt. Ein Zeichensatz ist eine Vereinbarung, welche Bedeutung ein solcher Codepunkt hat. Ein Zeichensatz ist also eine Zuordnung zwischen Codepunkt und Bedeutung.

tabelleunicode.png

Solche Zuordnungen werden meist in Tabellen dargestellt, hier ein Ausschnitt aus der Tabelle für Unicode.

2. Weit verbreitete Zeichensätze

2.1. ASCII/US

Dies ist ein 7-bit Zeichensatz. Er enthält 128 Zeichen, Zeichen mit den Nummern von 0 bis 31 sind Steuerzeichen, dann kommen druckbare Zeichen. Die Auswahl ist geeignet, englische Texte zu schreiben. Solche Texte werden „plain text“ genannt.

Auf diesem Zeichensatz baut das Dokumentenformat RTF (rich text format) auf und auch HTML kann mit diesem Zeichensatz geschrieben werden. Um auch komplexe Dokumentstrukturen zu realisieren, besitzen diese Formate spezielle Schreibweisen mit Tags.

Das überzählige achte Bit kann zur Kontrolle der Datenübertragung eingesetzt werden.

Dieser Zeichensatz ist in den anderen Zeichensätzen enthalten, er stellt so „den kleinsten gemeinsamen Nenner“ dar.

2.2. DOS/OS2-850 und DOS/OS2-437

Dies sind 8-bit Zeichensätze. Sie stimmen von den Nummern 0 bis 127 mit dem ASCII-Zeichensatz überein. Mit den darüber liegenden Nummern bis 255 haben Firmen wie IBM und Microsoft nationale Zeichen und Rahmen- und Blocksymbole hinzugefügt. Die Tabellen dieser Zeichensätze findet man unter dem Begriff „codepage“ sehr leicht im Internet.

Außer den Zeichensätzen 850 (international) und 437 (US) gibt es auch noch für Zeichen anderer Sprachräume angepasste Tabellen.

Diese Zeichensätze sind bei OpenOffice.org nur dann wichtig, wenn Daten mit älteren Programmen (z.B. Mess-Systeme) ausgetauscht werden sollen.

2.3. Windows-1252/WinLatin1

Dieser Zeichensatz wird von den Windows-Betriebssystemen benutzt. Auf diesen Rechnern kann man die Zeichen mit der Tastur über Alt+0Codepunkt eingeben.

windows1252_klein.png

Die Zeichen sind der Reihe nach von 128 (hexadezimal 80) angefangen in der Schriftart „Thorndale“ aufgeführt (grau bedeutet undefiniert, grün ist ein geschütztes Leerzeichen und gelb ist ein bedingter Trennstrich).

2.4. ISO-8859

Um das Wirrwarr herstellerspezifischer Zeichensätze zu beenden, wurden einige 8-bit Zeichensätze normiert. Für Zeichen europäischer Sprachen sind dies die Zeichensätze der Gruppe ISO-8859. Für Deutsch, Französisch und Englisch ist 8859-1 und – mit Eurozeichen – 8859-15 geeignet, für Türkisch z.B. benötigt man 8859-9.

Diese Zeichensätze stimmen in den Codepunkten 0 bis 127 mit ASCII überein. Von 128 bis 159 werden die Steuerzeichen des Bereiches von 0 bis 31 wiederholt. Von 160 an folgen dann die sprachspezifischen Zeichen je nach Unterart.

2.5. Unicode

Um Zeichen aller Sprachen in nur einem Zeichensatz zu definieren, hat man das Unicode-Projekt gestartet. Der Zeichensatz benutzt Codepunkte mit früher zwei und jetzt vier Bytes. Er ist in die Norm ISO/IEC 10646 übernommen worden. Inzwischen unterstützen alle modernen Betriebssysteme und neueren Office-Programme den Unicode-Zeichensatz. Die Tabellen dieses Zeichensatzes stehen unter http://www.unicode.org/charts/.

3. Welchen Zeichensatz benutzt OpenOffice.org?

OpenOffice.org und StarOffice (ab Version 6) verwenden sowohl für die Dokumente als auch für die eigenen Konfigurationsdateien, soweit sie nicht Maschinencode enthalten, den Unicode-Zeichensatz. Dieser wird jedoch nicht direkt benutzt, sondern nach UTF‑8 umcodiert. Diese Codierung ist so konstruiert, dass die häufig benutzen Zeichen der westlichen Texte nur ein Byte benötigen, selten benutzte exotische Zeichen dafür vier und mehr Bytes.

OpenOffice.org 2.0 kann auch Texte, die Zeichen mit Codepunkten größer als FFFF enthalten, laden und speichern, aber man kann diese Zeichen noch nicht mit dem Sonderzeichen-Dialog eingeben.

OpenOffice.org bietet an verschiedenen Stellen Filter an, Dokumente mit anderen Zeichensätzen zu importieren oder in andere Zeichensätze zu exportieren.

4. Wo kommen Zeichensätze in der Arbeit mit OpenOffice vor?

4.1. Sonderzeichen einfügen

sonderzeichen_ausschnitt.png

Im Dialog Einfügen → Sonderzeichen… wird der zum ausgewählten Zeichen gehörende Codepunkt eingeblendet. Das U steht für „Unicode“. Die Zahl ist hexadezimal dargestellt.

4.2. Speichern im HTML-Format

html.png

Für den Export eines OpenOffice.org-Dokuments als Webseite kann unter Extras → Optionen → Laden/Speichern → HTML-Kompatibilität der für den Export benutzte Zeichensatz eingestellt werden. Zeichen, die in diesem Zeichensatz nicht enthalten sind, werden mit HTML-Entities umschrieben.

4.3. Dateityp „Text Kodiert“

ascii-filter.png

Für den Dateityp „Text Kodiert“ kann man beim Laden und Speichern angeben, welcher Zeichensatz von OpenOffice.org benutzt werden soll. Beim Speichern muss man dazu die Option Filtereinstellungen bearbeiten aktivieren, beim Laden öffnet sich der Dialog automatisch. Tipp: Die Dateiendung muss nicht txt lauten, sondern man kann auch jede andere benutzen. OpenOffice.org merkt sich nicht, mit welchem Zeichensatz eine Datei dieses Typs geöffnet wurde. Daher muss man beim Speichern den Zeichensatz erneut auswählen.

/!\ Speichert man eine Datei mit dem Zeichensatz UTF‑8, wird vor dem eigentlichen Text eine drei Byte große BOM (byte order mark) eingefügt, speichert man im Format Unicode oder Text, werden zwei Byte davorgesetzt.

4.4. Tabellendaten im CSV-Format

Entsprechend kann man den Zeichensatz einstellen, wenn man in ein Tabellendokument Daten importieren will, die als Text gespeichert sind. Bei solchen Daten stellt jede Zeile einen Datensatz dar. Die Datenfelder haben eine feste Breite oder sind durch ein spezielles Zeichen getrennt. Messgeräte liefern häufig dieses Format. Umgekehrt kann man beim Export entsprechend festlegen, welcher Zeichensatz benutz werden soll.

Hier wurde der richtige Zeichensatz eingestellt

Hier wurde der falsche Zeichensatz eingestellt

dialog_richtig.png

dialog_falsch.png

namen_richtig.png

namen_falsch.png

4.5. Datenbanktabellen im dBase-Format

Wenn eine Calc-Tabelle so organiert ist, dass in der ersten Zeile die Feldnamen stehen und in den darunter liegenden Zeilen jeweils die Datensätze, kann man mit Datei → Speichern unter daraus eine dBase-Datei erstellen. Bei diesem Export muss der Zeichensatz ausgewählt werden, mit dem die Daten gespeichert werden sollen. Dabei ist allerdings zu beachten, dass das dBase-Format prinzipiell nur mit 1-Byte-Zeichensätzen umgehen kann. Dementsprechend stehen auch nur solche Zeichensätze zur Auswahl. Auch die mitgelieferte Datenbank „Bibliography“ ist vom Datenbanktyp „dBase“ und hat daher diese Einschränkung.

Wenn eine solche dBase-Tabelle zum Beispiel in einem Textdokument benutzt werden soll, muss der richtige Zeichensatz ausgewählt werden.

In OpenOffice.org bis Version 1.1.5 bzw. in StarOffice bis Version 7 findet man die Einstellung unter Extras → Datenquellen. Es öffnet sich der Dialog „Datenquellen verwalten“. Dort wird für eine dBase-Datenbank der Zeichensatz im zweiten Register eingestellt, das bei einer dBase-Datenbank die Bezeichnung „dBase“ hat.

In OpenOffice.org ab Version 2.0 bzw. in StarOffice ab Version 8 erreicht man die Einstellungen über die Datenbankansicht: Ansicht → Datenquellen bzw. Funktionstaste F4. Aus dem KontextMenü der DatenBank benutzt man dann den Eintrag „Datenbankdatei bearbeiten“. Im ToolTipp zu diesem Eintrag steht zwar „Datenquellen verwalten“, aber es öffnet sich kein Dialog sondern die Datenbank wird in dem neuen Modul Base geöffnet. Bei einer dBase-Datei erreicht man dann über Bearbeiten → Datenbank → Eigenschaften im Register „zusätzliche Eigenschaften“ die Einstellung des Zeichensatzes.

5. Weblinks


KategorieGrundlagen


LizenzBedingungen | AnbieterKennzeichnung | DatenschutzErklärung | Stand: 2013-04-28