Skip to content

Java und Unicode

Der native Java Typ char ist vorzeichenloser, ganzzahliger mit einer Breite von 16 bit. Mit dem Wertebereich 0-65535 deckte der Datentyp ursprünglich alle definierten Zeichenwerte des Unicode Standards ab. Dieser Umfang (die sogenannte Basic Multilingual Plane, BMP) umfasst einen Großteil der Zeichen aller aktuell im Gebrauch befindlichen Schriften. Nach Unicode Konvention werden die Zeichenwerte mit U+0000 - U+FFFF (also in Hex Schreibweise mit vorangestelltem 'U+') notiert. Oberflächlich hat sich damit sicherlich schon jeder Java Entwickler beschäftigt. Ist ja auch eine Grundvoraussetzung zum Verständnis der Unterschiede zwischen einem Zeichen-Reader und einem Byte-Stream. Wie die meisten Entwickler habe ich mich mit den Details erst befasst, als es Notwendig wurde eine Richtlinie für die Übersetzung unserer J2EE Anwendungen für den asiatischen Markt zu erstellen. Unicode fasst einen Großteil der Schriftzeichen aus Fern-Ost in CJK Unified Ideographs (Unihan) zusammen. Unicode 4.x definiert aber weitaus mehr Zeichen. Im Moment ist der Bereich bis U+10FFFF für weitere Zeichen vorgesehen. Darunter ein großer Block der zusätzlichen CJK Zeichen. Darin enthalten sind weniger gebräuchliche Schriftzeichen zur Darstellung von Eigennamen und Zeichen die speziell für die Kompatibilität mit nationalen Zeichensätzen reserviert wurden. Erstere werden z.B. für Software in der öffentlichen Verwaltung benötigt. Oder auch nur, wenn es darum geht Dateien von bestehenden Anwendungen verlustfrei zu verarbeiten. Hier stellt sich jetzt sofort die Frage: "Wie stelle ich mit einem 16bit Java Datentyp die Zeichenwerte mit einer Breite von 20bits dar?" Die Antwort ist erschütternd einfach: gar nicht. Dieses Problem ist natürlich auch Sun bekannt. Java bietet eine Lösung - oder besser: Workaround - an. Die "Supplementary Characters" die in Java 1.5 eingeführt wurden. Es wurde dazu aber nicht der char Datentyp neu definiert (der bleibt weiterhin bei 16bit), sondern es wurden neue Funktionen und Methoden für den Zugriff auf Zeichenwerte geschaffen, die mit int Werten (signed 32bit) arbeiten. Continue reading "Java und Unicode"

Intranets II - Wikis

Während die Web Seiten unseres Intranets langsam auf Basis eines Content Management Systems wachsen (wir setzen inzwischen auf Typo3, aber das Thema Portal und Dokumentenmanagement ist noch offen) haben wir in der F+E schon eine Weile Wikis im Betrieb. Wikis sind furchtbar Trendy im Wissensmanagement und der Unternehmenskommunikation. Mit ein Hauptgrund ist, dass es damit einfach wird Seiten aktuell zu halten, weil jeder dazu beitragen kann. Die Wiki Design Prinzipien sind ideal für die Wissensvermittlung (und Findung!) in Intranets. Die Benimmregeln die man von öffentlich betriebnen Servern (wie z.B. der Wikipedia) kennt erweisen sich auch im Intranet als praktisch. Es führt zu einem selbstmoderierenden Prozess, der den Diskurs begünstigt. Continue reading "Intranets II - Wikis"

Blogging vs. Journalismus

Das "vs." im Titel dieses Beitrags steht für "versus" (engl. "gegen"), gemeinhin also der Ausdruck von Wettstreit und Vergleich. Und nicht immer geht es so fair und emotionslos wie im Sport zu. Ein ganz besonderer Streit wird zwischen den etablierten Journalisten und den (Hobby) Bloggern ausgetragen: Spiegel Online (SPON) hat sich mit abfälligen Kommentaren wie "99% der Blogs sind Müll" gegen die Blog Szene ziemlich weit aus dem Fenster gelehnt. So ist es kaum verwunderlich, dass die Argusaugen der Blog Gemeinde der Spiegel Online Redaktion immer wieder mehr oder weniger schwerwiegende Verstöße gegen Urheberrecht, journalistischer Sorgfalt nachweisen, oder einfach nur auf die Körperverletzung gegenüber der deutschen Sprache hinweisen. Diesem Dauerthema hat IT&W eine ganze Kategorie gewidment: SPON Watch. Ebenso hat der Mitherausgeber des Buch "Blogs!" passende Artikel im Angebot.