Tags » Unicode

ஒருங்குறியில் தமிழ்ப்பின்னங்கள், சின்னங்கள்

அன்பிற்குரிய நண்பர்களுக்கு,

தமிழ்ப்பின்னங்கள், சின்னங்களுக்கான, பிழைகள் நிரம்பிய, L2/15-078 என்னும் முன்னீட்டை ஒருங்குறிச் சேர்த்தியம் அப்படியே ஏற்றுக்கொள்ளாது இருக்கும்படிப் பலரின் முயற்சியால் ஓரளவு தடுத்து நிறுத்தியுள்ளோம். (மீண்டும் சொல்கிறேன். தமிழ்ப்பின்னங்கள், சின்னங்கள் தமிழ் SMP இல் ஏறக்கூடாது என்று நாம் சொல்லவில்லை. 48 more words


php unicode utf-16 bom processing with iconv and mb_convert

basically php iconv doesnt handle FEFF BOMs while mb_convert does !

        $fh = fopen($s, "r");
        // watch out for notepad unicode FEFF BOM
        $utf16 = fgets($fh, 1024);

        $utf8 = mb_convert_encoding($utf16,'UTF-8','UTF-16');
        echo PHP_EOL;

        $utf8 = mb_convert_encoding($utf16,'UTF-8','UTF-16LE');
        echo PHP_EOL;

        $utf8 = iconv('UTF-16LE','UTF-8',mb_substr($utf16,1,null,'UTF-16LE'));
        echo PHP_EOL;

php and notepad unicode files

notepad unicode csvfiles have a 2 byte BOM (FEFF) and are UTF-16/UCS-2 little endian encoded

$ od -t x1z hot.csv | head
0000000 ff fe 48 00 6f 00 74 00 65 00 6c 00 49 00 44 00  >..H.o.t

$ od -t x2z hot.csv | head
0000000 feff 0048 006f 0074 0065 006c 0049 0044  >..H.o.t

UTF-8 & perl


Some days ago, at work I had to do regular expression matching with some UTF-8 or Unicode[1] encoded text. That made me read… 479 more words


Belated insights about the Indian rupee symbol

Can you imagine how petty it would look if the U.S. said, “We’re tired of sharing a currency sign with Canada and Mexico. Even though $ is a perfectly good symbol with historical pedigree, it’s too easy type in ASCII, and we’re… 105 more words

Reduce Unicode to ???

Sometimes we need to load non-English text, or English with accents, like cliché, into a platform that doesn’t support them. (I’m looking at you, Concordance 8). 419 more words

Text Processing