ļāūņš ļāčīš ūņ vīņā ļāpēļē

2003. gada novembris 25. Nov: Katrīna, Kate, Trīne, Kadrija

« Oktobris				Janvāris »
27	28	29	30	31	01	02
03	04	05	06	07	08	09
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
« 24. novembris				27. novembris »

Meklis

(Ieraksti = 3355, komentāri = 32811)

Pēdējie 5 komentāri

Tūļi

Subscriptions

Teitan parādās visi ieraksti, uz kuru komentāru saņemšanu Tu esi parakstījies.

laacz » 2003 » 25. novembris

PostgreSQL un UTF-8

18:31 @ 2003-11-25 = 20 blabla

Nolūkā pārliecināties, ka PostgreSQL ir potenciālā DBVS, uz kuru varētu migrēt, jamā tika arī uzinstalēta. Viss ir dikti jau nu feini. Ja neskaita pagaidām vienu lielu problēmu (iespējams, ka problēma slēpjas lielajā roku liekuma rādiusā).

Tātad tā. Inicializējam datu direktoriju:

initdb -E UTF8 /home/sqlpostgres/sql

Tātad tā. Izveidojam datubāzi:

createdb -E UTF8 -Otest test

Izveidojam ideālu tabulu:

create table test (text varchar(254));

Ievietojam divus ierakstus, pirms tam norādot, ka mūsu klienta lokāle ir UNICODE.

pg_set_client_encoding('UNICODE');
pg_query('INSERT INTO test VALUES(\'āžēš\')');
pg_query('INSERT INTO test VALUES(\'ĀŽĒŠ\')');

Piezīmēšu, ka visu daru ar PHP skripta palīdzību un visur viss notiek iekš UTF–8 :)

Un te nu ir pats selekts:

SELECT
  text,
  LOWER(text) AS lowertext,
  UPPER(text) AS uppertext
FROM
  test

Protams, ka rezultāts mani neapmierina.

Un nestāstiet man, ka jānorāda lokāle. Interesanti, kā tad strādā sekojošs PHP koda gabals, kurš spēj mainīt keisu jebkurā valodā rakstītam skriptam? Tiek izmantots PHP multibyte funkcijām pārbagātais modulis.

mb_internal_encoding("UTF–8");
$str_lower = mb_convert_case($str, MB_CASE_LOWER);
$str_upper = mb_convert_case($str, MB_CASE_UPPER);

Ja nu es kaut ko ne tā daru, tad, lūgtum, paskolojiet mani, ok?

«Terorisma tālejošās sekas

laacz.lv again »

1 endrju @ 19:05 (2003. gada 25. novembris)

Palasies PostgreSQL lapā par SORT'ingu, LOW'er/UPP'er UTF–8 un .lv chariem.

2 laacz @ 19:06 (2003. gada 25. novembris)

endrju: PostgreSQL lapa ir liela. Izsniedz lūgtum linciņus :)

3 !ob @ 01:31 (2003. gada 26. novembris)

pat neintereseejoties pilniiga paarlieciiba ka probleema ir PHP nevis pgsql

4 endrju @ 08:15 (2003. gada 26. novembris)

laacz: Sorry, bet linku neatceros. Atceros, ka veidojot portālu ar PostgreSQL un UTF–8 — radās problēmas ar SORT'ingu no UTF–8 db,
tb, nemācēja pareizi kārtot .lv un .ru valodā
Pameklējos google/pgsql saitos un šo to noderīgu arī atradu. Mailinglistēs, ja nemaldos.

5 pods @ 10:35 (2003. gada 26. novembris)

vismaz m$ sqlserver unicodei ir atsevishkjs datu tips: nvarchar, nevis varchar

6 viestards @ 11:41 (2003. gada 26. novembris)

esmu neziniitis Postgresql, tacu ieksh
http://www.postgresql.org/docs/7.4/stati… , tabulaa 20–1 pie servera char setiem nav mineets UTF–8, bet gan unicode. varbuut jaaraksta
createdb -E UNICODE -Otest test

7 viestards @ 11:48 (2003. gada 26. novembris)

8 CooLynX @ 12:52 (2003. gada 26. novembris)

viestards saka patiesiibu. tikko pakonsulteejos pie koleegja — tieshaam ir jaraksta createdb -E UNICODE …

9 KRISHA @ 12:55 (2003. gada 26. novembris)

Jaa unicode gan, pietam kad /l listo datubaaazes tur raada encodingu, so tur arii ja by default ir SQL_ASCII, tad buutu jabuut UNICODE..

10 laacz @ 13:25 (2003. gada 26. novembris)

!ob, ar PHP te nav nekaada sakara :) No konsoles tieši tas pats :)

KRISHA: Ir, ir UNICODE :)

Viestards, CooLynX: UTF–8 ir UNICODE sinoniims throughout all of PostgreSQL

11 CooLynX @ 14:06 (2003. gada 26. novembris)

laacz: tieshi taa pat kaa iso8859–13 ir sinoniims windows–1257 ne? :)

12 laacz @ 14:20 (2003. gada 26. novembris)

CooLynX: nope. UTF–8 ir Unicode apakshsets. Savukaart Windows–1257 un ISO–8859–13 ir viens un tas pats (http://www.w3.org/International/O–charse…)

Vienkārši PostgreSQL supportē tikai 8–bit multibyte characterus, liidz ar ko UNICODE jamajiem ir sinonīms UTF–8.

13 buu @ 15:12 (2003. gada 26. novembris)

postgresql upper un lower prieks unicodes chariem kas nav ascii chari nesuportee.
var meeginaat lietot convert funkciju un nokonverteet uz zemaaku encodingu pirms izsaukt upper vai lower.

14 ant @ 15:18 (2003. gada 26. novembris)

UTF8 ir Unicode apakshsets
he hei, lēnāk pār tiltu :–)
tas nav nekāds apakšsets, bet gan īpašs veids, kā glabāt Unicode baitus (lauj ietaupīt vietu tiem tekstiem, kuros simboli pārsvarā ir no ASCII simbolu kopas, aka angļu valodas burti)

15 laacz @ 15:19 (2003. gada 26. novembris)

buu: neredzu jēgu. Unicode galu galā pamatdoma (manā gadījumā — izmantošanas jēga) ir multilingual saturs…

16 laacz @ 15:19 (2003. gada 26. novembris)

ant, OK. Kļūdījos:)

17 buu @ 15:30 (2003. gada 26. novembris)

laacz: shii probleema ies postgresa ir veca kaa pasaule :)
kaut vai kaarteejais iztirzaajums: http://dbforums.com/arch/171/2003/10/951…

18 buu @ 15:32 (2003. gada 26. novembris)

komentaars no pgsql developeriem:

upper/lower aren't going to work desirably in any multi–byte character
set encoding. I think Peter E. is looking into what it would take to
fix this for 7.5, but at present you are going to need to use a
single–byte encoding within the server. (Nothing to stop you from using
UTF–8 on the client side though.)

regards, tom lane

19 heh @ 20:17 (2003. gada 26. novembris)

"problēma slēpjas lielajā roku liekuma rādiusā"
man gan likaas ka jo lielaaks raadiuss, jo "liekums" ir mazaax.. :) ne?

20 laacz @ 09:34 (2003. gada 27. novembris)

heh: es zinu. Bet šādi labāk izklausās ;)

Kā tu saucies:
Tava e-pasta adresīte: (nevienam netiks rādīta, vai dota; pat pie komentāra ne)
Ko teiksi?: Saņemt jaunos komentārus uz meilu.; Atcerēties manu nosaukumu un e-pasta adresi.; Vēlos ierakstīt savu komentāru translit'ā.; Automātiski detransliterēt tekstu. Tas nozīmē, ka rakstot glaazhskjuunju teksts automātiski pārveidosies par glāžšķūņu. Lai uzrakstītu vārdu ieeja, jāraksta ie/eja. Lai uzrakstītu jā/nē, jāraksta jaa//nee.
FYI: * Formatēšana: iekļaujot tekstu no abām pusēm iekā '//', tas iznāks kursīvā: //teksts// (teksts), bet treknu tekstu var dabūt ar '**' katrā pusē: **teksts** (teksts), savukārt pasvītrotu ar '__': __teksts__ (teksts).; * Enteri tiek automātiski pārtaisīti par enteriem. Jebkurš HTML (izņemot <BR.*>) tiek parādīts, kā ievadīts (ne HTML'iski); * E-pastu var vadīt droši iekšā, ja ir bailes no spambotiem. Tas tiek aizsargāts no jamajiem.; * Jebkurš url'is (www.kaka.com, http://kaka.com/, …) tiek automātiski pārtaisīts par spiežamu prieku (www.kaka.com, http://kaka.com/, …); * Ko nozīmē 'detransliterēšana'? Manuprāt sen jau ir laiks sākt rakstīt nevis translitā (aaboljiishi), bet gan normāliem letiņu burtiem (āboļīši). Tad nu tieši to arī dara attiecīgā poga - pārveido tekstu no translita uz parastu. Gadās kļūmītes, bet labāk šitā nekā nekā.

«Terorisma tālejošās sekas

laacz.lv again »

Tātad tā. Kopīraita notice. Viss materiāls, kas atrodams šajā saitā nedrīkst tikt izplatīts, kopēts, jebkādi citādi reproducēts vai izmantots bez manas (laacz) rakstiskas atļaujas. šīs tiesības man laipni piedāvā Autortiesību Likums.
Jebkura informācija, kuru kāds labprātīgi publicē šajā saitā (piemēram, komentāri), pieder tās autoram. Taču, ievietojot infromāciju šajā saitā, tās autors sniedz saita īpašniekam tiesības to daļēji vai pilnā apjomā lietot, izplatīt, reproducēt, modificēt, adaptēt, publicēt, tulkot, publiski demonstrēt. Saita īpašnieks ir tiesīgs jebkuru komentāru jebkurā brīdī dzēst, vai modificēt.
© 1996 — 2026 laacz. Visas tiesības… nu jūs jau zināt, kur.
Spēcināts ar SPP (S Pivom Potjaņet) v2.0b (code name Marasmus)
Hostingu laipni piedāvā DEAC.

laacz blog activity