wikipedia.infostar.cz

ISO/IEC 8859-1

ISO 8859-1, více formálně citovaný jako ISO/IEC 8859-1 je část 1 ISO/IEC 8859, standardní charakterové kódování latinky. To je méně formálně odkazoval se na jako latina-1. To bylo původně vyvinuto ISO, ale pozdnější společně udržovaný ISO a IEC. Standard, když doplněný s dalšími charakterovými domácími cvičeními, je základ dva široce-použité znakové mapy známé jako ISO-8859-1 a okna-1252.

V červnu 2004, ISO/IEC pracovní skupina zodpovědná za tvrzení osm-bitové kódované znakové sady rozpustily a zastavily celé udržování ISO 8859, včetně ISO 8859-1, aby se soustředil na univerzální znakovou sadu a unikód. V počítačových aplikacích, encodings, které poskytnou plnou UCS podporu (takový jako UTF-8 a UTF-16) najdou rostoucí laskavost přes encodings založené na ISO 8859-1.

Nepřehlédněte: Tato stránka obsahuje strojový překlad textu z anglické encyklopedie Wikipedia. Pokud budou některé pasáže špatně srozumitelné, zkuste se podívat i na text v originále, který najdete pod odkazem ISO/IEC 8859-1. Překlad byl vytvořen pomocí překladače Eurotran.

Pokrytí

ISO 8859-1 zakóduje co to odkazuje se na jak “latinská abeceda ne. 1,” sestávat z 191 charakterů od latinského písma. Tento charakter-schéma kódování je používáno během Americas, západní Evropa, Oceánie, a hodně z Afriky. To je také běžně používané ve většině standardních romanizations východu-Asijské jazyky.

Každá postava je zakódována jak jeden osm-kousl hodnotu kódu. Tyto hodnoty kódu mohou být používány v téměř nějaký systém výměny dat dorozumívat se následujícími evropskými jazyky (s nemnoho výjimek kvůli tomu, že postrádá charaktery, jak známý):

Moderní jazyky s plným zpravodajstvím jejich abecedy
Jazyky obyčejně podpíraly s téměř kompletním pokrytím jejich abecedy
  • Holandský (chybějící ?,? ale tito by měli vždy být reprezentováni jako IJ nebo ij v elektronické formě)
  • Estonian (chybějící Š, š, Ž, ž pro přejatá slova)
    • Si všimnout těch Windows-1252 a ISO-8859-15 dělat obsahovat tyto
  • Francouzština (chybějící ?,? a velmi vzácný ?; oni jsou obecně nahrazeni ' OE ' a ' oe ' bez normálně požadovaného obvazu, a ' Y ' bez diaeresis)
    • Si všimnout těch Windows-1252 a ISO-8859-15 dělat obsahovat tyto
  • Finština (chybějící Š, š, Ž, ž pro přejatá slova)
    • Si všimnout těch Windows-1252 a ISO-8859-15 dělat obsahovat tyto
  • Welsh (chybějící ?,?,?,?)
Pokrytí znamení interpunkce a apostrofů

Pro některé jazyky vypsané nad správnými typografickými uvozovkami jsou chybějící, pro jediný «   »,””, a ' ' být zahrnován.

Také, toto schéma kódování neposkytuje správný znak pro apostrof a orientovaný jedna vysoká citace se otiskuje, ačkoli některé texty používají rozestupový tupý přízvuk a rozestup akutní přízvuk to jsou oba napůl ISO 8859-1, místo toho 6-tvarovaný/9-formoval značky citací nebo apostrofy (a toto pracuje spolehlivě s některými styly fontu kde všechny tyto charaktery jsou zobrazovány jako nakloněný klín glyphs).

Viz též: Abecedy odvozené z latiny

Historie

ISO 8859-1 byl založený na mnohonárodnostní znakové sadě používané Digital přístrojovou korporací v populárním VT220 terminálu. To bylo vyvinuto uvnitř ECMA, Evropan asociace počítačových výrobců, a publikoval v březnu 1985 jako ECMA-94, podle kterého jména to je ještě někdy známé. Druhé vydání ECMA-94 (červen 1986) také zahrnoval ISO 8859-2, ISO 8859-3, a ISO 8859-4 jako součást specifikace.

V roce 1985 Commodore adoptoval oficiálně pro jeho nový AmigaOS operační systém ANSI/ISO8859-1 nákres pro jeho kódovou stránku a všechny interní operace aby se odkazoval na mezinárodní schválené standardy spíše než proprietární standardy, jak to stalo se v těch časech s MS-DOS, a Mac OS a tak tento standard byl také užitý na zhotovení rozložení klávesnice Amiga 1000 počítače, který byl zahajovalo v červenci 1985. Všechny verze Amiga OS upto 3.1 používal ISO8859-1. Od demise Commodore mezinárodní v roce 1994 všichni podporují verze AmigaOS (3.5, 3.9) pokračoval mít ISO8859-1 soubor kódové stránky zlepšený s Euro měnovým charakterem, ale bez vedoucí firmy schopný uložit oficiální normy oba Amiga a jeho varianty klona (MorphOS, AROS) neaktualizoval se oficiálně k ISO 8859-15 žádný následovat běžný přístup v zavedení Euro charakteru v roce 2001. MorphOS 2.0 a další verze jsou unikód UTF-8 kompatibilní.

Vztah k ISO/IEC 8859-15

Ačkoli ISO/IEC 8859-1 má dost znaků pro většinu francouzského textu, to mine nemnoho dopisů, které jsou méně obyčejné. To je také chybějící jeden-glyph reprezentace pro dopis?, dva finské dopisy užité na předpis některých cizích jmén a v nemnoho loanwords (Š a Ž), typografická citace se otiskuje a uhání, a obyčejné symboly takový jako znamení eura (€) a dýka (†).

Aby poskytoval některé těchto charakterů, ISO/IEC 8859-15 byl vyvinut jako aktualizace ISO/IEC 8859-1. Toto požadovaný, nicméně, odstranění někteří občas-používal charaktery od ISO/IEC 8859-1, zahrnovat symboly zlomku a dopis-volná diakritika: ¤, ¦, ¨, ´, ¸,?,?, a?.

Nákres kódové stránky

Od všech 191 charakterů kódovaných ISO/IEC 8859-1 být ' grafický ' (ISO termín pro charaktery, které nejsou kódy kontroly) a být slučitelný se většinou internetovými prohlížeči, oni mohou být ukazováni jako glyphs v následující tabulce. Od prostoru, ne-přerušovací prostor a měkké pomlčkové charaktery by normálně nebyli viditelní, oni jsou reprezentováni zkratkami pro jejich jména. Všechny jiné charaktery jsou reprezentovány doslovně. Řádek a sloupcová záhlaví ukážou hexadecimální číslové kombinace k produkci osm-kousl hodnotu kódu; např., dopis L je u kódového hodnotového 4C.

Hodnoty kódu 00 – 1F, 7F – 9F nejsou přiděleny do charakterů ISO/IEC 8859-1.

Nižší rozsah 20 k 7E (G0 podmnožina) mapuje přesně ke stejné kódované G0 podmnožině ISO 646 americké varianty (obyčejně známý jak ASCII), jehož ISO 2022 standardu přehodit pořadí je “únik (B”. Vyšší rozsah A0 k FF (G1 podmnožina) mapuje přesně ke stejné podmnožině zahájil ISO 2022 standardu přehodit pořadí “únik.”.

Příbuzné znakové mapy

ISO/IEC 8859-1 standard dlouho byl východisko pro množství znakových map, také známý jako znakové sady, charsets nebo kódové stránky, nejvíce populární bytí ISO-8859-1 (si všimnout zvláštní pomlčky) a okna-1252. Oba těchto map být nadmnožina ISO/IEC 8859-1; oni doplní standard 191 charakterových pověření mapováním další charaktery k přinejmenším nějaká část kódových hodnotových rozsahů 00 – 1F, 7F, a 80 – 9F.

ISO-8859-1

V roce 1992, IANA registroval znakovou mapu ISO _ 8859-1: 1987, více obyčejně známý jeho přednostní pantomimou jméno ISO-8859-1 (si všimnout zvláštní pomlčky přes ISO 8859-1), nadmnožina ISO 8859-1, pro použití na internetu. Tato mapa přiřadí C0 a C1 řídí charaktery k hodnotám kódu 00 – 1F, 7F, a 80 – 9F. To tak se stará o 256 charakterů přes každý možný 8-hodnota kousku.

ISO-8859-1 je (podle standardů přinejmenším) standardní kódování dokumentů doručovalo přes HTTP s typem pantomimy začínat “text /”. To je standardní kódování hodnot jistých popisných HTTP záhlaví, a je standardní kódování použité X systém okna na většině unixových strojích v lokalitách, které používají tu znakovou sadu. To bylo také východisko pro repertoár charakterů dovolených v HTML 3.2 dokumenty (HTML 4.0, nicméně, je založený na Unicode).

Příkazové sekvence (od ISO/IEC 6429 nebo ISO/IEC 2022) být nebýt interpretovaný v dokumentech označených jako ISO-8859-1 kódoval. Stejně jako kanonické jméno a přednostní pantomima jméno zmínilo se o nahoře, následující jiné aliasy jsou zaregistrovány pro ISO-8859-1: ISO _ 8859-1, ISO-8859-1, iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819. ISO-8859-1 byl také vsunutý jako prvních 256 kódových bodů ISO/IEC 10646 a unikód.

 

Všimnout si té většiny z těchto řídící znaky nejsou vyrobené pro použití v přenosce ISO-8859-1 zakódoval prosté textové dokumenty, ale jediný uvnitř specifických protokolů nebo zařízení, kromě nemnoho ones jehož chování být normalizován: Tab (09), LF (0A), CR (0D) a NEL (85); všichni ale první jeden být používán zakódovat konec linek nebo oddělit odstavce a tabelátor je často zvažován ekvivalentní k whitespace. Nicméně FF (0C) je běžně přijímaný v některých aplikacích interpretovat rovinu-textové dokumenty jako další ignorable whitespace u začátku linek, označit pozici explicitního stránkového předělu když tisk.

Nicméně, některé encodings dovolí používat BS (08) vytvořit další charaktery tím, že napodobuje superpozici rozmanitých charakterů na tiskových zařízeních.

Některé ISO standardy přidělí specifické funkce k některým ovládacím prvkům (například v ISO 2022) kde tak (0E), Si (0F), DLE (10), únik (1B) a SS2 (8E) být zvyklý na kontrolu kódování charakterů po nich nebo přepnout mezi rozmanitými encodings.

Charakter nuly (00) je běžně používaný jako řetězec terminator v některých programovacích jazycích, nebo jak výplň v databázi zaznamenává, že to musí být ignorováno a je ne díl zakódovaného textu. STX (02) a ETX (03) být běžně používaný pro ohraničovat rámy v některých protokolech přenosu. Náhradník (1A) je také běžně používaný jako charakter nahrazení k chybám značky zaznamenaným ve vstupních přenosových potokách a to může být vyjádřeno graficky. DC1 (11) a DC3 (13) být obyčejně použit v XON/XOFF protokol pro řízení přenosové rychlosti. Konečně, Em (19) nebo EOT (04) smět být používán jako konec-- ukazovatel souboru v některých textových formátech souboru.

ISO-8859-1 a okna-1252 zmatek

To je velmi společné mislabel textovým datům se charset označit ISO-8859-1, dokonce ačkoli data jsou opravdu Windows-1252 kódoval. Ve Windows-1252, kódy mezi 0x80 a 0x9F jsou užité na dopisy a interpunkci, zatímco oni jsou kódy kontroly v ISO-8859-1. Mnoho internetové prohlížeče a klienti e-mailu budou interpretovat ISO-8859-1 řídit kódy jako Windows-1252 charaktery aby vyhověl takovému mislabeling ale to není standardní chování a péče by měla být vzata vyhýbat se tvořit tyto charaktery v ISO-8859-1 označil obsah. Nicméně, odvod HTML 5 specifikace vyžaduje to dokumenty inzerované jako ISO-8859-1 vlastně být rozložen s Windows-1252 kódovat.

Podobné znakové sady

Apple Macintosh počítač představil kódování charakteru volal Římana Maca nebo Macintosh-Roman, v roce 1984. To bylo chtěl být vhodný k západní evropské počítačové sazbě. To je nadmnožina ASCII, jako ISO-8859-1, a má většina z charakterů, které jsou v ISO-8859-1 ale v úplně jiném uspořádání. Pozdnější verze, se zaregistroval u IANA jako “Macintosh”, nahradil druhové měnové znamení ¤ se znamením eura €. Nemnoho otisknutelných charakterů, které jsou v ISO 8859-1 ale ne v tomto souboru být často zdroj potíže když edituje text na internetových stránkách používat starší Macintosh prohlížeče (včetně poslední verze Internet Explorera pro Mac). Nicméně zvláštní charaktery ta Windows-1252 má v C1 codepoint rozsah jsou všichni podporovaní v MacRoman a kromě pro nemnoho postrádat ISO-8859-1 charaktery Macintosh může posílat/přijímat soubory (a e-mail) to být kódoval/otiskoval se jako ISO-8859-1 (s C1 řídícími znaky) a Windows-1252 remapping glyph codepoint čísla.

DOS měla kódová stránka 850, který měl všechny otisknutelné povahy ten ISO-8859-1 měl (albeit v úplně jiném uspořádání) plus nejvíce široce použité grafické znaky od kódové stránky 437.

Viz též

Externí odkazy