HTML
A HyperText Markup Language ou HTML é a linguagem de marcação padrão para documentos projetados para serem exibidos em um navegador da web. Muitas vezes, é auxiliado por tecnologias como Cascading Style Sheets (CSS) e linguagens de script como JavaScript.
Navegadores da Web recebem documentos HTML de um servidor da Web ou de um armazenamento local e transformam os documentos em páginas da Web multimídia. O HTML descreve a estrutura de uma página da Web semanticamente e originalmente inclui dicas para sua aparência.
Os elementos HTML são os blocos de construção das páginas HTML. Com construções HTML, imagens e outros objetos, como formulários interativos, podem ser incorporados à página renderizada. O HTML fornece um meio para criar documentos estruturados, denotando semântica estrutural para texto, como cabeçalhos, parágrafos, listas, links, citações e outros itens. Os elementos HTML são delineados por tags, escritos usando colchetes angulares. Tags como <img />
e <entrada />
introduzem conteúdo diretamente na página. Outras tags como <p>
e </p>
envolve e fornece informações sobre o texto do documento e pode incluir tags de subelemento. Os navegadores não exibem as tags HTML, mas as utilizam para interpretar o conteúdo da página.
O HTML pode incorporar programas escritos em uma linguagem de script como JavaScript, que afeta o comportamento e o conteúdo das páginas da web. A inclusão de CSS define a aparência e o layout do conteúdo. O World Wide Web Consortium (W3C), ex-mantenedor do HTML e atual mantenedor dos padrões CSS, incentivou o uso de CSS em vez de HTML de apresentação explícita desde 1997. Uma forma de HTML, conhecida como HTML5, é usada para exibir vídeo e áudio, usando principalmente o < canvas>
elemento, junto com JavaScript.
História
Desenvolvimento
Em 1980, o físico Tim Berners-Lee, contratado do CERN, propôs e prototipou o ENQUIRE, um sistema para os pesquisadores do CERN usarem e compartilharem documentos. Em 1989, Berners-Lee escreveu um memorando propondo um sistema de hipertexto baseado na Internet. Berners-Lee especificou HTML e escreveu o software de navegador e servidor no final de 1990. Naquele ano, Berners-Lee e o engenheiro de sistemas de dados do CERN, Robert Cailliau, colaboraram em um pedido conjunto de financiamento, mas o projeto não foi formalmente adotado pelo CERN. Em suas notas pessoais de 1990, Berners-Lee listou "algumas das muitas áreas em que o hipertexto é usado"; uma enciclopédia é a primeira entrada.
A primeira descrição publicamente disponível de HTML foi um documento chamado "HTML Tags", mencionado pela primeira vez na Internet por Tim Berners-Lee no final de 1991. Ele descreve 18 elementos que compõem o design inicial relativamente simples de HTML. Com exceção da tag de hiperlink, eles foram fortemente influenciados pelo SGMLguid, um formato de documentação baseado em SGML (Standard Generalized Markup Language) interno do CERN. Onze desses elementos ainda existem no HTML 4.
HTML é uma linguagem de marcação que os navegadores da web usam para interpretar e compor texto, imagens e outros materiais em páginas da web visíveis ou audíveis. As características padrão para cada item de marcação HTML são definidas no navegador e essas características podem ser alteradas ou aprimoradas pelo uso adicional de CSS pelo designer da página da Web. Muitos dos elementos de texto são mencionados no relatório técnico ISO TR 9537 de 1988 Técnicas para usar SGML, que descreve os recursos das primeiras linguagens de formatação de texto, como o usado pelo comando RUNOFF desenvolvido no início dos anos 1960 para o sistema operacional CTSS (Compatible Time-Sharing System). Esses comandos de formatação foram derivados dos comandos usados pelos tipógrafos para formatar documentos manualmente. No entanto, o conceito SGML de marcação generalizada é baseado em elementos (intervalos anotados aninhados com atributos) em vez de meramente imprimir efeitos, com estrutura e marcação separadas. HTML foi progressivamente movido nessa direção com CSS.
Berners-Lee considerava o HTML uma aplicação do SGML. Foi formalmente definido como tal pela Internet Engineering Task Force (IETF) com a publicação em meados de 1993 da primeira proposta para uma especificação HTML, a "Hypertext Markup Language (HTML)" Internet Draft de Berners-Lee e Dan Connolly, que incluiu uma definição de tipo de documento SGML para definir a sintaxe. O rascunho expirou após seis meses, mas foi notável por reconhecer a tag personalizada do navegador NCSA Mosaic para incorporar imagens em linha, refletindo a filosofia do IETF de basear padrões em protótipos bem-sucedidos. Da mesma forma, o Internet Draft concorrente de Dave Raggett, "HTML+ (Hypertext Markup Format)", do final de 1993, sugeriu a padronização de recursos já implementados, como tabelas e formulários de preenchimento.
Depois que os rascunhos de HTML e HTML+ expiraram no início de 1994, o IETF criou um Grupo de Trabalho de HTML. Em 1995, esse grupo de trabalho concluiu o "HTML 2.0", a primeira especificação HTML destinada a ser tratada como um padrão no qual futuras implementações devem ser baseadas.
Desenvolvimento adicional sob os auspícios do IETF foi paralisado por interesses concorrentes. Desde 1996, as especificações HTML foram mantidas, com informações de fornecedores de software comercial, pelo World Wide Web Consortium (W3C). Em 2000, o HTML tornou-se um padrão internacional (ISO/IEC 15445:2000). O HTML 4.01 foi publicado no final de 1999, com outras errata publicadas até 2001. Em 2004, o desenvolvimento do HTML5 começou no Web Hypertext Application Technology Working Group (WHATWG), que se tornou uma entrega conjunta com o W3C em 2008, e foi concluído e padronizado em 28 de outubro de 2014.
Cronograma da versão HTML
HTML 2
- 24 de Novembro de 1995
- HTML 2.0 foi publicado como RFC 1866. Recursos adicionais de RFCs adicionados:
- 25 de novembro de 1995: RFC 1867 (up de arquivo baseado em forma)
- Maio 1996: RFC 1942 (tabelas)
- Agosto de 1996: RFC 1980 (Mapas de imagem do lado do cliente)
- Janeiro de 1997: RFC 2070 (internacionalização)
HTML 3
- 14 de Janeiro de 1997
- O HTML 3.2 foi publicado como Recomendação W3C. Foi a primeira versão desenvolvida e padronizada exclusivamente pelo W3C, já que o IETF havia fechado seu Grupo de Trabalho HTML em 12 de setembro de 1996.
- Inicialmente codinome "Wilbur", HTML 3.2 caiu fórmulas matemáticas inteiramente, reconciliou a sobreposição entre várias extensões proprietárias e adotou a maioria das tags de marcação visual do Netscape. O elemento de ligação do Netscape e o elemento de marquee da Microsoft foram omitidos devido a um acordo mútuo entre as duas empresas. Uma marcação para fórmulas matemáticas semelhantes às do HTML foi padronizada 14 meses depois em MathML.
HTML 4
- 18 de Dezembro de 1997
- HTML 4.0 foi publicado como uma Recomendação W3C. Oferece três variações:
- Estrito, em que os elementos deprecated são proibidos
- Transicional, em que os elementos depreciados são permitidos
- Frameset, em que principalmente apenas elementos relacionados ao quadro são permitidos.
- Inicialmente codinome "Cougar", o HTML 4.0 adotou muitos tipos e atributos de elementos específicos do navegador, mas também procurou eliminar os recursos de marcação visual do Netscape, marcando-os como depreciados em favor de folhas de estilo. HTML 4 é um aplicativo SGML em conformidade com ISO 8879 – SGML.
- 24 de Abril de 1998
- HTML 4.0 foi relançado com pequenas edições sem incrementar o número da versão.
- 24 de Dezembro de 1999
- HTML 4.01 foi publicado como uma Recomendação W3C. Oferece as mesmas três variações que o HTML 4.0 e sua última errata foram publicadas em 12 de maio de 2001.
- Maio 2000
- ISO/IEC 15445:2000 ("ISO HTML", baseado em HTML 4.01 Strict) foi publicado como padrão internacional ISO/IEC. Na ISO, esta norma está no domínio da ISO/IEC JTC 1/SC 34 (ISO/IEC Joint Technical Committee 1, Subcomité 34 – Descrição do documento e linguagens de processamento).
- Após HTML 4.01, não havia novas versões de HTML por muitos anos, pois o desenvolvimento da linguagem paralela baseada em XML XHTML ocupou o Grupo de Trabalho HTML do W3C.
HTML 5
- 28 de outubro de 2014
- HTML5 foi publicado como uma recomendação W3C.
- 1 de novembro de 2016
- O HTML 5.1 foi publicado como Recomendação W3C.
- 14 de dezembro de 2017
- HTML 5.2 foi publicado como uma recomendação W3C.
Cronograma da versão de rascunho HTML
- Outubro 1991
- Tags HTML, um documento CERN informal listando 18 tags HTML, foi mencionado pela primeira vez em público.
- Junho de 1992
- Primeiro rascunho informal do DTD HTML, com sete revisões subsequentes (15 de julho de 6 de agosto de 18 de agosto de 17 de novembro de 19 de novembro de 20 de novembro de 22)
- Novembro 1992
- HTML DTD 1.1 (o primeiro com um número de versão, baseado em revisões RCS, que começam com 1.1 em vez de 1.0), um rascunho informal
- Junho de 1993
- Hypertext Markup Language foi publicado pelo IETF IIIR Working Group como um Internet Draft (uma proposta áspera de um padrão). Foi substituído por uma segunda versão um mês depois.
- Novembro de 1993
- HTML+ foi publicado pelo IETF como um rascunho de Internet e foi uma proposta concorrente ao rascunho de linguagem de marcação de hipertexto. Este prazo expirou em Julho de 1994.
- Novembro de 1994
- Primeiro rascunho (revisão 00) de HTML 2.0 publicado pelo próprio IETF (chamado como "HTML 2.0" da revisão 02), que finalmente levou à publicação do RFC 1866 em novembro de 1995.
- Abril 1995 (autor de Março de 1995)
- O HTML 3.0 foi proposto como padrão para o IETF, mas a proposta expirou cinco meses depois (28 de setembro de 1995) sem mais nenhuma ação. Ele incluiu muitas das capacidades que estavam na proposta HTML+ de Raggett, como suporte para tabelas, fluxo de texto em torno de figuras e a exibição de fórmulas matemáticas complexas.
- W3C começou o desenvolvimento de seu próprio navegador Arena como uma cama de teste para HTML 3 e Cascading Style Sheets, mas HTML 3.0 não conseguiu por várias razões. O projeto foi considerado muito grande em 150 páginas e o ritmo do desenvolvimento do navegador, bem como o número de partes interessadas, tinham ultrapassado os recursos do IETF. Fornecedores de navegador, incluindo Microsoft e Netscape na época, optaram por implementar diferentes subconjuntos de recursos de rascunho HTML 3, bem como para introduzir suas próprias extensões para ele. (ver guerras de navegador). Estas incluíram extensões para controlar aspectos estilísticos de documentos, ao contrário da "crença [da comunidade de engenharia acadêmica] que tais coisas como cor de texto, textura de fundo, tamanho da fonte e rosto da fonte estavam definitivamente fora do âmbito de uma linguagem quando sua única intenção era especificar como um documento seria organizado". Dave Raggett, que tem sido um W3C Fellow por muitos anos, comentou por exemplo: "Em certa medida, a Microsoft construiu seu negócio na Web, estendendo recursos HTML."
- Janeiro de 2008
- HTML5 foi publicado como um rascunho de trabalho pelo W3C.
- Embora sua sintaxe se pareça com a de SGML, o HTML5 abandonou qualquer tentativa de ser um aplicativo SGML e definiu explicitamente sua própria serialização "html", além de uma serialização XHTML5 baseada em XML alternativa.
- 2011 HTML5 – Última Chamada
- Em 14 de fevereiro de 2011, o W3C estendeu a carta de seu Grupo de Trabalho HTML com marcos claros para HTML5. Em maio de 2011, o grupo de trabalho avançou o HTML5 para "Last Call", um convite para comunidades dentro e fora do W3C para confirmar a sonoridade técnica da especificação. O W3C desenvolveu um conjunto abrangente de testes para alcançar ampla interoperabilidade para a especificação completa até 2014, que foi a data-alvo para recomendação. Em janeiro de 2011, o WhatWG renomeou seu padrão de vida "HTML5" para "HTML". O W3C, no entanto, continua seu projeto para liberar HTML5.
- 2012 HTML5 – Recomendação de Candidato
- Em julho de 2012, o WhatWG e o W3C decidiram um grau de separação. W3C vai continuar o trabalho de especificação HTML5, focando em um único padrão definitivo, que é considerado um "snapshot" pelo WhatWG. A organização WhatWG continuará seu trabalho com HTML5 como um "Living Standard". O conceito de um padrão vivo é que ele nunca está completo e está sempre sendo atualizado e melhorado. Novos recursos podem ser adicionados, mas a funcionalidade não será removida.
- Em dezembro de 2012, o W3C designou o HTML5 como uma recomendação do candidato. O critério de avanço para a Recomendação W3C é "duas implementações 100% completas e totalmente interoperáveis".
- 2014 HTML5 – Recomendação e Recomendação propostas
- Em setembro de 2014, o W3C moveu o HTML5 para a Recomendação Proposta.
- Em 28 de outubro de 2014, o HTML5 foi lançado como uma Recomendação W3C estável, o que significa que o processo de especificação está completo.
Versões XHTML
XHTML é uma linguagem separada que começou como uma reformulação do HTML 4.01 usando XML 1.0. Agora é referido como "a sintaxe XML para HTML" e não está mais sendo desenvolvido como um padrão separado.
- XHTML 1.0 foi publicado como uma Recomendação W3C em 26 de janeiro de 2000, e foi posteriormente revisado e republicado em 1 de agosto de 2002. Ele oferece as mesmas três variações que HTML 4.0 e 4.01, reformulado em XML, com pequenas restrições.
- XHTML 1.1 foi publicado como Recomendação W3C em 31 de maio de 2001. Ele é baseado no XHTML 1.0 Strict, mas inclui pequenas mudanças, pode ser personalizado, e é reformulado usando módulos na recomendação W3C "Modularização de XHTML", que foi publicado em 10 de abril de 2001.
- XHTML 2.0 foi um rascunho de trabalho, trabalho sobre ele foi abandonado em 2009 em favor do trabalho em HTML5 e XHTML5. XHTML 2.0 foi incompatível com XHTML 1.x e, portanto, seria mais precisamente caracterizado como uma nova linguagem inspirada em XHTML do que uma atualização para XHTML 1.x.
Transição de Publicação HTML para WHATWG
Em 28 de maio de 2019, o W3C anunciou que WHATWG seria o único editor dos padrões HTML e DOM. O W3C e o WHATWG publicam padrões concorrentes desde 2012. Embora o padrão W3C fosse idêntico ao WHATWG em 2007, os padrões divergiram progressivamente devido a diferentes decisões de design. O WHATWG "Padrão de Vida" foi o padrão da web de fato por algum tempo.
Marcação
A marcação HTML consiste em vários componentes principais, incluindo os chamados tags (e seus atributos), tipos de dados baseados em caracteres, referências de caracteres e referências de entidades. As tags HTML geralmente vêm em pares como <h1>
e </h1>
, embora alguns representem elementos vazios e, portanto, não sejam pareados, por exemplo <img>
. A primeira tag em tal par é a tag inicial, e a segunda é a tag final (elas também são chamadas de tags de abertura e tags de fechamento).
Outro componente importante é a declaração de tipo de documento HTML, que aciona a renderização no modo padrão.
O seguinte é um exemplo do clássico "Hello, World!" programa:
<! DOCTYPE html<html> <cabeça> <título>Este é um título</título> </cabeça> <corpo> <Div> <p>Olá, mundo!</p> </Div> </corpo></html>
O texto entre <html>
e </html >
descreve a página da web e o texto entre <corpo>
e </corpo>
é o conteúdo visível da página. O texto de marcação <título>Este é um título</title>
define o título da página do navegador mostrado nas guias do navegador e nos títulos das janelas e a tag <div>
define uma divisão da página usada para facilitar o estilo. Entre < cabeça>
e </cabeça>
, um O elemento <meta>
pode ser usado para definir os metadados da página da web.
A Declaração de Tipo de Documento <!DOCTYPE html>
é para HTML5. Se uma declaração não for incluída, vários navegadores reverterão para o "modo peculiar" para renderização.
Elementos
Os documentos HTML implicam uma estrutura de elementos HTML aninhados. Elas são indicadas no documento por tags HTML, colocadas entre colchetes: <p>.
No caso geral simples, a extensão de um elemento é indicada por um par de tags: uma "tag de início" <p>
e "tag final" </ p>
. O conteúdo de texto do elemento, se houver, é colocado entre essas tags.
Tags também podem incluir marcações adicionais entre o início e o fim, incluindo uma mistura de tags e texto. Isso indica outros elementos (aninhados), como filhos do elemento pai.
A tag inicial também pode incluir os atributos do elemento dentro da tag. Eles indicam outras informações, como identificadores para seções dentro do documento, identificadores usados para vincular informações de estilo à apresentação do documento e para algumas tags, como <img>
usado para incorporar imagens, a referência ao recurso de imagem no formato como este: <img src="example.com/example.jpg">
Alguns elementos, como a quebra de linha <br />
, ou <br />
não permitem nenhum conteúdo incorporado, seja texto ou tags adicionais. Eles requerem apenas uma única tag vazia (semelhante a uma tag inicial) e não usam uma tag final.
Muitas tags, particularmente a tag final de fechamento para o elemento de parágrafo muito usado <p>
, são opcional. Um navegador HTML ou outro agente pode inferir o fechamento para o final de um elemento a partir do contexto e das regras estruturais definidas pelo padrão HTML. Essas regras são complexas e não são amplamente compreendidas pela maioria dos codificadores HTML.
A forma geral de um elemento HTML é, portanto: <tag atributo1="valor1" atributo2="value2">''conteúdo''</tag>
. Alguns elementos HTML são definidos como elementos vazios e assumem a forma <tag atributo1="value1" atributo2="value2">
. Elementos vazios podem não conter nenhum conteúdo, por exemplo, <br />
ou a tag inline <img>
tag.
O nome de um elemento HTML é o nome usado nas tags.
Observe que o nome da tag final é precedido por um caractere de barra, /
, e que em elementos vazios a tag final não é obrigatória nem permitida.
Se os atributos não forem mencionados, os valores padrão serão usados em cada caso.
Exemplos de elementos
Cabeçalho do documento HTML: <cabeça>...</cabeça>
. O título é incluído no cabeçalho, por exemplo:
<cabeça> <título>O título</título> <linkfolha de estilo" Hrefilbyjimbowales.css" - Sim. </cabeça>
Títulos
Os títulos HTML são definidos com <h1>
para <h6>
com H1 sendo o nível mais alto (ou mais importante) e H6 o menor:
<H1>Nível de cabeça 1</H1><h2>Nível de cabeça 2</h2><h3>Nível de cabeça 3</h3><H4>Nível de cabeça 4</H4><H5>Nível de cabeça 5</H5><H6>Nível de cabeça 6</H6>
Os efeitos são:
Observe que o CSS pode alterar drasticamente a renderização.
Parágrafos:
<p>Parágrafo 1</p> <p>Parágrafo 2</p>
Quebras de linha:
<br />
. A diferença entre <br />
e <p>
é que <br />
quebra um linha sem alterar a estrutura semântica da página, enquanto <p>
divide a página em parágrafos. O elemento <br />
é um elemento vazio nisso, embora possa ter atributos, não pode ter conteúdo e pode não ter uma tag final.
<p>Isto é... <b) - Sim. é um parágrafo <b) - Sim. com <b) - Sim. quebras de linha</p>
Este é um link em HTML. Para criar um link, o < uma tag>
é usada. O atributo href
contém o endereço URL do link.
<um Href«http://www.wikipedia.org/»>Um link para a Wikipédia!</um>
Entradas:
Há muitas maneiras possíveis de um usuário fornecer informações como:
<entrada tipotexto" - Sim. <entrada tipofile" - Sim. <entrada tipoaixa de verificação - Sim.
Comentários:
Os comentários podem ajudar na compreensão da marcação e não são exibidos na página da web.
Existem vários tipos de elementos de marcação usados em HTML:
- A marcação estrutural indica a finalidade do texto
- Por exemplo,
<h2>Golf</h2>
estabelece "Golf" como uma posição de segundo nível. A marcação estrutural não denota nenhuma renderização específica, mas a maioria dos navegadores web tem estilos padrão para formatação de elementos. O conteúdo pode ser mais estilo usando Folhas de Estilo de Cascading (CSS). - A marcação apresentacional indica a aparência do texto, independentemente de sua finalidade
- Por exemplo,
<b>bold text</b>
indica que os dispositivos de saída visual devem renderizar "boldface" em texto em negrito, mas dá uma pequena indicação de que dispositivos que não podem fazer isso (como dispositivos auditivos que lêem o texto em voz alta) devem fazer. No caso de ambos<b>bold text</b>
e<i>italic text</i>
, há outros elementos que podem ter renderizações visuais equivalentes, mas que são mais semânticas na natureza, como<strong>strong text</strong>
e<em>emphasized text</em>
respectivamente. É mais fácil ver como um agente de usuário aural deve interpretar os dois últimos elementos. No entanto, eles não são equivalentes a suas contrapartes de apresentação: seria indesejável que um leitor de tela enfatizasse o nome de um livro, por exemplo, mas em uma tela, tal nome seria itálico. A maioria dos elementos de marcação de apresentação tornaram-se depreciados sob a especificação HTML 4.0 em favor de usar CSS para estilo. - Marcação de hipertexto faz partes de um documento em links para outros documentos
- Um elemento âncora cria um hiperlink no documento e seu
href
Atributo define a URL de destino do link. Por exemplo, a marcação HTML<a href="https://en.wikipedia.org/">Wikipedia</a>
, vai renderizar a palavra "Wikipedia" como um hiperlink. Para renderizar uma imagem como um hiperlink, umaimg
elemento é inserido como conteúdo noa
elemento. Tipo...br
,img
é um elemento vazio com atributos, mas sem conteúdo ou tag de fechamento.<a href="https://example.org"><img src="image.gif" alt="descriptive text" width="50" height="50" border="0"></a>
.
Atributos
A maioria dos atributos de um elemento são pares nome-valor, separados por =
e escritos na tag inicial de um elemento após o nome do elemento. O valor pode ser colocado entre aspas simples ou duplas, embora valores que consistem em certos caracteres possam ser deixados sem aspas em HTML (mas não em XHTML). Deixar os valores de atributo sem aspas é considerado inseguro. Em contraste com os atributos do par nome-valor, existem alguns atributos que afetam o elemento simplesmente por sua presença na tag inicial do elemento, como o atributo ismap
para o img
elemento.
Existem vários atributos comuns que podem aparecer em muitos elementos:
- O
id
O atributo fornece um identificador único em todo o documento para um elemento. Isso é usado para identificar o elemento para que as folhas de estilo possam alterar suas propriedades de apresentação, e os scripts podem alterar, animar ou excluir seu conteúdo ou apresentação. Anexado à URL da página, ele fornece um identificador globalmente único para o elemento, tipicamente uma subseção da página. Por exemplo, o ID "Attributes" emhttps://en.wikipedia.org/wiki/HTML#Attributes
. - O
class
atributo fornece uma maneira de classificar elementos semelhantes. Isso pode ser usado para fins semânticos ou de apresentação. Por exemplo, um documento HTML pode usar semântica a designação<class="notation">
para indicar que todos os elementos com esse valor de classe estão subordinados ao texto principal do documento. Na apresentação, tais elementos podem ser reunidos e apresentados como notas de rodapé em uma página em vez de aparecer no lugar onde ocorrem na fonte HTML. Os atributos de classe são usados semânticamente em microformatos. Vários valores de classe podem ser especificados; por exemplo<class="notation important">
coloca o elemento em ambos osnotation
e oimportant
aulas. - Um autor pode usar
style
atribuir propriedades de apresentação a um elemento particular. Considera-se uma prática melhor para usar um elementoid
ouclass
atributos para selecionar o elemento de dentro de uma folha de estilo, embora às vezes isso pode ser muito complicado para um estilo simples, específico ou ad hoc. - O
title
o atributo é usado para anexar uma explicação subtextual a um elemento. Na maioria dos navegadores este atributo é exibido como uma dica de ferramenta. - O
lang
o atributo identifica a linguagem natural do conteúdo do elemento, que pode ser diferente da do resto do documento. Por exemplo, em um documento em inglês:<p>Oh bem, <extensão Langfr">c'est la vie</extensão>, como dizem na França.</p>
O elemento de abreviação, abbr
, pode ser usado para demonstrar alguns destes atributos:
<AbbranId" classejargon" estilocor: puro;" títuloypertext Markup Language">HTML</Abbr>
Este exemplo é exibido como HTML; na maioria dos navegadores, apontar o cursor para a abreviação deve exibir o texto do título "Hypertext Markup Language."
A maioria dos elementos usa o atributo relacionado ao idioma dir
para especificar a direção do texto, como com "rtl" para texto da direita para a esquerda em, por exemplo, árabe, persa ou hebraico.
Referências de personagens e entidades
A partir da versão 4.0, o HTML define um conjunto de 252 referências a entidades de caracteres e um conjunto de 1.114.050 referências a caracteres numéricos, sendo que ambos permitem que caracteres individuais sejam escritos por meio de marcação simples, em vez de literalmente. Um caractere literal e sua contraparte de marcação são considerados equivalentes e são renderizados de forma idêntica.
A capacidade de "escapar" caracteres dessa maneira permite os caracteres <
e &
(quando escritos como <
e &
, respectivamente) para serem interpretados como dados de caractere, em vez de marcação. Por exemplo, um <
literal normalmente indica o início de uma tag e &
normalmente indica o início de uma referência de entidade de caractere ou referência de caractere numérico; escrevê-lo como &
ou &
ou &
permite &
a ser incluído no conteúdo de um elemento ou no valor de um atributo. O caractere de aspas duplas ("
), quando não usado para citar um valor de atributo, também deve ser escapado como "
ou & #x22;
ou "
quando aparece dentro do próprio valor do atributo. De forma equivalente, o caractere de aspas simples ('
), quando não usado para citar um valor de atributo, também deve ser escapado como '
ou '
(ou como '
em documentos HTML5 ou XHTML) quando aparece dentro do próprio valor do atributo. Se os autores do documento ignorarem a necessidade de escapar desses caracteres, alguns navegadores podem ser muito tolerantes e tentar usar o contexto para adivinhar sua intenção. O resultado ainda é uma marcação inválida, o que torna o documento menos acessível a outros navegadores e a outros agentes de usuário que podem tentar analisar o documento para fins de pesquisa e indexação, por exemplo.
O escape também permite que os caracteres que não são facilmente digitados ou que não estão disponíveis na codificação de caracteres do documento sejam representados no elemento e no conteúdo do atributo. Por exemplo, o e
com acento agudo (é
), um caractere normalmente encontrado apenas nos teclados da Europa Ocidental e da América do Sul, pode ser escrito em qualquer documento HTML como a referência de entidade é
ou como as referências numéricas é
ou é
, usando caracteres disponíveis em todos os teclados e são suportados em todas as codificações de caracteres. As codificações de caracteres Unicode, como UTF-8, são compatíveis com todos os navegadores modernos e permitem acesso direto a quase todos os caracteres dos sistemas de escrita do mundo.
Nomeado | Decimal | Hexadecimal | Resultado | Descrição | Notas |
---|---|---|---|---|---|
& | & | & | & | Ampères e | |
< | < | < | < | Menos do que | |
> | > | > | > | Maior do que | |
" | " | " | " | Cotação dupla | |
' | ' | ' | ' | Citação única | |
| | |
| Espaço sem parar | |
© | © | © | © | Direitos de autor | |
® | ® | ® | ® | Marca registrada | |
† | † | † | † | Dagger. | |
‡ | ‡ | ‡ | ‡ | Duplo punhal | Os nomes são sensíveis a casos |
‡ | ‡ | ‡ | ‡ | Duplo punhal | Os nomes podem ter sinônimos |
™ | ™ | ™ | ™ | Marca registrada |
Tipos de dados
HTML define vários tipos de dados para conteúdo de elemento, como dados de script e dados de folha de estilo, e uma infinidade de tipos para valores de atributos, incluindo IDs, nomes, URIs, números, unidades de comprimento, idiomas, descritores de mídia, cores, caracteres codificações, datas e horas, e assim por diante. Todos esses tipos de dados são especializações de dados de caracteres.
Declaração do tipo de documento
Documentos HTML são obrigados a começar com uma declaração de tipo de documento (informalmente, um "doctype"). Em navegadores, o doctype ajuda a definir o modo de renderização, especialmente se deve usar o modo quirks.
O propósito original do doctype era permitir a análise e validação de documentos HTML por ferramentas SGML baseadas na Definição de Tipo de Documento (DTD). O DTD ao qual o DOCTYPE se refere contém uma gramática legível por máquina especificando o conteúdo permitido e proibido para um documento em conformidade com tal DTD. Os navegadores, por outro lado, não implementam o HTML como uma aplicação do SGML e, como consequência, não leem o DTD.
HTML5 não define uma DTD; portanto, em HTML5 a declaração doctype é mais simples e curta:
<! DOCTYPE html
Um exemplo de um tipo de documento HTML 4
Esta declaração faz referência ao DTD para o "estrito" versão do HTML 4.01. Os validadores baseados em SGML leem o DTD para analisar adequadamente o documento e realizar a validação. Em navegadores modernos, um doctype válido ativa o modo de padrões em oposição ao modo de peculiaridades.
Além disso, o HTML 4.01 fornece DTDs transicionais e de conjunto de quadros, conforme explicado abaixo. O tipo de transição é o mais inclusivo, incorporando tags atuais, bem como tags mais antigas ou "descontinuadas" tags, com a Strict DTD excluindo tags obsoletas. O conjunto de molduras possui todas as tags necessárias para criar molduras em uma página junto com as tags incluídas no tipo de transição.
HTML semântico
HTML semântico é uma forma de escrever HTML que enfatiza o significado da informação codificada sobre sua apresentação (look). O HTML incluiu marcação semântica desde o início, mas também incluiu marcação de apresentação, como <fonte>
, <i>
e <centro tags >
. Há também as tags div e span semanticamente neutras. Desde o final da década de 1990, quando as folhas de estilo em cascata começaram a funcionar na maioria dos navegadores, os autores da Web foram encorajados a evitar o uso de marcação HTML de apresentação com vistas à separação de conteúdo e apresentação.
Em uma discussão de 2001 sobre a Web Semântica, Tim Berners-Lee e outros deram exemplos de maneiras pelas quais os "agentes" pode um dia rastrear automaticamente a web e encontrar, filtrar e correlacionar fatos publicados anteriormente não relacionados para o benefício de usuários humanos. Esses agentes não são comuns até agora, mas algumas das ideias da Web 2.0, mashups e sites de comparação de preços podem estar chegando perto. A principal diferença entre esses híbridos de aplicativos da Web e os agentes semânticos de Berners-Lee reside no fato de que a agregação e a hibridização atuais de informações geralmente são projetadas por desenvolvedores da Web, que já conhecem os locais da Web e a semântica da API do aplicativo específico. dados que desejam misturar, comparar e combinar.
Um tipo importante de agente da Web que rastreia e lê páginas da Web automaticamente, sem conhecimento prévio do que pode encontrar, é o rastreador da Web ou spider do mecanismo de pesquisa. Esses agentes de software dependem da clareza semântica das páginas da Web que encontram, pois usam várias técnicas e algoritmos para ler e indexar milhões de páginas da Web por dia e fornecem aos usuários da Web recursos de pesquisa sem os quais a utilidade da World Wide Web seria ser muito reduzido.
Para que os spiders dos mecanismos de busca possam classificar o significado de trechos de texto que encontram em documentos HTML, e também para aqueles que criam mashups e outros híbridos, bem como para agentes mais automatizados à medida que são desenvolvidos, as estruturas semânticas que existem em HTML precisam ser amplamente e uniformemente aplicados para trazer à tona o significado do texto publicado.
As tags de marcação de apresentação estão obsoletas nas recomendações atuais de HTML e XHTML. A maioria dos recursos de apresentação das versões anteriores do HTML não são mais permitidos, pois levam a uma acessibilidade mais fraca, maior custo de manutenção do site e tamanhos de documentos maiores.
O bom HTML semântico também melhora a acessibilidade de documentos da Web (consulte também Diretrizes de acessibilidade de conteúdo da Web). Por exemplo, quando um leitor de tela ou navegador de áudio pode verificar corretamente a estrutura de um documento, ele não desperdiçará o tempo do usuário com deficiência visual lendo informações repetidas ou irrelevantes quando marcadas corretamente.
Entrega
Documentos HTML podem ser entregues da mesma forma que qualquer outro arquivo de computador. No entanto, eles são entregues com mais frequência por HTTP de um servidor da Web ou por e-mail.
HTTP
A World Wide Web é composta principalmente de documentos HTML transmitidos de servidores da Web para navegadores da Web usando o Hypertext Transfer Protocol (HTTP). No entanto, o HTTP é usado para fornecer imagens, sons e outros conteúdos, além do HTML. Para permitir que o navegador saiba como lidar com cada documento que recebe, outras informações são transmitidas junto com o documento. Esses metadados geralmente incluem o tipo MIME (por exemplo, text/html ou application/xhtml+xml) e a codificação de caracteres (consulte Codificação de caracteres em HTML).
Em navegadores modernos, o tipo MIME que é enviado com o documento HTML pode afetar como o documento é inicialmente interpretado. Espera-se que um documento enviado com o tipo XHTML MIME seja um XML bem formado; erros de sintaxe podem fazer com que o navegador não o processe. O mesmo documento enviado com o tipo HTML MIME pode ser exibido com sucesso, pois alguns navegadores são mais lenientes com HTML.
As recomendações do W3C afirmam que os documentos XHTML 1.0 que seguem as diretrizes estabelecidas no Apêndice C da recomendação podem ser rotulados com qualquer tipo MIME. O XHTML 1.1 também afirma que os documentos XHTML 1.1 devem ser rotulados com qualquer um dos tipos MIME.
E-mail HTML
A maioria dos clientes gráficos de e-mail permite o uso de um subconjunto de HTML (muitas vezes mal definido) para fornecer formatação e marcações semânticas não disponíveis com texto simples. Isso pode incluir informações tipográficas como cabeçalhos coloridos, texto enfatizado e citado, imagens e diagramas embutidos. Muitos desses clientes incluem um editor GUI para compor mensagens de e-mail em HTML e um mecanismo de renderização para exibi-las. O uso de HTML em e-mail é criticado por alguns por problemas de compatibilidade, porque pode ajudar a disfarçar ataques de phishing, por problemas de acessibilidade para cegos ou deficientes visuais, porque pode confundir filtros de spam e porque o tamanho da mensagem é maior do que simples texto.
Convenções de nomenclatura
A extensão de nome de arquivo mais comum para arquivos contendo HTML é .html. Uma abreviação comum disso é .htm, que se originou porque alguns sistemas operacionais e sistemas de arquivos antigos, como o DOS e as limitações impostas pela estrutura de dados FAT, limitavam as extensões de arquivo a três letras.
Aplicativo HTML
Um aplicativo HTML (HTA; extensão de arquivo .hta) é um aplicativo do Microsoft Windows que usa HTML e HTML dinâmico em um navegador para fornecer a interface gráfica do aplicativo. Um arquivo HTML regular está confinado ao modelo de segurança do navegador da web, comunicando-se apenas com servidores da web e manipulando apenas objetos de páginas da web e cookies de sites. Um HTA é executado como um aplicativo totalmente confiável e, portanto, tem mais privilégios, como criação/edição/remoção de arquivos e entradas do Registro do Windows. Por operarem fora do modelo de segurança do navegador, os HTAs não podem ser executados via HTTP, mas devem ser baixados (como um arquivo EXE) e executados a partir do sistema de arquivos local.
Variações de HTML4
Desde sua criação, o HTML e seus protocolos associados ganharam aceitação relativamente rápido. No entanto, não existiam padrões claros nos primeiros anos da linguagem. Embora seus criadores originalmente tenham concebido o HTML como uma linguagem semântica desprovida de detalhes de apresentação, os usos práticos introduziram muitos elementos e atributos de apresentação na linguagem, impulsionados em grande parte pelos vários fornecedores de navegadores. Os padrões mais recentes em torno do HTML refletem os esforços para superar o desenvolvimento às vezes caótico da linguagem e para criar uma base racional para a construção de documentos significativos e bem apresentados. Para retornar o HTML ao seu papel de linguagem semântica, o W3C desenvolveu linguagens de estilo como CSS e XSL para arcar com o ônus da apresentação. Em conjunto, a especificação HTML controlou lentamente os elementos de apresentação.
Existem dois eixos que diferenciam várias variações de HTML conforme especificado atualmente: HTML baseado em SGML versus HTML baseado em XML (referido como XHTML) em um eixo e estrito versus transicional (solto) versus conjunto de quadros no outro eixo.
HTML baseado em SGML versus HTML baseado em XML
Uma diferença nas especificações HTML mais recentes reside na distinção entre a especificação baseada em SGML e a especificação baseada em XML. A especificação baseada em XML é geralmente chamada de XHTML para distingui-la claramente da definição mais tradicional. No entanto, o nome do elemento raiz continua sendo "html" mesmo no HTML especificado por XHTML. O W3C pretendia que o XHTML 1.0 fosse idêntico ao HTML 4.01, exceto onde as limitações do XML sobre o SGML mais complexo exigem soluções alternativas. Como XHTML e HTML estão intimamente relacionados, às vezes eles são documentados em paralelo. Em tais circunstâncias, alguns autores confundem os dois nomes como (X)HTML ou X(HTML).
Assim como o HTML 4.01, o XHTML 1.0 possui três subespecificações: estrito, transicional e conjunto de quadros.
Além das diferentes declarações de abertura para um documento, as diferenças entre um documento HTML 4.01 e XHTML 1.0—em cada uma das DTDs correspondentes—são amplamente sintáticas. A sintaxe subjacente do HTML permite muitos atalhos que o XHTML não permite, como elementos com tags opcionais de abertura ou fechamento e até mesmo elementos vazios que não devem ter uma tag final. Por outro lado, XHTML exige que todos os elementos tenham uma tag de abertura e uma tag de fechamento. XHTML, no entanto, também apresenta um novo atalho: uma tag XHTML pode ser aberta e fechada dentro da mesma tag, incluindo uma barra antes do final da tag como esta: <br/>
. A introdução dessa abreviação, que não é usada na declaração SGML para HTML 4.01, pode confundir softwares anteriores não familiarizados com essa nova convenção. Uma correção para isso é incluir um espaço antes de fechar a tag, como: <br />
.
Para entender as diferenças sutis entre HTML e XHTML, considere a transformação de um documento XHTML 1.0 válido e bem formado que segue o Apêndice C (veja abaixo) em um documento HTML 4.01 válido. Fazer esta tradução requer os seguintes passos:
- A linguagem para um elemento deve ser especificada com um
lang
atributo ao invés de XHTMLxml:lang
atributo. XHTML usa o atributo de funcionalidade de definição de linguagem embutido do XML. - Remover o namespace XML (
xmlns=URI
). HTML não tem instalações para namespaces. - Alterar a declaração do tipo documento de XHTML 1.0 para HTML 4.01. (ver DTD seção para mais explicação).
- Se presente, remover a declaração XML. (Tipoticamente isto é:
).
- Certifique-se de que o tipo MIME do documento está definido para
text/html
. Para HTML e XHTML, isso vem do HTTPContent-Type
cabeçalho enviado pelo servidor. - Alterar a sintaxe de elementos vazios XML para um elemento vazio de estilo HTML (
<br />
para<br />
).
Essas são as principais mudanças necessárias para traduzir um documento de XHTML 1.0 para HTML 4.01. A tradução de HTML para XHTML também exigiria a adição de quaisquer tags de abertura ou fechamento omitidas. Seja codificando em HTML ou XHTML, pode ser melhor sempre incluir as tags opcionais em um documento HTML, em vez de lembrar quais tags podem ser omitidas.
Um documento XHTML bem formado atende a todos os requisitos de sintaxe do XML. Um documento válido adere à especificação de conteúdo para XHTML, que descreve a estrutura do documento.
O W3C recomenda várias convenções para garantir uma fácil migração entre HTML e XHTML (consulte Diretrizes de compatibilidade de HTML). As etapas a seguir podem ser aplicadas apenas a documentos XHTML 1.0:
- Incluir ambos
xml:lang
elang
atributos em qualquer elemento atribuindo linguagem. - Use a sintaxe de elementos vazios apenas para elementos especificados como vazios em HTML.
- Inclua um espaço extra em etiquetas de elementos vazios: por exemplo
<br />
em vez de<br />
. - Inclua etiquetas fechadas explícitas para elementos que permitam conteúdo, mas são deixados vazios (por exemplo,
<div></div>
, não<div />
). - Omitir a declaração XML.
Seguindo cuidadosamente as diretrizes de compatibilidade do W3C, um agente de usuário deve ser capaz de interpretar o documento igualmente como HTML ou XHTML. Para documentos que são XHTML 1.0 e foram tornados compatíveis desta forma, o W3C permite que eles sejam servidos como HTML (com um text/html
tipo MIME), ou como XHTML (com um application/xhtml+xml
ou application/xml
tipo MIME). Quando entregues como XHTML, os navegadores devem usar um analisador XML, que adere estritamente às especificações XML para analisar o conteúdo do documento.
Transitório versus estrito
HTML 4 definiu três versões diferentes da linguagem: Strict, Transitional (antes chamada de Loose) e Frameset. A versão Strict destina-se a novos documentos e é considerada a melhor prática, enquanto as versões Transitional e Frameset foram desenvolvidas para facilitar a transição de documentos que estavam em conformidade com especificações HTML mais antigas ou não estavam em conformidade com nenhuma especificação para uma versão de HTML 4. As versões Transitional e Frameset permitem marcação de apresentação, que é omitida na versão Strict. Em vez disso, as folhas de estilo em cascata são incentivadas para melhorar a apresentação de documentos HTML. Como o XHTML 1 define apenas uma sintaxe XML para a linguagem definida pelo HTML 4, as mesmas diferenças também se aplicam ao XHTML 1.
A versão Transitória permite as seguintes partes do vocabulário, que não estão incluídas na versão Estrita:
- Um modelo de conteúdo mais solto
- Elementos inline e texto simples são permitidos diretamente em:
body
,blockquote
,form
,noscript
enoframes
- Elementos inline e texto simples são permitidos diretamente em:
- Elementos relacionados à apresentação
- sublinha (
u
)(Deprecated. pode confundir um visitante com um hiperlink.) - (em inglês)
s
) center
(Deprecated. use CSS em vez disso.)font
(Deprecated. use CSS em vez disso.)basefont
(Deprecated. use CSS em vez disso.)
- sublinha (
- Atributos relacionados à apresentação
background
(Deprecated. use CSS em vez disso.) ebgcolor
(Deprecated. use CSS em vez disso.) atributos parabody
(elemento exigido de acordo com o elemento W3C.)align
(Deprecated. use o atributo CSS em vez disso.)div
,form
, parágrafo (p
) e posições (h1
...h6
) elementosalign
(Deprecated. use CSS em vez disso.),noshade
(Deprecated. use CSS em vez disso.),size
(Deprecated. use CSS em vez disso.) ewidth
(Deprecated. use CSS em vez disso.) atributos emhr
elementoalign
(Deprecated. use CSS em vez disso.),border
,vspace
ehspace
atributos emimg
eobject
(caução:object
elemento só é suportado no Internet Explorer (a partir dos principais navegadores) elementosalign
(Deprecated. use o atributo CSS em vez disso.)legend
ecaption
elementosalign
(Deprecated. use CSS em vez disso.) ebgcolor
(Deprecated. use CSS em vez disso.)table
elementonowrap
(Obsoleto),bgcolor
(Deprecated. use CSS em vez disso.),width
,height
sobretd
eth
elementosbgcolor
(Deprecated. use o atributo CSS em vez disso.)tr
elementoclear
(Obsolete) atributo onbr
elementocompact
atribuirdl
,dir
emenu
elementostype
(Deprecated. use CSS em vez disso.),compact
(Deprecated. use CSS em vez disso.) estart
(Deprecated. use CSS em vez disso.) atributos emol
eul
elementostype
evalue
atributos emli
elementowidth
atribuirpre
elemento
- Elementos adicionais na especificação transicional
menu
(Deprecated. use CSS em vez.) lista (nenhum substituto, embora a lista não ordenada, é recomendado)dir
(Deprecated. use CSS em vez.) lista (sem substituto, embora a lista não ordenada seja recomendada)isindex
(Deprecated.) (elemento requer suporte ao lado do servidor e é normalmente adicionado ao lado do servidor de documentos,form
einput
elementos podem ser usados como um substituto)applet
(Depregado. usar oobject
em vez disso.)
- O
language
(Obsolete) atributo no elemento script (redundante com otype
atributo). - Entidades relacionadas ao quadro
iframe
noframes
target
(Deprecated in themap
,link
eform
elementos.) atributo ona
, imagem lado cliente-map (map
),link
,form
ebase
elementos
A versão Frameset inclui tudo na versão Transitional, bem como o elemento frameset
(usado em vez de body
) e o elemento frame
.
Frameset versus transição
Além das diferenças de transição acima, as especificações do conjunto de quadros (seja XHTML 1.0 ou HTML 4.01) especificam um modelo de conteúdo diferente, com frameset
substituindo body
, que contém Elementos frame
ou, opcionalmente, noframes
com um body
.
Resumo das versões de especificação
Como esta lista demonstra, as versões soltas da especificação são mantidas para suporte legado. No entanto, ao contrário dos equívocos populares, a mudança para XHTML não implica na remoção desse suporte herdado. Em vez disso, o X em XML significa extensível e o W3C está modularizando toda a especificação e abrindo-a para extensões independentes. A principal conquista na mudança de XHTML 1.0 para XHTML 1.1 é a modularização de toda a especificação. A versão estrita do HTML é implantada no XHTML 1.1 por meio de um conjunto de extensões modulares para a especificação básica do XHTML 1.1. Da mesma forma, alguém procurando as especificações soltas (transicionais) ou do conjunto de quadros encontrará suporte XHTML 1.1 estendido semelhante (muito dele está contido nos módulos legados ou de quadro). A modularização também permite que recursos separados se desenvolvam em seu próprio cronograma. Assim, por exemplo, o XHTML 1.1 permitirá uma migração mais rápida para os padrões XML emergentes, como MathML (uma linguagem matemática de apresentação e semântica baseada em XML) e XForms—uma nova tecnologia de formulário da Web altamente avançada para substituir os formulários HTML existentes.
Em resumo, a especificação HTML 4 refreou principalmente todas as várias implementações HTML em uma única especificação claramente escrita baseada em SGML. XHTML 1.0, portou esta especificação, como está, para a nova especificação definida por XML. Em seguida, o XHTML 1.1 aproveita a natureza extensível do XML e modulariza toda a especificação. O XHTML 2.0 foi planejado para ser o primeiro passo na adição de novos recursos à especificação em uma abordagem baseada em corpo de padrões.
WHATWG HTML versus HTML5
O HTML Living Standard, desenvolvido pela WHATWG, é a versão oficial, enquanto o W3C HTML5 não está mais separado do WHATWG.
Editores WYSIWYG
Existem alguns editores WYSIWYG (What You See Is What You Get), nos quais o usuário expõe tudo como deve aparecer no documento HTML usando uma interface gráfica do usuário (GUI), geralmente semelhante a processadores de texto. O editor renderiza o documento em vez de mostrar o código, de modo que os autores não precisam de conhecimento extensivo de HTML.
O modelo de edição WYSIWYG tem sido criticado, principalmente por causa da baixa qualidade do código gerado; há vozes defendendo uma mudança no modelo WYSIWYM (o que você vê é o que você quer dizer).
Os editores WYSIWYG continuam sendo um tópico controverso por causa de suas falhas percebidas, como:
- Baseando-se principalmente no layout em oposição ao significado, muitas vezes usando marcação que não transmite o significado pretendido, mas simplesmente copia o layout.
- Muitas vezes produzindo código extremamente verboso e redundante que não faz uso da natureza em cascata de HTML e CSS.
- Muitas vezes produzindo marcação não programática, chamada sopa de tag ou marcação semântica incorreta (como
<em>
para itálico). - Como grande parte das informações em documentos HTML não está no layout, o modelo foi criticado por seu "o que você vê é tudo que você tem"-natureza.
Contenido relacionado
Máquina Jacquard
Alan Kay
Galileo (navegação por satélite)