HTML para XML: estendendo a linguagem de marcação
A grande maioria das pessoas que estão na indústria de computadores sabe o que é HTML (Hypertext Markup Language). Ele existe há muito tempo e tem sido amplamente utilizado no design de páginas da Web que, embora já seja raro ver páginas da Web escritas apenas em HTML, é considerado como conhecimento básico de todo o processo de criação de páginas da Web..
XML (Extensible Markup Language), por outro lado, é uma tecnologia mais recente e muito menos conhecida em comparação ao HTML. O XML foi criado em 1996 por um grupo de 11 pessoas como uma adaptação da SGML (Standard Generalized Markup Language) para uso na World Wide Web. XML é uma linguagem de marcação mais estruturada e estrita em comparação com HTML, que permitiu aos usuários criar suas próprias definições e código modularizado. Foi criado para criar especificações padronizadas para a criação de linguagens de marcação personalizadas que agora são conhecidas como dialetos XML. Pode não ser instantaneamente aparente, mas as linguagens de marcação personalizadas, como HTML, RSS e Atom, foram todas construídas a partir do XML como um método para aumentar a usabilidade da Internet..
Desde que o XML foi adaptado do SGML, ele contém muitos códigos e técnicas originalmente originários do SGML, como sua rigidez e a chamada boa formação. Características que se estendem até aos descendentes de XML. Certas regras sempre devem ser consideradas ao criar código baseado em XML. Existe até uma declaração bem formada com todos os documentos para indicar em que tipo de documento é e em quais regras o processamento deve se basear. Isso é muito diferente em comparação com a codificação muito relaxada usada em HTML.
Ao processar uma página HTML, você teria algum tipo de resultado, independentemente da entrada. O processador HTML tenta entender o que estava no documento e produz uma saída que julga melhor representar os dados de entrada. Isso não é verdade no XML. O XML emprega um mecanismo de tratamento de erros que é considerado 'draconiano'. Sempre que o processador XML encontra algo que não pode compreender, ele apenas cria um relatório de erro e finaliza o processamento do arquivo. Isso deixa você com uma caixa de erro e nenhum resultado diferente do HTML.
Para colocar em perspectiva, o HTML é uma linguagem de marcação usada para exibir rápida e facilmente alguma forma de saída. Ele não se preocupa com a correção da entrada e apenas tenta criar uma saída com base no arquivo de entrada. XML, por outro lado, é uma linguagem de marcação muito rigorosa que geralmente não é usada para criar conteúdo. Seu uso principal é como uma ferramenta para criar outras linguagens de marcação que criam o conteúdo necessário.