热 门: 什么是花 生壳?    百度为什么不收录网站首页?    申请免费空间    网站如何备案    什么是音乐小偷?    什么是SEO,如何网站优化?     大量精美网页特效    设为首页 | 加入收藏
首页 | 站长免费中心 | 新手上路 | 网站运营 | 网页制作 | 图片设计 | 动画设计 | 网页编程 | 网页特效 | 本站专题 | 虚拟主机 | 域名注册 | 网站建设 | 程序下载
       免费空间资源 | 新闻咨询 | 免费域名 | 免费网盘 | 网站推广 | 网站策划 | 建站经验 | 网站优化 | 网页代码 | 源码下载 | 音乐小偷 | 网络赚钱 | 论坛交流
网站建设
网站建设
虚拟主机
虚拟主机
域名注册
域名注册
711网络首页
站长工具
站长工具
网站源码
网站源码
站长论坛
站长论坛

企业网站建设
.com .com.cn .cn .net .net.cn
.cc .org .org.cn .tv
本站搜索:
温馨提示: 如果没找到您需要的内容, 欢迎在此搜索.
绵阳网站建设

 711网络 网页制作XML/XSLT

XML入门教程:分析XML

来源: 互联网    日期:2009-2-22

     
 

    智能建站已经成为企业网站建设的主要方式,建立个性化企业网站是企业品牌形象的体现;具有强大灵活的网站功能、HTML生成、搜索引擎优化,现有简体、繁体、英文、日文等多国语言可选用。赶快申请,立即拥有个性化企业网站...

 
 
网页教学网核心提示:分析XML文档可通过程序来做,分析器有两大类,一种是事件驱动的,一种是基于树模型的。

分析XML文档可通过程序来做,分析器有两大类,一种是事件驱动的,一种是基于树模型的。

  • 使用事件驱动的分析器时,每遇到一个元素就会触发一个事件,由事件处理器进行处理。事件分析器按顺序读取XML文档,而不把整个文档读入内存,所以处理速度很快。但缺点是由于要从头到尾读取XML文档,因此无法在XML文档中移动位置。事件驱动分析器适合处理其它地方使用的XML数据,如转换成HTML文档或从文件中读取数据并插入数据库中。它的优点有:

    • 文件搜索,从XML文档中搜索需要的标志或数据;

    • 格式转换,如转换成HTML。任何需将原始XML转换成另一种格式的工作都最好使用事件驱动分析器来完成,因为它可动态将信息转换成新格式。

    • 少量修改,你可用事件驱动分析器读取和重新生成XML。在分析过程中,可以改变少量的单语、字符数据内容或重新构造XML。事件驱动分析器特别适合整理和重新格式化XML文档。

    • 简单验证,由于整个文档不在内存中,所以无法进行完整验证,但可检查拼写错误和一般良构XML文档之类的简单问题;

    • 建立内部结构,可以使用事件驱动分析器建立XML文档的复杂内部表示,如基于树的接口使用的树式结构。

       
    事件驱动分析器不能在XML文档间交叉引用文档内容,但它使用简单,速度快。
  • 基于树的分析器把整个XML文档读入内存,并生成树状结构。分析器可随机访问树中的任意节点,并能修改树结构和内容。

1. 分析器工具

现有的分析器种类有上百种,但常用的是两个标准的工具库,一个是XML简单API(SAX,Simple API for XML)和文档对象模型(DOC,Document Object Model)。SAX是事件驱动分析器的标准,而DOM是基于树的分析器标准。另外,Expat虽然不是标准,但它是脚本语言中处理XML时最常用的分析器。Expat由James Clark编写,是事件驱动分析器。

本文由网页教学网(http://www.webjx.com)整理发布!转载请注明出处,谢谢!

2. Unicode

计算机并不能正真理解文本内容,它无法识别诸如a,b,c这类的字母,更不用说中文了。计算机所能理解的只有数字,如60,80等。字符集(character set)规定了字母到数字的映射关系,如65代表大写字母A。65称为码点(code point),字符编码(character encoding)决定码点如何用字节表示。是用多了节还是单字节,高字节位表示什么,低字节位表示什么。

不同国家使用不同的语言,不同程序使用不同的编码规范,在进行世界范围内的数据交换就要统一表示数据的字符编码规范。传统的ASCII字符集只定义了127个字符,其中前31个是控制符。127位之后的字符随平台不同而不同。大多数平台只能表示前127位,单字节(8位),使得字符集中最多只能提供256个字符。这些标准字符称为罗马或拉丁字符集,用ASCII来表示中文、日文是远远不够的。

为了解决字符集问题,出现了Unicode字符集。它可用多字节格式编码字符,目前标准允许2字节字符,支持65536个不同字符。标准的Unicode字符集为Latin-1(或ISO-8859-1)。有关Unicode的介绍可访问Unicode的官方网站:http://www.unicode.org

Unicode字符集为字符分配码点,即编号。这些编号可以用多种模式编码,如UCS-2、UCS-4、UTF-8、UTF-16。

  • UCS-2,也叫ISO-10646-UCS-2。每个字符用一个0~65535之间的两个字节的无符号整数表示。如A的Unicode码点为65,用两个字节00和41(十六进制)表示。B的Unicode码点为66,用两个字节00和42表示。UCS-2有两种形式:高字节(#x0041)在前和低字节(#x4100)在前。为区发高低位不同表示形式,采用UCS-2编码文档通常以Unicode字符#xFEFF(零宽度无间断空格)开头,一般称为字节顺序标记(byte order mark)。这个字符是不可见的。如果两个字节交换位置,得到的字符#xFFFE实际是不存在的。因此中通过查看UCS-2文档的前两个字符是#xFEFF还是#xFFFE,就可确定该文档是否是高字节在前。UCS-2的缺点:如果文本字符主要是拉丁文,由于采用两个字节,字符集编码是单字节字符编码的两倍;UCS-2不能与ASCII向前或向后兼容,用于单字节字符集的工具常常不适用于处理UCS-2编码文件。

  • UTF-8是一种可这长度的Unicode编码。0~127为ASCII码字符集,与ASCII编码完全兼容,每个字符采用一个字节编码。UTF-8用两个字节表示128~2047,该范围覆盖了最常见的非表意字母。其余的字符,主要来自汉语、日语和韩语,每个都用3个字节表示。如果Unicode的码点超过65535个字符,那么这些字符就会用4个字节编码。对于以拉丁文为主的文件,使用UTF-8比UCS-2可减少一半的文件大小。对于汉语、日语和韩语的文件,其大小会增加百分之五十。对于其它语言,文件大小相差不大。UTF-8是最常用的Unicode编码方式。

在Unicode流行以前,出现了一系列处理特定语言的单字节字符集,ISO将14种这样的字符集标准化成ISO 8859标准,分别是ISO-8859-1~14。ISO-8859-15是ISO-8859-1的修订版本。这些字符集统称ISO字符集。

Cp1252是依赖于Windows平台的一种编码,是Windows的缺省字符集。该种编码不支持跨平台特性,尽量不要使用。

MacRoman是Mac OS使用的一种非标准、单字节编码。在非Mac平台下使用也会有问题,尽量不要使用。

在XML文档中,如果需输入编辑器不支持的字符,我们可用字符引用的方式,以十进制或十六进制给出它所代表的Unicode字符编号,如њ(十进制)或者&#x45A(十六进制)。字符引用可用于元素内容、属性和注释,不能用于元素名和属性名、处理指令或XML关键字。如果有一些字符需经常使用,则我们可为这些字符定义实体,这样,在文档中就可方便地引用该实体了。专门定义字符实体的DTD我们可独立出来,形成以.ent为后缀的外部DTD。在需要时使用外部参数实体引用将这些定义引入文档的DTD中。

XHTML 1.0 DTD包含有三个有用的字符引用实体可在文档中使用。

  • Latin-1字符,http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent

    ISO-8859-1中自160以上的非ASCII码字符。

  • 特殊字符,http://www.w3.org/TR/xhtml/DTD/xhtml-special.ent

    ISO-8859-2中不在Latin-1中的字母。

  • 标点符号,http://www.w3.org/TR/xhtml-symbol.ent

    希腊字母表(不包含带重音的字符)和各种标点符号、数学运算符及其他数学中常用的符号。

在XML文档中可以使用xml:lang属性规定元素内容采用的语言。这样就可在一篇文档中同时使用多种语言,这是XML跨平台和跨语言的重要特性之一。如:xml:lang="CN-CHN"。语言代码是一个两个字母的语言代码,语言代码后还可跟一个子代码,语言代码可在这里找到http://ftp.ics.uci.edu/pub/ietf/http/related/iso3166.txt。下面是xml:lang属性声明的示例:

<!ELEMENT test (#PCDATA)>
<!ATTLIST test xml:lang NMTOKEN #IMPLIED>

由于所有语言代码都是有效的XML名称标记,所以使用NMTOKEN类型。

精品网站程序下载(草根站长最爱)
QQ2013,QQ2012临时会话插件(全国首发)
711旅游网站管理系统V2013(无功能限制)
711幻灯片管理系统(全国首发) 各类网站程序下载
711企业网站管理系统V2013个人版(无功能限制)
711免费在线客服系统个人版 V2.0
电影小偷采集程序V2013免费下载
点此查看


更多的XML入门教程:分析XML请到论坛查看: http://BBS.TC711.COM



【 双击滚屏 】 【 评论 】 【 收藏 】 【 打印 】 【 关闭 】 来源: 互联网    日期:2009-2-22   

发 表 评 论
查看评论

  您的大名:
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
认证编码: 刷新验证码
点评内容: 字数0
  精品推荐  
  本月推荐  
· 企业程序V2013精品版
· 企业程序V2013营销旗舰版
· 购物商城系统V2013
· 旅游程序V2013
· 鲜花网站系统V2013
· 珍爱鲜花配送管理系统V2013免费下载
· 绵阳餐饮网2010免费下载
· 旅游网站管理系统V4.0
· 旅游网站管理系统V12.0免费版
· 学校网站管理系统
· 政府网站管理系统
· 律师事务所网站管理系统
· 仿阿里巴巴B2B门V2009
· 婚纱摄影网站管理系统2013
· 人才网管理系统V2009
· 企业程序中日英繁四语版
· 人才网管理系统V2009
· 公文传输系统(适合于政府机构)
· 711企业网站管理程序V2009超强完美版 
· 711酒店网站管理系统V2008 
· 711网站QQ在线咨询插件2013(兼容火狐)
·711企业网站程序免费版(无功能限制)
·711企业网站系统V2008.4多风格三语
·711网络在线图文下单与产 品输出系统
·711酒店网站管理系统V2008
·绵阳商铺信息网站管理系统
·711旅游旅行社网站管理系统V2007.10
·企业搭建网站的好处
·711二手网站网站管理程序
·711网络企业网站管理 系统韩国风格
·711企业网站管理系统(中英繁三语)
·711房产中介网站管理系统2008
·711分类网站管理程序(html版)
·711公文传输系统V2007.6正式发布
  友情赞助  

·快速设计网页必备的28款工具和生...
·网站上的广告与网站设计的关系
·[分享]网络创业的定位与切入点
·成功的网站其实很简单的就这样做...
·良好用户体验的网站主页 必备的1...
·以亲身体会讲述 43条网站设计中常...
·GOOGLE收录减少怎么办?
·个人网站赚钱必须要坚持
·搜索引擎最新免费登录入口大全
·一个个人站长些的网站宣传方法
·免费网站推广区
·百度"反垃圾网站"的若干问答
·宣传网站利器——你都搞了吗?
·网页应该怎样设计,才能被百度有...
·提高网站的Google PR值的私家绝招...
·让网站迅速被各大搜索引擎收录!...


本站所有资源均来自互联网,如有侵犯您的版权或其他问题,请通知管理员,我们会在最短的时间回复您
Copyright © 2005-2015 Tc711.Com All Rights Reserved 版权所有·711网络   蜀ICP备05021915号
110网监备案 信息产业备案 不良信息举报  点击这里给我发消息
//