本页主题: XML是什么文件? 打印 | 加为IE收藏 | 复制链接 | 收藏主题 | 上一主题 | 下一主题

530761333
布衣天下
级别: 布衣侠客


配偶: 单身
精华: 0
发帖: 167
积分: 335 点
金钱: 810 布衣币
贡献值: 0 点
好评度: 310 点
在线时间:9(小时)
注册时间:2008-03-15
最后登录:2008-04-02

 XML是什么文件?

XML为Extensible Markup Language的缩写,即可扩充标注语言。它是由SGML所精简而来的一种通用标注语言,主要是要简化SGML烦杂的结构,强化HTML过于简单而不够严谨的语法。微软是XML技术的推动者之一,它希望能够建立一个可以为WWW 广泛使用语言环境,推动程序的兼容与协同,从而降低成本,刺激增长。

虽然XML创立之初只是被当作一项基础技术,但其发展早已超出设计者原先的构想。不论是学术界还是商业界都将其视为下一代网络的基石。XML现在已经成为一股不可抵挡的技术潮流。

现有的XML主要应用在四个方面:一是应用于具有不同复杂格式的不同数据源间的交互;二是应用于大量运算负荷分布在客户端的情况,用户可以根据自己的需求选择和制作不同的应用程序以处理数据,而服务器只需发出同一个XML文件;三是应用于将同一数据以不同的形式表现出来;四是应用于网络代理对所取得的信息进行编辑、增减以适应个人用户的需要,形成具有个人特色的数据文件。

事实上,XML技术的潜能还远未被充分挖掘。据一份最新的研究指出,以XML为基础的内容生命周期产品,将在今后5年以10倍的速度快速成长,在2008年达到116亿美元的营业规模。以XML和Web服务为主的研究公司Zap Think在研究报告中也指出,这些以XML为基础并包括Web服务的工具,是将旧有系统再度激活的新希望。

“XML最大的影响在于XML软件大量兴起:XML剖析器、XML程序语言库、XSLT处理器、XSL FO处理器、数据库接受XML——不只如此,还有网络浏览器也接受XML。”XML工作小组创始会员C.M. Sperberg-McQueen如是认为。也正因为如此,IBM、微软、SUN、惠普、Oracle等大公司纷纷进入这个市场。

而在XML最大应用之一的数据格式转换领域,Adobe、微软、Core都在各自相关的软件产品中充分利用了XML技术。以程序关联为特色的Office 2003更是将XML的格式转换特性发挥到了极致,以至于这个软件套装几乎成为了一个独立的数据系统。

XML网页示例:
[attachment=372]

XML标签说明: 其中带星号标记的为必选项,未带星号标记为可选项。
*<document>——标记整个XML文件内容的开始和结束。
*<webSite>——站点地址。
*<webMaster>——负责人员的Email。当有必要时,我们通过这个地址与您联系。
*<updatePeri>——更新周期,以分钟为单位。搜索引擎将遵照此周期访问该页面,使页面上的新闻更及时地出现在百度新闻中。
*<item>——标记每篇新闻信息的开始和结束。标记内为单篇新闻信息,不包括新闻专题。
*<title>——新闻标题。
*<link>——新闻url地址,与单篇新闻一一对应;若分页的新闻存在多个URL,标题相同则属于同一篇新闻,请提供一个URL。
<description>——新闻内容简介。
*<text>——完整的新闻正文(仅包含正文文字,不包含HTML语言等其它字符)。此项的目的是使该篇新闻更多、更准地出现在搜索结果中。
*<image>——新闻正文内相关图片,采用绝对地址。若该篇新闻无相关图片,可以为空;若含有多张图片,请重复使用该标签。此项的目的是使该篇新闻的相关图片展现在搜索结果中。
<headlineImg>——为有可能成为头条的新闻制作的头条图,采用绝对地址。
<keywords>——反映新闻主题内容的一个或多个关键词,关键词之间以空格隔开。此项仅作为参考,检索结果不完全依赖于此标签中的内容。
<category>——新闻分类, 可以遵循网站自身的分类体系,最好采用一级分类。
<author>——新闻作者,可以为机构或个人 。
<source>——新闻来源,即原创媒体或其它机构 。
*<pubDate>——新闻发布时间,与该篇新闻HTML页面上的发布时间保持一致。请精确到分钟;若您网站的发布时间未记录小时分钟,提供年月日即可。


推荐时间格式:年月日小时分钟秒
如:2005-11-09 10:37 | 2005/11/09 10:37:00 | 2005.11.09 10:37:00 |
2005年11月09日10时37分00秒 | Fri, 09 Nov 2005 10:37:00 GMT

下面就开始吧!
第一步:创建XML文件

        请您在创建XML文件新闻内容前务必阅读下面百度新闻搜索的收录标准:
        1、 百度新闻搜索收录的内容包括:时政、娱乐、体育、财经、科教文化、社会生活等各类新闻报道及媒体评论,数码产品、房产、汽车等行情资讯及评测,各行业的动态及行情,组织机构的工作动态等,是由专业人士撰写或编辑的中文信息。
        2、 百度新闻搜索收录的内容不包括:个人信息、论坛、博客、广告、幽默笑话、情感故事、情色、写真、剧照、明星档案、食谱、下载、多媒体等其它类型、其它语言互联网信息。
        3、百度新闻搜索希望收录高质量的中文新闻,不收录英文等其它非中文新闻。
        4、请按照上面公布的制作XML文件。
    其他说明:
  • 支持的编码格式有GB2312、GB18030、UTF-8、BIG5,推荐使用GB18030或UTF-8格式。
  • 您可以将网站某一时间段发布的全部新闻放在一个XML文件中,也可以分频道或栏目放在多个XML文件中。
  • 请保持每个XML文件处于按更新周期持续自动更新状态。更新周期可根据您的需要随时进行调整。
  • 每个XML文件至多存放最新发布的100条新闻,无需保存之前的新闻
  • 请将发布的新闻按照时间排序,即最新发布的新闻在最上端,否则可能有新闻被遗漏。
  • XML标签内容中,除文字文本以外不能包含其它任何代码,下表中的特殊字符必须转换为XML定义的转义字符。否则将发生错误导致搜索引擎不能获取页面上的新闻。
    字符转义后的字符
    HTML字符字符编码
    和(and)&&&
    单引号'''
    双引号"""
    大于号>>>
    小于号<<<
    转义字符中的"&"无需再转。
  • 建议您使用CDATA 部件。一个 CDATA 部件以"<![CDATA[" 标记开始,以"]]>"标记结束。将包含代码或特殊字符的文本置于CDATA 部件内 ,就无需再对特殊字符进行转义。
第二步:验证XML文件
        下面的地址提供了帮助您验证XML文件结构的多种工具:
       
http://www.w3.org/XML/Schema#Tools
       
http://www.xml.com/pub/a/2000/12/13/schematools.html
        通过验证的XML文件能够使您提供的信息更加标准,确保您发布的新闻信息不被搜索引擎遗漏。

第三步:提交XML网址
提交前请将XML文件上传到您的网站服务器,将XML文件的URL地址及其它信息输入下面对应的方框内。搜索引擎将定向访问该URL地址,当URL地址发生变化时需要重新提交。
若您提交的XML文件符合百度新闻源收录标准,百度新闻搜索将对您提交的数据进行测试和观察一周。
顶端 Posted: 2008-03-26 10:50 | [楼 主]
帖子浏览记录 版块浏览记录
布衣天下 » 建站资源

Time now is:12-03 03:49, Gzip enabled 浙ICP备06052510号
Powered by PHPWind & Uu1001 v2.0 Certificate Code © 2003-08 PHPWind.com Corporation