首页 | 站长免费中心 | 新手上路 | 网站运营 | 网页制作 | 图片设计 | 动画设计 | 网页编程 | 网页特效 | 本站专题 | 虚拟主机 | 域名注册 | 网站建设 | 程序下载
       免费空间资源 | 新闻咨询 | 免费域名 | 免费网盘 | 网站推广 | 网站策划 | 建站经验 | 网站优化 | 网页代码 | 源码下载 | 音乐小偷 | 网络赚钱 | 论坛交流
网站建设
网站建设
虚拟主机
虚拟主机
域名注册
域名注册
711网络首页
站长工具
站长工具
网站源码
网站源码
站长论坛
站长论坛

 711网络 网页编程ASP代码

网站静态页面html生成及网站数据采集的攻防

来源: 互联网    日期:2008-1-30
 
本着互联网共享主义精神,特写此文献给建站新手,授人以鱼,不如授人以渔,本文所讲的只是方法和原理,希望大家看完此文,能够从中得到些帮助和启发。

  本文从一个ASP程序员的角度用大量实例祥细介绍了动态网站如何生成静态页面原理,又从一个采集程序开发者的角度去祥细介绍了网站数据采集的原理及功防策略。

  关于网站生成静态页面,为了让本文读者容易理解,文内列举了目前常用的多种生成静态页面的方法,其中用了很多的实例代码进行说明。

  关于网站数据采集攻防,作者本身是一个采集程序的开发者,同时作者也收集研究了多种采集程序,列举了目前国内比较流行的几种防采集策略,并对每种策略作了简单客观的分析评价,希望能给广大站长们提供一些帮助。此章节也把作者原创的防采集方法奉献给大家,目地是为了让大家了解,防采集,不防搜索引擎,是可行的,有效的。

  声明:希望各位朋友转载时,不要把原有作者版权去掉,谢谢合作。

  由于本人写作水平有限,写的不好的地方,还请大家多多包涵,如要批评或意见,请加我QQ。

  目前很多人都开始注重动态页面生成HTML页了,但选择哪种生成HTML的方法和防采集却不防搜索引擎的问题却经常困扰大家。解决此问题则是本文产生的原因。

  首先祥细说一下常用的几种生成HTML的方法:

  生成HTML方法主要步骤只有两个:

  一、获取要生成的html文件的内容

  二、将获取的html文件内容保存为html文件

  我在这里主要说明的只是第一步:如何获取要生成的html文件的内容:

  目前常用获取html文件的内容的方法有几下几种:

  1、str="<html标记>内容</html标记>"

  str=str&"内容数据库读取内容........."

  这种方法与是在脚本内写要生成的html内容,不太方便预览生成页面的内容,无法可视化布局页面,更改html模板时会更加复杂。

  用这种方法的人很多,但我感觉这种方法是最不方便的。

  2、制作单独的HTML模板页,动态的内容用特定的字符作为标记(如:有人用$title$标记为网页标题),用ADODB.Stream或者Scripting.FileSystemObject将其模板内容载入,然后再用替换方法把原先定好的标记替换为动态内容(如:Replace(载入的模板内容,"$title$",rs("title" ) ) )。

  3、用XMLHTTP或serverXMLHTTP获取动态页所显示的HTML内容。

  我常用的生成html文件的实例:

  '-----------------翟振恺(小琦)

  'weburl是要获取的动态页地址

  'getHTTPPage(weburl)是获取动态页内容的函数

  weburl="http://"&Request.ServerVariables("SERVER_NAME")&"/contact.asp?id="&rs("id")&""‘指定动态页地址

  body=getHTTPPage(weburl)'用函数取到动态页地址的内容

  '-----------------翟振恺(小琦)

  此方法最大的好处就是不用费力气专门去写静态的模板页面,只是将原来就有的动态页面转换为HTML静态页面,但生成速度不是太快。

  我常用的生成HTML的方法就是第3种:用XMLHTTP获取动态页生成的HTML内容,再用ADODB.Stream或者Scripting.FileSystemObject保存成html文件。

  第二步是生成文件的方法:

  ASP里常用的有用ADODB.Stream生成文件和Scripting.FileSystemObject生成文件两种

  1、Scripting.FileSystemObject生成文件方法:

  CODE:[Copy to clipboard]'-----------------翟振恺(小琦)

  Set fso = CreateObject("Scripting.FileSystemObject")

  File=Server.MapPath("要生成文件路径和文件名.htm")

  Set txt=fso.OpenTextFile(File,8,True)

  data1="文件内容"用WriteLine方法生成文件

  txt.WriteLine data1

  data2="文件内容"'用Write方法生成文件

  txt.Write data2

  txt.Close

  txt.fso

  '-----------------翟振恺(小琦)

  2、ADODB.Stream生成文件方法:

  Dim objAdoStream

  set objAdoStream = Server.createObject("ADODB.Stream")

  objAdoStream.Type = 1

  objAdoStream.Open()

  objAdoStream.Write("文件内容")

  objAdoStream.SaveToFile 要生成文件路径和文件名.htm,2

  objAdoStream.Close()

  '-----------------翟振恺(小琦)

  再说一下我对HTML防采集却不防搜索引擎蜘蛛的一些经验:

  我开发过几个采集程序,也研究过很多采集程序代码,所以对采集程序的原理还算是稍微有些了解。

  先说一下采集原理:

  采集程序的主要步骤如下:

  一、获取被采集的页面的内容

  二、从获取代码中提取所有用的数据

  一、获取被采集的页面的内容

  我目前所掌握的ASP常用获取被采集的页面的内容方法:

  1、用serverXMLHTTP组件获取数据

  '-----------------翟振恺(小琦)

  '创建对象

  Dim ObjXMLHTTP

  Set ObjXMLHTTP=Server.CreateObject("MSXML2.serverXMLHTTP")

  '请求文件,以异步形式

  ObjXMLHTTP.Open "GET",weburl,False

  ObjXMLHTTP.send

  While ObjXMLHTTP.readyState <> 4

  ObjXMLHTTP.waitForResponse 1000

  Wend

  '得到结果

  GetBody=ObjXMLHTTP.responseBody

  '释放对象

  Set ObjXMLHTTP=Nothing

  '-----------------翟振恺(小琦)

  End Function

  调用方法:

  GetBody(文件的URLf地址)

  2、或XMLHTTP组件获取数据

  CODE:[Copy to clipboard]Function GetBody(weburl)

  '-----------------翟振恺(小琦)

  '创建对象

  Set Retrieval = CreateObject("Microsoft.XMLHTTP")

  With Retrieval

  .Open "Get", weburl, False, "", ""

  .Send

  GetBody = .ResponseBody

  End With

  '释放对象

  Set Retrieval = Nothing

  '-----------------翟振恺(小琦)

  End Function

  调用方法:

  GetBody(文件的URLf地址)

  这样获取的数据内容还需要进行编码转换才可以使用

  CODE:[Copy to clipboard]Function BytesToBstr(body,Cset)

  '-----------------翟振恺(小琦)

  dim objstream

  set objstream = Server.CreateObject("adodb.stream")

  objstream.Type = 1

  objstream.Mode =3

  objstream.Open

  objstream.Write body

  objstream.Position = 0

  objstream.Type = 2

  objstream.Charset = Cset

  BytesToBstr = objstream.ReadText

  objstream.Close

  set objstream = nothing

  '-----------------翟振恺(小琦)

  End Function

  调用方法:BytesToBstr(要转换的数据,编码)'编码常用为GB2312和UTF-8



文章共3页:  [1] [2] [3]


更多的网站静态页面html生成及网站数据采集的攻防请到论坛查看: http://BBS.TC711.COM



【 双击滚屏 】 【 评论 】 【 收藏 】 【 打印 】 【 关闭 】 来源: 互联网    日期:2008-1-30   

下一篇:fso生成js文件..
发 表 评 论
查看评论

  您的大名:
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
认证编码: 刷新验证码
点评内容: 字数0
  精品推荐  
  本月推荐  
  友情赞助  

关于我们 | 联系我们 | 广告投放 | 留言反馈 | 免费程序 | 虚拟主机 | 网站建设 |  网站推广 |  google_sitemap baidu_sitemap RSS订阅
本站所有资源均来自互联网,如有侵犯您的版权或其他问题,请通知管理员,我们会在最短的时间回复您
Copyright © 2005-2015 Tc711.Com All Rights Reserved 版权所有·711网络   蜀ICP备05021915号
110网监备案 信息产业备案 不良信息举报