网站静态页面html生成及网站数据采集的攻防

本着互联网共享主义精神，特写此文献给建站新手，授人以鱼，不如授人以渔，本文所讲的只是方法和原理，希望大家看完此文，能够从中得到些帮助和启发。

　　本文从一个ASP程序员的角度用大量实例祥细介绍了动态网站如何生成静态页面原理，又从一个采集程序开发者的角度去祥细介绍了网站数据采集的原理及功防策略。

　　关于网站生成静态页面，为了让本文读者容易理解，文内列举了目前常用的多种生成静态页面的方法，其中用了很多的实例代码进行说明。

　　关于网站数据采集攻防，作者本身是一个采集程序的开发者，同时作者也收集研究了多种采集程序，列举了目前国内比较流行的几种防采集策略，并对每种策略作了简单客观的分析评价，希望能给广大站长们提供一些帮助。此章节也把作者原创的防采集方法奉献给大家，目地是为了让大家了解，防采集，不防搜索引擎，是可行的，有效的。

　　声明：希望各位朋友转载时，不要把原有作者版权去掉，谢谢合作。

　　由于本人写作水平有限，写的不好的地方，还请大家多多包涵，如要批评或意见，请加我QQ。

　　目前很多人都开始注重动态页面生成HTML页了，但选择哪种生成HTML的方法和防采集却不防搜索引擎的问题却经常困扰大家。解决此问题则是本文产生的原因。

　　首先祥细说一下常用的几种生成HTML的方法：

　　生成HTML方法主要步骤只有两个：

　　一、获取要生成的html文件的内容

　　二、将获取的html文件内容保存为html文件

　　我在这里主要说明的只是第一步：如何获取要生成的html文件的内容：

　　目前常用获取html文件的内容的方法有几下几种：

　　1、str="<html标记>内容</html标记>"

　　str=str&"内容数据库读取内容........."

　　这种方法与是在脚本内写要生成的html内容，不太方便预览生成页面的内容，无法可视化布局页面，更改html模板时会更加复杂。

　　用这种方法的人很多，但我感觉这种方法是最不方便的。

　　2、制作单独的HTML模板页，动态的内容用特定的字符作为标记(如：有人用$title$标记为网页标题)，用ADODB.Stream或者Scripting.FileSystemObject将其模板内容载入，然后再用替换方法把原先定好的标记替换为动态内容(如：Replace(载入的模板内容,"$title$",rs("title" ) ) )。

　　3、用XMLHTTP或serverXMLHTTP获取动态页所显示的HTML内容。

　　我常用的生成html文件的实例：

　　'-----------------翟振恺(小琦)

　　'weburl是要获取的动态页地址

　　'getHTTPPage(weburl)是获取动态页内容的函数

　　weburl="http://"&Request.ServerVariables("SERVER_NAME")&"/contact.asp?id="&rs("id")&""‘指定动态页地址

　　body=getHTTPPage(weburl)'用函数取到动态页地址的内容

　　'-----------------翟振恺(小琦)

　　此方法最大的好处就是不用费力气专门去写静态的模板页面，只是将原来就有的动态页面转换为HTML静态页面，但生成速度不是太快。

　　我常用的生成HTML的方法就是第3种：用XMLHTTP获取动态页生成的HTML内容，再用ADODB.Stream或者Scripting.FileSystemObject保存成html文件。

　　第二步是生成文件的方法：

　　ASP里常用的有用ADODB.Stream生成文件和Scripting.FileSystemObject生成文件两种

　　1、Scripting.FileSystemObject生成文件方法：

　　CODE:[Copy to clipboard]'-----------------翟振恺(小琦)

　　Set fso = CreateObject("Scripting.FileSystemObject")

　　File=Server.MapPath("要生成文件路径和文件名.htm")

　　Set txt=fso.OpenTextFile(File,8,True)

　　data1="文件内容"用WriteLine方法生成文件

　　txt.WriteLine data1

　　data2="文件内容"'用Write方法生成文件

　　txt.Write data2

　　txt.Close

　　txt.fso

　　'-----------------翟振恺(小琦)

　　2、ADODB.Stream生成文件方法：

　　Dim objAdoStream

　　set objAdoStream = Server.createObject("ADODB.Stream")

　　objAdoStream.Type = 1

　　objAdoStream.Open()

　　objAdoStream.Write("文件内容")

　　objAdoStream.SaveToFile 要生成文件路径和文件名.htm,2

　　objAdoStream.Close()

　　'-----------------翟振恺(小琦)

　　再说一下我对HTML防采集却不防搜索引擎蜘蛛的一些经验：

　　我开发过几个采集程序，也研究过很多采集程序代码，所以对采集程序的原理还算是稍微有些了解。

　　先说一下采集原理：

　　采集程序的主要步骤如下：

　　一、获取被采集的页面的内容

　　二、从获取代码中提取所有用的数据

　　一、获取被采集的页面的内容

　　我目前所掌握的ASP常用获取被采集的页面的内容方法：

　　1、用serverXMLHTTP组件获取数据

　　'-----------------翟振恺(小琦)

　　'创建对象

　　Dim ObjXMLHTTP

　　Set ObjXMLHTTP=Server.CreateObject("MSXML2.serverXMLHTTP")

　　'请求文件,以异步形式

　　ObjXMLHTTP.Open "GET",weburl,False

　　ObjXMLHTTP.send

　　While ObjXMLHTTP.readyState <> 4

　　ObjXMLHTTP.waitForResponse 1000

　　Wend

　　'得到结果

　　GetBody=ObjXMLHTTP.responseBody

　　'释放对象

　　Set ObjXMLHTTP=Nothing

　　'-----------------翟振恺(小琦)

　　End Function

　　调用方法：

　　GetBody(文件的URLf地址)

　　2、或XMLHTTP组件获取数据

　　CODE:[Copy to clipboard]Function GetBody(weburl)

　　'-----------------翟振恺(小琦)

　　'创建对象

　　Set Retrieval = CreateObject("Microsoft.XMLHTTP")

　　With Retrieval

　　.Open "Get", weburl, False, "", ""

　　.Send

　　GetBody = .ResponseBody

　　End With

　　'释放对象

　　Set Retrieval = Nothing

　　'-----------------翟振恺(小琦)

　　End Function

　　调用方法：

　　GetBody(文件的URLf地址)

　　这样获取的数据内容还需要进行编码转换才可以使用

　　CODE:[Copy to clipboard]Function BytesToBstr(body,Cset)

　　'-----------------翟振恺(小琦)

　　dim objstream

　　set objstream = Server.CreateObject("adodb.stream")

　　objstream.Type = 1

　　objstream.Mode =3

　　objstream.Open

　　objstream.Write body

　　objstream.Position = 0

　　objstream.Type = 2

　　objstream.Charset = Cset

　　BytesToBstr = objstream.ReadText

　　objstream.Close

　　set objstream = nothing

　　'-----------------翟振恺(小琦)

　　End Function

　　调用方法：BytesToBstr(要转换的数据,编码)'编码常用为GB2312和UTF-8

文章共3页: [1] [2] [3]

更多的网站静态页面html生成及网站数据采集的攻防请到论坛查看: http://BBS.TC711.COM

【双击滚屏】【评论】【收藏】【打印】【关闭】来源：互联网日期：2008-1-30