Thursday, February 12, 2009

最简单的下载网页的方法
































打印

用python下载网页,超级简单!
















用python下载网页,超级简单!






  1. <br>  
  2. from urllib import urlopen<br>  
  3. <br>  
  4. webdata = urlopen("http://www.<span href="tag.php?name=python" onclick="tagshow(event)" class="t_tag">python</span>id.com").read()<br>  
  5. print webdata<br>  


from urllib import urlopen



webdata = urlopen("http://www.pythonid.com").read()

print webdata



够简单吧,哈哈。










TOP























python最适合干这种事情了!










TOP























我来补充点,你那只能说是查看网页,怎能说是下载呢,总得如存吧



import urllib

webfile = urllib.urlopen("http://www.insenz.com").read()

fp = file('rhf.html', 'a+')

#fp = open('rhf.html', 'a+')

fp.write(webfile)

fp.close()










TOP





















回复 #3 hongfu 的帖子




运行后得到这个





错误

您所请求的网址(URL)无法获取



--------------------------------------------------------------------------------



当尝试进行以下请求时:



GET  HTTP/1.0



Host: www.insenz.com



User-Agent: Python-urllib/1.17









发生了下列的错误:



Invalid Request

无效的请求

Some aspect of the HTTP Request is invalid. Possible problems:

HTTP 请求的某些方面是无效的。可能是下列问题:



Missing or unknown request method

缺少请求方式或未知的请求方式

Missing URL

缺少网址

Missing HTTP Identifier (HTTP/1.0)

缺少 HTTP 标识(HTTP/1.0)

Request is too large

请求命令过长

Content-Length missing for POST or PUT requests

POST 或 PUT 请求缺少内容长度

Illegal character in hostname; underscores are not allowed

主机名称中包含不合法的字符;下划线是不允许的。



本缓存服务器管理员:cacheadmin@discuz.com.







--------------------------------------------------------------------------------



Generated Tue, 10 Jul 2007 09:40:24 GMT by cache.discuz.net (squid/2.5.STABLE14)










TOP























在后边加上index.html试一下







Invalid Request

无效的请求

Some aspect of the HTTP Request is invalid. Possible problems:

HTTP 请求的某些方面是无效的。可能是下列问题:










TOP























恩?? 我就可以呢??










TOP























哦,我没有试 www.insenz.com , 我试的 http://www.pythonid.com










TOP























可能是你访问不了这台服务器,哈哈










TOP























最简单的下载网页的方法只有2句:



from urllib import urlretrieve



urlretrieve('http://www.python.org', 'f:\\python_webpage.html')










TOP


























No comments: