亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 7051 | 回復(fù): 8
打印 上一主題 下一主題

瀏覽器能打開的網(wǎng)址,用python卻采集不了 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2011-08-17 11:18 |只看該作者 |倒序瀏覽
如題:
    http://www.bioonjob.com/hospital ... 0-8135-12A2C52548E3
用瀏覽器能正常打開,但是用python卻無法讀取其源代碼

我的代碼:
    req=urllib2.Request(url)
      req.add_header('User-Agent', "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)")
      response=urllib2.urlopen(req)

論壇徽章:
0
2 [報告]
發(fā)表于 2011-08-17 15:02 |只看該作者
首先,你這個url轉(zhuǎn)向別的的頁面了,再一個請求發(fā)過去,好像報500,需不需要登錄,你再試試

論壇徽章:
0
3 [報告]
發(fā)表于 2011-08-17 17:35 |只看該作者
  1.     res = opener.open(req)
  2.   File "C:\software\Python25\lib\urllib2.py", line 387, in open
  3.     response = meth(req, response)
  4.   File "C:\software\Python25\lib\urllib2.py", line 498, in http_response
  5.     'http', request, response, code, msg, hdrs)
  6.   File "C:\software\Python25\lib\urllib2.py", line 425, in error
  7.     return self._call_chain(*args)
  8.   File "C:\software\Python25\lib\urllib2.py", line 360, in _call_chain
  9.     result = func(*args)
  10.   File "C:\software\Python25\lib\urllib2.py", line 506, in http_error_default
  11.     raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
  12. urllib2.HTTPError: HTTP Error 500: Internal Server Error
復(fù)制代碼
挺奇怪,我抓過來也是提示500,瀏覽器打開正常

論壇徽章:
59
2015七夕節(jié)徽章
日期:2015-08-24 11:17:25ChinaUnix專家徽章
日期:2015-07-20 09:19:30每周論壇發(fā)貼之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38榮譽版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年紀念徽章
日期:2015-07-20 11:05:27IT運維版塊每日發(fā)帖之星
日期:2015-07-20 11:05:34操作系統(tǒng)版塊每日發(fā)帖之星
日期:2015-07-20 11:05:36程序設(shè)計版塊每日發(fā)帖之星
日期:2015-07-20 11:05:40數(shù)據(jù)庫技術(shù)版塊每日發(fā)帖之星
日期:2015-07-20 11:05:432015年辭舊歲徽章
日期:2015-07-20 11:05:44
4 [報告]
發(fā)表于 2011-08-17 22:03 |只看該作者
有沒有代理。

論壇徽章:
0
5 [報告]
發(fā)表于 2011-08-19 09:37 |只看該作者
本帖最后由 hipeace86 于 2011-08-19 09:59 編輯

  1.     import pycurl
  2.     c = pycurl.Curl()
  3.     c.setopt(pycurl.URL,"http://www.bioonjob.com/hospital/show.asp?id=5544112F-6542-4DD0-8135-12A2C52548E3")
  4.     import StringIO
  5.     b = StringIO.StringIO()
  6.     c.setopt(pycurl.WRITEFUNCTION, b.write)
  7.     c.setopt(pycurl.FOLLOWLOCATION, 1)
  8.     c.setopt(pycurl.MAXREDIRS, 5)
  9.     c.perform()
  10.     print b.getvalue().decode('gb2312')
復(fù)制代碼
表示能采集

論壇徽章:
0
6 [報告]
發(fā)表于 2011-08-23 11:34 |只看該作者
樓上的大俠,為什么用pycurl就能采集呢?

論壇徽章:
0
7 [報告]
發(fā)表于 2011-08-23 12:33 |只看該作者
其實是因為這個頁面本身返回的就是   500 Internal Server Error ,在瀏覽器中訪問返回的狀態(tài)也是500(雖然有部分內(nèi)容)

論壇徽章:
0
8 [報告]
發(fā)表于 2011-08-23 13:53 |只看該作者
沒想到urllib2怎么都采不到的網(wǎng)址用pycurl能夠輕松采到啊,我平時用的都是urllib,看來以后要多研究研究pycurl了

論壇徽章:
0
9 [報告]
發(fā)表于 2011-11-18 15:53 |只看該作者
www.samsung.com
這個網(wǎng)站用pycurl也采集不了,
    html = StringIO.StringIO()
    c = pycurl.Curl()
    c.setopt(c.URL, url.encode('utf-8') if type(url) is unicode else url )
    c.setopt(pycurl.URL,str(url))
    c.setopt(pycurl.WRITEFUNCTION, html.write)
    c.setopt(pycurl.NOBODY,0)
    c.setopt(pycurl.FOLLOWLOCATION, 0)
    c.setopt(pycurl.MAXREDIRS, 5)
    c.setopt(pycurl.CONNECTTIMEOUT, 60)
    c.setopt(pycurl.TIMEOUT, 300)
    #c.setopt(pycurl.USERAGENT, "Mozilla/5.0 (Windows; U;compatible; MSIE 8.0; Windows NT 6.1; SV1; .NET CLR 1.1.4322)")
    USER_AGENT = 'Mozilla/5.0 (X11; U; Linux i686; en-GB; rv:1.9.0.5) Gecko/2008121622 Ubuntu/8.10 (intrepid) Firefox/3.0.5'
    c.setopt(pycurl.USERAGENT, USER_AGENT)
    c.perform()
    ret = html.getvalue()
得到的ret為None!!!好郁悶~~
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP