亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 1445 | 回復: 4
打印 上一主題 下一主題

大神救救小白 [復制鏈接]

論壇徽章:
0
跳轉到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2015-05-19 23:20 |只看該作者 |倒序瀏覽
小白今天使用scrapy寫的一個簡單爬蟲 發(fā)現(xiàn)返回的unicode字符串處理出現(xiàn)問題

//例子中沒有編寫item
//spider文件為
import scrapy
class DmozSpider(scrapy.Spider):
        name = "dmoz"
        allowed_domains = ["dmoz.org"]
        start_urls = ["dmoz.org/Computers/Programming/Languages/Python/Books/"]
        def parse(self, response):
                for sel in response.xpath('//ul/li'):
                        title = sel.xpath('a/text()').extract()
                        print title
結果為:
[u'Top']
[u'Computers']
[u'Programming']
[u'Languages']
[u'Python']
...
說明  
title 是一個包含一個unicode字符串的列表
問題在后面: 為了提出出字符串,而不是一個列表,我用以下兩個方法:
1. 最后一句改為  print title[0]
結果提示錯誤:
            print title[0]
        exceptions.IndexError: list index out of range
2. 使用一個for循環(huán)
for a in title:
     print a
就可以  結果為:
Top
Computers
Programming
Languages
Python
....
請大神給小白解答 ,謝謝!



論壇徽章:
26
2015亞冠之胡齊斯坦鋼鐵
日期:2015-06-25 21:40:202015亞冠之柏斯波利斯
日期:2015-08-31 17:03:192015亞冠之柏斯波利斯
日期:2015-11-07 13:10:00程序設計版塊每日發(fā)帖之星
日期:2015-11-10 06:20:00每日論壇發(fā)貼之星
日期:2015-11-10 06:20:00程序設計版塊每日發(fā)帖之星
日期:2015-11-26 06:20:00程序設計版塊每日發(fā)帖之星
日期:2015-12-02 06:20:00黃金圣斗士
日期:2015-12-07 17:57:4615-16賽季CBA聯(lián)賽之天津
日期:2015-12-23 18:34:14程序設計版塊每日發(fā)帖之星
日期:2016-01-02 06:20:00程序設計版塊每日發(fā)帖之星
日期:2016-01-06 06:20:00每日論壇發(fā)貼之星
日期:2016-01-06 06:20:00
2 [報告]
發(fā)表于 2015-05-19 23:47 |只看該作者
ok = [u'Top']
print ok[0] # Top

empty = []
print empty[0]  # IndexError: list index out of range

論壇徽章:
0
3 [報告]
發(fā)表于 2015-05-20 00:00 |只看該作者
回復 2# substr函數(shù)
是的 我也知道這兩個結果
但為什么ok[0] 這種結果對于title就出現(xiàn)錯誤提示 明明title是有內(nèi)容的呀

論壇徽章:
26
2015亞冠之胡齊斯坦鋼鐵
日期:2015-06-25 21:40:202015亞冠之柏斯波利斯
日期:2015-08-31 17:03:192015亞冠之柏斯波利斯
日期:2015-11-07 13:10:00程序設計版塊每日發(fā)帖之星
日期:2015-11-10 06:20:00每日論壇發(fā)貼之星
日期:2015-11-10 06:20:00程序設計版塊每日發(fā)帖之星
日期:2015-11-26 06:20:00程序設計版塊每日發(fā)帖之星
日期:2015-12-02 06:20:00黃金圣斗士
日期:2015-12-07 17:57:4615-16賽季CBA聯(lián)賽之天津
日期:2015-12-23 18:34:14程序設計版塊每日發(fā)帖之星
日期:2016-01-02 06:20:00程序設計版塊每日發(fā)帖之星
日期:2016-01-06 06:20:00每日論壇發(fā)貼之星
日期:2016-01-06 06:20:00
4 [報告]
發(fā)表于 2015-05-20 11:11 |只看該作者
回復 3# 花哥愛吉他


請試驗下

if len(title):
  print title[0]
else:
  print "============ 這時 title 為空 沒有內(nèi)容的呀 =============="


看看結果

論壇徽章:
0
5 [報告]
發(fā)表于 2015-05-20 13:14 |只看該作者
回復 4# substr函數(shù)


   
仔細查看xpath返回的結果,發(fā)現(xiàn)在篩選內(nèi)容的時候,有些標簽沒有<a>xx</a> 或者 內(nèi)容為空  所以title有時候就返回空
當title空的時候,就拋出異常

最后解決辦法:
把不同xpath表達式放在不同函數(shù)中,然后用列表或者字典 仿造一個switch的結構  就可以根據(jù)不同情況進行不同處理     

謝謝師兄WL 和二樓大神  
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術有限公司. 版權所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關心和支持過ChinaUnix的朋友們 轉載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP