平臺論壇博客文庫

› 論壇 › 程序設計 › Python › 大神救救小白

大神救救小白 [復制鏈接]

花哥愛吉他

白手起家

論壇徽章:: 0

電梯直達

1樓 [收藏(0)] [報告]

發(fā)表于 2015-05-19 23:20 |只看該作者 |倒序瀏覽

小白今天使用scrapy寫的一個簡單爬蟲發(fā)現(xiàn)返回的unicode字符串處理出現(xiàn)問題

//例子中沒有編寫item
//spider文件為
import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = ["dmoz.org/Computers/Programming/Languages/Python/Books/"]
def parse(self, response):
for sel in response.xpath('//ul/li'):
title = sel.xpath('a/text()').extract()
                     print title
結果為：
[u'Top']
[u'Computers']
[u'Programming']
[u'Languages']
[u'Python']
...
說明
title 是一個包含一個unicode字符串的列表
問題在后面：為了提出出字符串，而不是一個列表，我用以下兩個方法：
1. 最后一句改為  print title[0]
結果提示錯誤：
      print title[0]
exceptions.IndexError: list index out of range
2. 使用一個for循環(huán)
for a in title:
   print a
就可以  結果為：
Top
Computers
Programming
Languages
Python
....
請大神給小白解答 ,謝謝！

文庫|博客

使用正則表達式與lex實現(xiàn)詞法分析器
C語言的MIPS匯編實現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點：Transparent mode全新升級|附下載

substr函數(shù)

腰纏萬貫

論壇徽章:: 26

15-16賽季CBA聯(lián)賽之天津
日期:2015-12-23 18:34:14

2樓 [報告]

發(fā)表于 2015-05-19 23:47 |只看該作者

ok = [u'Top']
print ok[0] # Top

empty = []
print empty[0] # IndexError: list index out of range

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

花哥愛吉他

白手起家

論壇徽章:: 0

3樓 [報告]

發(fā)表于 2015-05-20 00:00 |只看該作者

回復 2# substr函數(shù)
是的我也知道這兩個結果
但為什么ok[0] 這種結果對于title就出現(xiàn)錯誤提示明明title是有內(nèi)容的呀

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

substr函數(shù)

腰纏萬貫

論壇徽章:: 26

4樓 [報告]

發(fā)表于 2015-05-20 11:11 |只看該作者

回復 3# 花哥愛吉他

請試驗下

if len(title):
print title[0]
else:
print "============ 這時 title 為空沒有內(nèi)容的呀 =============="

看看結果

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

花哥愛吉他

白手起家

論壇徽章:: 0

5樓 [報告]

發(fā)表于 2015-05-20 13:14 |只看該作者

回復 4# substr函數(shù)

仔細查看xpath返回的結果，發(fā)現(xiàn)在篩選內(nèi)容的時候，有些標簽沒有<a>xx</a> 或者內(nèi)容為空  所以title有時候就返回空
當title空的時候，就拋出異常

最后解決辦法：
把不同xpath表達式放在不同函數(shù)中，然后用列表或者字典仿造一個switch的結構  就可以根據(jù)不同情況進行不同處理

謝謝師兄WL 和二樓大神

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

返回列表

Chinaunix › 論壇 › 程序設計 › Python › 大神救救小白

積分 0, 距離下一級還需積分

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

大神救救小白 [復制鏈接]