- 論壇徽章:
- 0
|
小白今天使用scrapy寫的一個簡單爬蟲 發(fā)現(xiàn)返回的unicode字符串處理出現(xiàn)問題
//例子中沒有編寫item
//spider文件為
import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = ["dmoz.org/Computers/Programming/Languages/Python/Books/"]
def parse(self, response):
for sel in response.xpath('//ul/li'):
title = sel.xpath('a/text()').extract()
print title
結果為:
[u'Top']
[u'Computers']
[u'Programming']
[u'Languages']
[u'Python']
...
說明
title 是一個包含一個unicode字符串的列表
問題在后面: 為了提出出字符串,而不是一個列表,我用以下兩個方法:
1. 最后一句改為 print title[0]
結果提示錯誤:
print title[0]
exceptions.IndexError: list index out of range
2. 使用一個for循環(huán)
for a in title:
print a
就可以 結果為:
Top
Computers
Programming
Languages
Python
....
請大神給小白解答 ,謝謝!
|
|