- 論壇徽章:
- 0
|
先說說需求,因?yàn)楹涂蛻艉献鳎瑢Ψ揭蟀匆?guī)定的XML格式(通過XML Schema)來提供數(shù)據(jù)。本身XML驗(yàn)證沒什么問題的,但是當(dāng)XML的文件很大時(shí),我們現(xiàn)在是100M左右。你如何去確認(rèn)生成的XML是否符合XSD文件的定義呢。用人眼睛去看,這可是幾十萬條數(shù)據(jù),肯定只能通過XML自身的驗(yàn)證機(jī)制來處理了。
XML的格式驗(yàn)證方法就這幾個(gè),如果你的文件只有幾M,這個(gè)可以通過XMLSPY、XMLPAD,這些工具都可以驗(yàn)證。但這個(gè)100M的文件,這些工具都沒辦法打開。
對方公司是linux的,linux有xmllint --schema *.xsd *.xml > /dev/null 可以用來驗(yàn)證。郁悶的是我用Windows,沒辦法就只能自己寫代碼了。
發(fā)現(xiàn)Python2.5沒有庫支持XML Schema。只能找第三方的,最后找到的就是這個(gè)lxml(辛苦的,花了兩天時(shí)間折騰這個(gè),最好看個(gè)例子,寫起來很快)
1:下載地址http://codespeak.net/lxml/
2:直接提供驗(yàn)代碼:
#!/usr/bin/env python
#coding=gb2312
from lxml import etree
import timeit
def CheckXML():
xmlschema_doc = etree.parse("local_feed.xsd.xml")
xmlschema = etree.XMLSchema(xmlschema_doc)
doc = etree.parse("google-local0.xml")
print xmlschema.validate(doc)
print >> open("log.txt","w"), xmlschema.error_log
if __name__ =='__main__':
print 'start...'
t = timeit.Timer('CheckXML()','from __main__ import CheckXML')
print t.repeat(1,1)
print 'end. any key exit...'
input()
Tips:
1:timeit 傳說中的Python自備電池。但覺得有些不是很好用,下次再具體說一下。
2:print >> 輸出重定向。很方便直接將錯(cuò)誤保存成文件
3:還有就是lxml的這個(gè)Module的使用啦。這個(gè)module貌似比較強(qiáng)大。python官方的下載也是最高的,以后再進(jìn)一步學(xué)習(xí)吧。
4:用C#也寫了一個(gè)同樣的,發(fā)現(xiàn)C#大概不到60s,但lxml的方式要133s,liunx沒具體統(tǒng)計(jì),但也慢的。這里只是說一下實(shí)際情況,不討論原因。 |
|