亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 4318 | 回復(fù): 0
打印 上一主題 下一主題

Python學(xué)習(xí)筆記-XML大文件的XSD驗(yàn)證方法 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2008-09-28 13:45 |只看該作者 |倒序?yàn)g覽
先說說需求,因?yàn)楹涂蛻艉献鳎瑢Ψ揭蟀匆?guī)定的XML格式(通過XML Schema)來提供數(shù)據(jù)。本身XML驗(yàn)證沒什么問題的,但是當(dāng)XML的文件很大時(shí),我們現(xiàn)在是100M左右。你如何去確認(rèn)生成的XML是否符合XSD文件的定義呢。用人眼睛去看,這可是幾十萬條數(shù)據(jù),肯定只能通過XML自身的驗(yàn)證機(jī)制來處理了。
XML的格式驗(yàn)證方法就這幾個(gè),如果你的文件只有幾M,這個(gè)可以通過XMLSPY、XMLPAD,這些工具都可以驗(yàn)證。但這個(gè)100M的文件,這些工具都沒辦法打開。
對方公司是linux的,linux有xmllint --schema *.xsd *.xml > /dev/null 可以用來驗(yàn)證。郁悶的是我用Windows,沒辦法就只能自己寫代碼了。

發(fā)現(xiàn)Python2.5沒有庫支持XML Schema。只能找第三方的,最后找到的就是這個(gè)lxml(辛苦的,花了兩天時(shí)間折騰這個(gè),最好看個(gè)例子,寫起來很快)
1:下載地址http://codespeak.net/lxml/
2:直接提供驗(yàn)代碼:
#!/usr/bin/env python
#coding=gb2312
from lxml import etree
import timeit

def CheckXML():
    xmlschema_doc = etree.parse("local_feed.xsd.xml")
    xmlschema = etree.XMLSchema(xmlschema_doc)
    doc = etree.parse("google-local0.xml")
    print xmlschema.validate(doc)
    print >> open("log.txt","w"), xmlschema.error_log

if __name__ =='__main__':
    print 'start...'
    t = timeit.Timer('CheckXML()','from __main__ import CheckXML')
    print t.repeat(1,1)
    print 'end. any key exit...'
    input()

Tips:
1:timeit 傳說中的Python自備電池。但覺得有些不是很好用,下次再具體說一下。
2:print >> 輸出重定向。很方便直接將錯(cuò)誤保存成文件
3:還有就是lxml的這個(gè)Module的使用啦。這個(gè)module貌似比較強(qiáng)大。python官方的下載也是最高的,以后再進(jìn)一步學(xué)習(xí)吧。
4:用C#也寫了一個(gè)同樣的,發(fā)現(xiàn)C#大概不到60s,但lxml的方式要133s,liunx沒具體統(tǒng)計(jì),但也慢的。這里只是說一下實(shí)際情況,不討論原因。
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP