亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 2129 | 回復(fù): 2
打印 上一主題 下一主題

請教中文斷字問題 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2008-08-23 11:03 |只看該作者 |倒序?yàn)g覽
要求在一個(gè)包含漢字的文本文件中搜索一串字符,如果搜索成功,返回該字符串前后一定區(qū)域內(nèi)的文本內(nèi)容。

假設(shè)有文件 foo.utf8
內(nèi)容為: 中華人民abc共和國
搜索關(guān)鍵字為: abc
返回區(qū)域的最大長度為: 11,(即10個(gè)英文字符或5個(gè)漢字)

            p
              |
內(nèi)容 - 中  華  人  民 a b c  共 和 國
位置 - 12 34 56 78 9 a b cd ef gh

當(dāng)我加載了 foo.utf8 后,用 strstr 定位到 p 處,然后準(zhǔn)備返回搜索結(jié)果(應(yīng)該是"人民abc共",長度9),

問題是當(dāng)我移動 p 指針時(shí),有可能會移動到位置6處,這樣一來返回結(jié)果就是亂碼;

而且即使我再往前移動到5處,偶爾還是會有問題(因?yàn)槲疫要把 utf8 的搜索結(jié)果,再轉(zhuǎn)到 GB2312)

請問 C++ 中有沒有像 PHP 語言中 mb_* 開頭的函數(shù),可以自動判斷漢字并準(zhǔn)確定位到起始位置?

歡迎任何意見,謝謝

[ 本帖最后由 s5unty 于 2008-8-23 11:05 編輯 ]

論壇徽章:
4
2015年辭舊歲徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-08-11 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2016-08-15 06:20:00
2 [報(bào)告]
發(fā)表于 2008-08-23 11:30 |只看該作者

回復(fù) #1 s5unty 的帖子

一個(gè)漢字如此采用UTF-8編碼為3字節(jié),GB編碼為2字節(jié)
如果采用GB編碼,搜索時(shí)可能會出現(xiàn)錯(cuò)位的情況,即從漢字的低字節(jié)開始匹配成功。
建議采用UTF-8字符集,這樣不會出現(xiàn)錯(cuò)位現(xiàn)象。
C/C++中字符集轉(zhuǎn)換可以使用iconv。

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2008-08-23 12:17 |只看該作者
wchar_t out[4] = L"ab";
printf("%ls\n", out);
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP