亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
12下一頁(yè)
最近訪問(wèn)板塊 發(fā)新帖
查看: 4024 | 回復(fù): 16
打印 上一主題 下一主題

[文本處理] 文本按照多列分組 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2016-06-03 18:54 |只看該作者 |倒序?yàn)g覽
本帖最后由 tainche 于 2016-06-03 18:55 編輯

求教各位大神,文件的每一列表示一個(gè)性質(zhì),我想按照多列將下面的文件分成兩部分

CID60 -1 1 -1 -1 -1 1
CID615 1 1 1 -1 1 1
CID1017 1 -1 -1 -1 -1 -1
CID1064 1 -1 -1 -1 -1 -1
CID1103 -1 1 -1 -1 -1 -1
CID1189 1 -1 -1 1 -1 1

第1列是CID名字,第2到7列是6種性質(zhì),我想根據(jù)2到6列按照4:1將CID分成兩個(gè)文件,比如說(shuō)第二列有5個(gè)1,第三列有5個(gè)-1,在第一個(gè)文件里第二列有4個(gè)1,第三列有4個(gè)-1,第二個(gè)文件里第二列有1個(gè)1,,第三列有1個(gè)-1.
總之,是按照多列性質(zhì)將上述文件按照4:1分成兩個(gè)。
新手,不會(huì)啊,求教各位大神。

論壇徽章:
307
程序設(shè)計(jì)版塊每周發(fā)帖之星
日期:2016-04-08 00:41:33操作系統(tǒng)版塊每日發(fā)帖之星
日期:2015-09-02 06:20:00每日論壇發(fā)貼之星
日期:2015-09-02 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-04 06:20:00每日論壇發(fā)貼之星
日期:2015-09-04 06:20:00每周論壇發(fā)貼之星
日期:2015-09-06 22:22:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-09 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-19 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-20 06:20:00每日論壇發(fā)貼之星
日期:2015-09-20 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-22 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-24 06:20:00
2 [報(bào)告]
發(fā)表于 2016-06-03 19:32 |只看該作者
本帖最后由 sunzhiguolu 于 2016-06-03 19:37 編輯

回復(fù) 1# tainche
第1列是CID名字,第2到7列是6種性質(zhì),我想根據(jù)2到6列按照4:1將CID分成兩個(gè)文件,比如說(shuō)第二列有5個(gè)1,第三列有5個(gè)-1

你這個(gè)文件里, 并不想你描述的那樣啊, 沒(méi)看明白, 麻煩解釋下, 謝謝...
另外, 這個(gè)文本中有多少條記錄, 結(jié)果允許記錄之間重疊嗎.
   

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2016-06-03 19:53 |只看該作者
本帖最后由 tainche 于 2016-06-03 20:05 編輯

回復(fù) 2# sunzhiguolu


不好意思,原來(lái)為了說(shuō)明就將文本轉(zhuǎn)換了一下,結(jié)果沒(méi)想到反而說(shuō)明不了。我現(xiàn)在黏貼的時(shí)候原始文本,我的目的是想將這個(gè)文本按照多列性質(zhì)分成兩類。
比如說(shuō)文本是:
CID00000055        1        2        6                       
CID00000058        1        2        6                       
CID00000060        2        3                               
CID00000061        1        2                               
CID00000062        4        6                               
CID00000063        1        6                               
CID00000064        5                                       
CID00000065        2                                       

CID是化合物名字。這個(gè)文本當(dāng)中一共有六種性質(zhì),1,2,3,4,5,6。每個(gè)化合物可能不只有一種性質(zhì)。其中我想按照4:1將這些化合物分成訓(xùn)練集和測(cè)試集,其中測(cè)試集中每種性質(zhì)所占的比例接近中相應(yīng)種類的化合物比例。
比如說(shuō)訓(xùn)練集中有性質(zhì)1的化合物有8個(gè),性質(zhì)2的化合物有16個(gè)。
那么在測(cè)試集里有性質(zhì)1的化合物有2個(gè),性質(zhì)2的化合物有4個(gè)。
這樣把化合物按照多種性質(zhì)均分到訓(xùn)練集和測(cè)試集中。因?yàn)橛械幕衔锊恢挥幸环N性質(zhì),所以我就不會(huì)處理了。

不知道我這樣表述是不是能清楚一些?多謝大神了。

另外,這個(gè)記錄大概有120000多條,性質(zhì)會(huì)有重疊,但是化合物的名字不會(huì)重疊。

論壇徽章:
307
程序設(shè)計(jì)版塊每周發(fā)帖之星
日期:2016-04-08 00:41:33操作系統(tǒng)版塊每日發(fā)帖之星
日期:2015-09-02 06:20:00每日論壇發(fā)貼之星
日期:2015-09-02 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-04 06:20:00每日論壇發(fā)貼之星
日期:2015-09-04 06:20:00每周論壇發(fā)貼之星
日期:2015-09-06 22:22:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-09 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-19 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-20 06:20:00每日論壇發(fā)貼之星
日期:2015-09-20 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-22 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-24 06:20:00
4 [報(bào)告]
發(fā)表于 2016-06-03 20:06 |只看該作者
回復(fù) 3# tainche
我不是大神. 另外, 經(jīng)過(guò)你這么一弄我更糊涂了.
我的水平有限, 只能為您頂帖了. 等大神出手...

   

論壇徽章:
0
5 [報(bào)告]
發(fā)表于 2016-06-03 20:13 |只看該作者
回復(fù) 4# sunzhiguolu


多謝您了,大概是我語(yǔ)言表述的問(wèn)題,我這樣說(shuō)不知道您能不能理解。
我有一個(gè)文本,有多條記錄。每條記錄有不同的性質(zhì),我分別標(biāo)記為1,2,3,4,5,6。有就標(biāo)記沒(méi)有就不標(biāo)記。然后我想把這個(gè)文本分成兩部分。這兩個(gè)部分中六種性質(zhì)的比例都是4:1.   

論壇徽章:
0
6 [報(bào)告]
發(fā)表于 2016-06-04 07:12 來(lái)自手機(jī) |只看該作者
tainche 發(fā)表于 2016-06-03 20:13:12
回復(fù) 4# sunzhiguol

不是太清楚你想做的。你可以先用grep或awk統(tǒng)計(jì)一下含有1 2 3 4 5 6的乃至各種組合的各有多少行。然后從最少的開(kāi)始,比如有6的一共有10行,有1的有1000行,就先移2行含6的到另外一組,再看看該組中含1的還差多少行,差多少就移多少。感覺(jué)需要比較多的判斷

論壇徽章:
0
7 [報(bào)告]
發(fā)表于 2016-06-04 14:15 |只看該作者
回復(fù) 6# wjemail


多謝幫忙,一直沒(méi)有思路,你這樣一說(shuō)我貌似有點(diǎn)頭緒了。不過(guò)我重新說(shuō)一下我的問(wèn)題,呵呵。
我的問(wèn)題是
CID00000055        1        2        6                        
CID00000058        1        2        6                        
CID00000060        2        3                                
CID00000061        1        2                                
CID00000062        4        6                                
CID00000063        1        6                                
CID00000064        5                                       
CID00000065        2      

對(duì)于這樣一個(gè)文本,有六個(gè)性質(zhì)1,2,3,4,5,6,每條記錄可能有多個(gè)性質(zhì),比如說(shuō)第一條記錄就有1,2,6三個(gè)性質(zhì)。我想根據(jù)記錄里的性質(zhì)把這些記錄分成兩部分,第一部分的記錄是第二部分記錄的4倍。而且保證在每個(gè)性質(zhì)在第一部分和第二部分里的比例也是4:1

論壇徽章:
307
程序設(shè)計(jì)版塊每周發(fā)帖之星
日期:2016-04-08 00:41:33操作系統(tǒng)版塊每日發(fā)帖之星
日期:2015-09-02 06:20:00每日論壇發(fā)貼之星
日期:2015-09-02 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-04 06:20:00每日論壇發(fā)貼之星
日期:2015-09-04 06:20:00每周論壇發(fā)貼之星
日期:2015-09-06 22:22:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-09 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-19 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-20 06:20:00每日論壇發(fā)貼之星
日期:2015-09-20 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-22 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2015-09-24 06:20:00
8 [報(bào)告]
發(fā)表于 2016-06-04 23:31 |只看該作者
回復(fù) 7# tainche
幫頂一下,

   

論壇徽章:
2
luobin
日期:2016-06-17 17:46:36lufei
日期:2016-06-17 17:49:16
9 [報(bào)告]
發(fā)表于 2016-06-06 14:48 |只看該作者
你這要求這么復(fù)雜,不一定能全部符合要求啊,可能滿足了性質(zhì)1  4:1 但是性質(zhì)2 性質(zhì)3 可能就滿足不了了。 除非你是每種性質(zhì)分組一次,否則我覺(jué)得 做不到4:1  

論壇徽章:
10
15-16賽季CBA聯(lián)賽之同曦
日期:2016-06-11 19:22:4115-16賽季CBA聯(lián)賽之深圳
日期:2020-05-31 16:13:5615-16賽季CBA聯(lián)賽之同曦
日期:2020-01-28 12:42:47每日論壇發(fā)貼之星
日期:2016-08-09 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-08-09 06:20:00每日論壇發(fā)貼之星
日期:2016-07-12 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-07-12 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-07-06 06:20:00程序設(shè)計(jì)版塊每日發(fā)帖之星
日期:2016-07-04 06:20:0015-16賽季CBA聯(lián)賽之佛山
日期:2021-02-26 09:33:41
10 [報(bào)告]
發(fā)表于 2016-06-06 17:36 |只看該作者
如果要寫(xiě)出來(lái)感覺(jué)會(huì)很復(fù)雜、我有一個(gè)思路就是首先利用這個(gè)
~/pwb/tmp# cat s|awk '{print NF}'|sort|uniq -c
      1 2
     12 3
     10 4
      2 5
      1 7
統(tǒng)計(jì)出性質(zhì)有幾個(gè)是最多的、比如擁有三個(gè)性質(zhì)的是12個(gè)、擁有4個(gè)性質(zhì)的是10個(gè)、
如果樣本足夠大、假設(shè)性質(zhì)就是完全的分布、那么直接從最多的那幾個(gè)取就可以、
一般來(lái)說(shuō)中間位就是最多的、然后要取1/5的數(shù)據(jù)、按照分布來(lái)從最多的里面按照比例來(lái)取吧
占個(gè)樓、坐等結(jié)果
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過(guò)ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP