亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
12下一頁
最近訪問板塊 發(fā)新帖
查看: 4065 | 回復(fù): 11
打印 上一主題 下一主題

[文本處理] 求句子各單詞的字符串長度 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2014-06-21 11:12 |只看該作者 |倒序瀏覽
比如“ In statistics, a power lar is a functional relationship between two quantities, where one quantity varies as a power of another" 這句話中,按順序得到的單詞的字母數(shù)序列是“ 2 10 1 5 3 2 1 10 12 7 3 10 5 3 8 5 3 8 6 2 1 5 2 7.  
將文件中的每一句話做一次這樣的分析后,得到一長串的字?jǐn)?shù)(x1,x2, x3, ... xn), 每一個數(shù)字代表一個單詞的字母數(shù)(n 為文件中單詞數(shù)),然后求平均值。

論壇徽章:
0
2 [報告]
發(fā)表于 2014-06-21 11:33 |只看該作者
  1. awk '{for(i=1;i<=NF;i++){printf("%s ",length($i));sum+=length($i);};print sum/NF;sum=0 }' filename
復(fù)制代碼

論壇徽章:
39
辰龍
日期:2013-08-21 15:45:192015亞冠之廣州富力
日期:2015-05-12 16:34:52亥豬
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17雙魚座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亞冠之卡爾希納薩夫
日期:2015-05-24 15:24:35黃金圣斗士
日期:2015-12-02 17:25:0815-16賽季CBA聯(lián)賽之吉林
日期:2017-06-24 16:43:52
3 [報告]
發(fā)表于 2014-06-21 11:41 來自手機 |只看該作者
о:

  1. awk -F '[, ]+' '{for(i=0;++i<NF;){a=a" "length($i);n+=length($i)}print a,n/NR;a=n=b}' urfile
復(fù)制代碼

論壇徽章:
0
4 [報告]
發(fā)表于 2014-06-21 11:44 |只看該作者
大俠,我還想知道的是在SHELL腳本中怎么將純文本提取出來然后利用這里的AWK,純新手求解惑。回復(fù) 2# zerostudy


   

論壇徽章:
39
辰龍
日期:2013-08-21 15:45:192015亞冠之廣州富力
日期:2015-05-12 16:34:52亥豬
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17雙魚座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亞冠之卡爾希納薩夫
日期:2015-05-24 15:24:35黃金圣斗士
日期:2015-12-02 17:25:0815-16賽季CBA聯(lián)賽之吉林
日期:2017-06-24 16:43:52
5 [報告]
發(fā)表于 2014-06-21 11:49 |只看該作者
回復(fù) 4# wpd0508


    寫文件或直接用管道傳過來:

urshell >file && awk xxoo file
urshell |awk xxoo

論壇徽章:
0
6 [報告]
發(fā)表于 2014-06-21 12:11 |只看該作者
  大俠,你能幫我處理一下這整個題目嗎,對我感覺有很大的難度,謝謝了。
  對一個純文本,其中的每一句話,你首先需要按順序地得到這句話中每一個單詞的字母數(shù),比如“ In statistics, a power lar is a functional relationship between two quantities, where one quantity varies as a power of another" 這句話中,按順序得到的單詞的字母數(shù)序列是“ 2 10 1 5 3 2 1 10 12 7 3 10 5 3 8 5 3 8 6 2 1 5 2 7.
      這文件中的每一句話做一次這樣的分析后,你會得到一長串的字?jǐn)?shù)(x1,x2, x3, ... xn), 每一個數(shù)字代表一個單詞的字母數(shù)(n 為文件中單詞數(shù))。接下去對這串字?jǐn)?shù)進行進行求平均,得到  xbar.  將原來的數(shù)組與xbar做差,得以 ( X1, X2, X3,X4,X5 .... Xn),  其中Xi=xi-xbar.然后對數(shù)組[ Xi ] 做累加 得到 [ Y1, Y2, Y3,  ... Yn],  其中 Y1=X1, Y2=X1+X2, Y3=X1+X2+X3, ..., Yi = X1+X2+ ... + Xi.
  對以上得到的數(shù)組 [ Yi ]  以L個為單元進行分組, 即第一組為 [  Y1 Y2 Y3 ... YL].    對這L個數(shù)字進行最小二乘法擬合,得 Y=a1 x + a0, (這里的x為數(shù)組對應(yīng)的下標(biāo)數(shù),即1~ L).
計算偏差量  E = sqrt( sum (Yi - (a1*xi +a0) )^2對其他單元進行一樣的的計算,得到不同的不同的E_L_i。該尺度L下,統(tǒng)計的波動量 E_bar_L = mean( E_L_i)  用不同的L重復(fù)以上計算,得到相應(yīng)的E_bar_L值。  

論壇徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉雞
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥豬
日期:2014-04-22 16:13:09獅子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53處女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
7 [報告]
發(fā)表于 2014-06-21 12:46 |只看該作者
回復(fù) 6# wpd0508
統(tǒng)計、偏差、擬合。。。
Shell壓力很大呀。。。

論壇徽章:
0
8 [報告]
發(fā)表于 2014-06-21 12:52 |只看該作者
如果只是第一步怎么完美實現(xiàn)呢回復(fù) 7# Herowinter


   

論壇徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉雞
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥豬
日期:2014-04-22 16:13:09獅子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53處女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
9 [報告]
發(fā)表于 2014-06-21 13:08 |只看該作者
回復(fù) 8# wpd0508
這個嗎?應(yīng)該可以做的,求個平均數(shù)再累加而已,
應(yīng)該會有大神幫你做的。
  1. 這文件中的每一句話做一次這樣的分析后,你會得到一長串的字?jǐn)?shù)(x1,x2, x3, ... xn), 每一個數(shù)字代表一個單詞的字母數(shù)(n 為文件中單詞數(shù))。接下去對這串字?jǐn)?shù)進行進行求平均,得到  xbar.  將原來的數(shù)組與xbar做差,得以 ( X1, X2, X3,X4,X5 .... Xn),  其中Xi=xi-xbar.然后對數(shù)組[ Xi ] 做累加 得到 [ Y1, Y2, Y3,  ... Yn],  其中 Y1=X1, Y2=X1+X2, Y3=X1+X2+X3, ..., Yi = X1+X2+ ... + Xi.
復(fù)制代碼

論壇徽章:
8
雙子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12處女座
日期:2013-09-23 11:43:14處女座
日期:2013-10-09 19:48:21獅子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13雙魚座
日期:2014-06-13 21:52:31
10 [報告]
發(fā)表于 2014-06-21 16:35 |只看該作者
  1. $ cat t.sh
  2. #!/bin/bash

  3. while read -a w;do
  4.         for i in ${w[*]};do
  5.                 s=${i//[ , .]/}
  6.                 echo -n "${#s} "
  7.         done
  8. echo
  9. done
  10. $ cat 2
  11. In stat,istics, a power lar is a functional. relationship between two quantities, where one quantity varies as a power of another
  12. In stat,istics, a power lar is a functional. relationship between two quantities, where one quantity varies as a power of another
  13. In stat,istics, a power lar is a functional. relationship between two quantities, where one quantity varies as a power of another
  14. $ ./t.sh < 2
  15. 2 10 1 5 3 2 1 10 12 7 3 10 5 3 8 6 2 1 5 2 7
  16. 2 10 1 5 3 2 1 10 12 7 3 10 5 3 8 6 2 1 5 2 7
  17. 2 10 1 5 3 2 1 10 12 7 3 10 5 3 8 6 2 1 5 2 7
  18. $
復(fù)制代碼
回復(fù) 1# wpd0508


   
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP