python - 關(guān)于NumPy數(shù)組操作的問題
問題描述
[’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]
numpy數(shù)組,總共有幾個(gè)萬個(gè)元素。現(xiàn)在想保留每個(gè)元素前面的編號(hào)000001之類的,并且去掉重復(fù),只保留唯一的一個(gè)編號(hào)。結(jié)果應(yīng)該是[’000001’,’000002’,’000003’,’000004’]除了用for語句實(shí)現(xiàn)外,有沒有更高效的辦法?
問題解答
回答1:寫個(gè)NumPy的吧~
python3
>>> import numpy as np>>> a = np.array([’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’])>>> b = np.unique(np.fromiter(map(lambda x:x.split(’_’)[0],a),’|S6’))>>> barray([b’000001’, b’000002’, b’000003’, b’000004’], dtype=’|S6’)
還可以這樣寫:np.frompyfunc’|S6’是以6個(gè)字節(jié)存儲(chǔ)字符串
’<U6’是以6個(gè)小端序Unicode字符存儲(chǔ)字符串
>>> b = np.array(np.unique(np.frompyfunc(lambda x:x[:6],1,1)(a)),dtype=’<U6’)>>> barray([’000001’, ’000002’, ’000003’, ’000004’], dtype=’<U6’)回答2:
綜合兩位仁兄的寫法@同意并接受 @xiaojieluoff
如果編號(hào)長(zhǎng)度固定是前六位,最快的寫法下面第一種最快
import timelst = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000start = time.time()data = {_[:6] for _ in lst}print ’dic: {}’.format(time.time() - start)start = time.time()data = set(_[:6] for _ in lst)print ’set: {}’.format(time.time() - start)start = time.time()data = set(map(lambda _: _[:6], lst))print(’map:{}’.format(time.time() - start))start = time.time()data = set()[data.add(_[:6]) for _ in lst]print(’for:{}’.format(time.time() - start))耗時(shí):dic: 0.72798705101set: 0.929664850235map:1.89214396477for:1.76194214821回答3:
使用 map 和匿名函數(shù)
lists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’,’000002_2017-03-21.csv’,’000002_2017-03-22.csv’,’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]data = list(set(map(lambda x:x.split(’_’)[0], lists)))print(data)
輸出:
[’000003’, ’000004’, ’000001’, ’000002’]
運(yùn)行下面代碼可以看到 , 在 6百萬 條數(shù)據(jù)下,map 比 for 快了 0.6s 左右
import timelists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000map_start = time.clock()map_data = list(set(map(lambda x:x.split(’_’)[0], lists)))map_end = (time.clock() - map_start)print(’map 運(yùn)行時(shí)間:{}’.format(map_end))for_start = time.clock()data = set()for k in lists: data.add(k.split(’_’)[0])for_end = (time.clock() - for_start)print(’for 運(yùn)行時(shí)間:{}’.format(for_end))
輸出:
map 運(yùn)行時(shí)間:2.36173for 運(yùn)行時(shí)間:2.9405870000000003
如果把測(cè)試數(shù)據(jù)擴(kuò)大到 6千萬, 差距就更明顯了
map 運(yùn)行時(shí)間:29.620203for 運(yùn)行時(shí)間:33.132621
相關(guān)文章:
1. java固定鍵值轉(zhuǎn)換,使用枚舉實(shí)現(xiàn)字典?2. javascript - 移動(dòng)端開發(fā) H5 頁面在 iOS手機(jī)上無法實(shí)現(xiàn) 長(zhǎng)按復(fù)制文本 求解決3. 如何解決tp6在zend中無代碼提示4. java - HTTPS雙向認(rèn)證基礎(chǔ)上有無必要再進(jìn)行加簽驗(yàn)簽?5. python - flask學(xué)習(xí),user_syy添加報(bào)role is invalid keyword for User.6. vim - win10無法打開markdown編輯器7. java - 讀寫鎖中 寫鎖的降級(jí)問題8. javascript - 有沒有類似高鐵管家的時(shí)間選擇插件9. html - 如何使用用戶輸入的數(shù)據(jù)去運(yùn)行一個(gè)數(shù)學(xué)公式,最后怎么返回。10. css - BEM 中塊(Block)有木有什么標(biāo)準(zhǔn) 何時(shí)決定一個(gè)部分提取為塊而不是其父級(jí)的元素呢(Element)?~
