愛鋒貝
標(biāo)題:
攝像頭是手機(jī)上最寶藏的一個(gè)模塊嗎?
[打印本頁(yè)]
作者:
果殼醬
時(shí)間:
2023-2-17 13:19
標(biāo)題:
攝像頭是手機(jī)上最寶藏的一個(gè)模塊嗎?
攝像頭是手機(jī)上最寶藏的一個(gè)模塊嗎?
-----------------------------
作者:
love戀貓人
時(shí)間:
2023-2-17 15:08
先說(shuō)結(jié)論:
1、四舍五入,可以這么說(shuō)。
2、當(dāng)然,手機(jī)的 CPU 和屏幕代表了人類的頂尖制程工藝,手機(jī)里的AI芯片代表了人工智能的藍(lán)海。但要論想象空間,攝像頭確實(shí)是個(gè)劍走偏鋒的好答案。
3、就拿手機(jī)來(lái)說(shuō),攝像頭是連接虛擬世界和現(xiàn)實(shí)世界的橋梁。無(wú)論是 AR(增強(qiáng)現(xiàn)實(shí))還是 XR(混合現(xiàn)實(shí)),兩個(gè)世界的信息都只能通過(guò)攝像頭來(lái)傳遞。比如很多手機(jī)正在添加了用攝像頭為物理世界在虛擬空間里建模的功能。
4、當(dāng)然不是說(shuō)最近一兩年手機(jī)攝像頭相關(guān)的應(yīng)用就一定會(huì)迎來(lái)爆發(fā),但是,各行各業(yè)的牛人卻正在這個(gè)方向積極探索。畢竟機(jī)會(huì)只會(huì)留給有準(zhǔn)備的人嘛!
不久前,我剛剛和淘寶還有夸克的技術(shù)大牛們聊過(guò)這個(gè)問(wèn)題,他們給我描繪的未來(lái)還是挺有趣的,我貼在這里,希望對(duì)你了解這個(gè)有些縹緲但激動(dòng)人心的未來(lái)有幫助呀~
像素時(shí)代的黃昏和“淘寶叛軍”
文|史中
如果我們的后代站在未來(lái)回望,很可能會(huì)把60后、70后、80后、90后、00后、10后,都?xì)w為“同一代人”,這個(gè)時(shí)代就叫“像素時(shí)代”。
而從“20后”開始,新一代人出現(xiàn)了,他們的時(shí)代叫作“體素時(shí)代”。
此時(shí)此刻,我們也許正站在歷史的轉(zhuǎn)折點(diǎn)上,少數(shù)人歡欣鼓舞,而多數(shù)人懵然無(wú)知。
我厚顏無(wú)恥地希望,這篇文章也許能成為大家理解未來(lái)的一個(gè)小小扳手。
(一)像素時(shí)代的“黃昏”
用輕松的方式開場(chǎng)吧,來(lái)回顧一下俺們的共同回憶。
比如,我們一起經(jīng)歷過(guò)戰(zhàn)爭(zhēng)與和平。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
體驗(yàn)過(guò)愛與死。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
見證了榮耀與夢(mèng)想。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
也品嘗過(guò)柴米油鹽、江湖恩怨。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
但是,你有沒(méi)有發(fā)現(xiàn)一個(gè)問(wèn)題——無(wú)論如何努力回想,這些經(jīng)典的畫面都只能以
“平面”
的方式在我們腦海里放映:
魂斗羅、坦克大戰(zhàn)當(dāng)然本身就是平面游戲;
《大話西游》、“奧運(yùn)開幕”也是同樣,我們只能站在攝影師的角度去還原當(dāng)時(shí)的場(chǎng)景,至于鏡頭里恰好背對(duì)我們的人,當(dāng)時(shí)他們有怎樣的表情、狀態(tài),將成為一個(gè)謎,重溫者永遠(yuǎn)不得而知。
網(wǎng)頁(yè)就更是平面的了,一般人根本不會(huì)提出“網(wǎng)頁(yè)的背面長(zhǎng)什么樣”這種蛇精病問(wèn)題——它就沒(méi)有背面。
平面信息是如此深刻地滲入我們的生活,以至于萬(wàn)物都離不開一個(gè)關(guān)鍵詞:“像素”。
屏幕要看像素,攝像頭要看像素,照片、視頻都要看像素。仔細(xì)想想,世界上沒(méi)有任何一個(gè)專業(yè)技術(shù)詞匯能像“像素”這樣被普通大眾所理解,普及到一個(gè)農(nóng)村阿姨也能脫口而出。
看到這兒,你也許有點(diǎn)摸不著頭腦——像素有啥不好?我從小喝到大,生活中一切需求都能滿足啊。。。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
你看,有人把電影的演職員表展開,就是一大
張
圖片。
這里按下暫停鍵,我必須強(qiáng)行問(wèn)你一句:真的是這樣么?
如果把“像素”換成“體素”呢?
1、防止有淺友不知道,我先解釋一下什么是“體素”。
其實(shí)很容易理解:在平面空間組成信息的元素叫像素,在立體空間里組成信息的元素就叫體素。(一個(gè)像素包含xy兩個(gè)參數(shù),而一個(gè)體素包含xyz三個(gè)參數(shù)。)
比如:《仙劍奇?zhèn)b傳》里李逍遙就是用“像素”拼成的,而在《我的世界》里,主角史蒂夫就是由體素組成的。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
2、再解釋一下什么是“體素時(shí)代”。
當(dāng)日常生活中的大多數(shù)信息都以體素來(lái)“標(biāo)記”和“傳遞”的時(shí)候,我們就四舍五入邁進(jìn)了體素時(shí)代。
舉個(gè)簡(jiǎn)單的例子:
你拼了一個(gè)很好看的汽車模型,想跟朋友顯擺一下。
今天的操作是,你選一個(gè)(或幾個(gè))角度拍
“照片”
發(fā)到朋友圈,大家可以放大、縮小,隨便看;
但未來(lái)很可能是,你用手機(jī)環(huán)繞模型拍一圈,它就會(huì)在三維世界自動(dòng)生成一個(gè)立體的模型,你把這個(gè)
“影像”
發(fā)到朋友圈,大家就可以隨意
轉(zhuǎn)動(dòng)
,相當(dāng)于從無(wú)數(shù)個(gè)角度無(wú)死角欣賞你的作品。
當(dāng)然,你有沒(méi)有勇氣讓別人無(wú)死角欣賞自己的作品是另一個(gè)問(wèn)題,但這里我想說(shuō)明的是:
“體素時(shí)代”能夠傳遞的信息,比“像素時(shí)代”要完整和豐富得多。
就像這樣↓↓↓
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
你還記得《三體》的結(jié)尾有一個(gè)經(jīng)典情節(jié)不?
太陽(yáng)系被未知文明的二向箔從3D狀態(tài)“拍”成2D狀態(tài)?!俺绦穆眯袌F(tuán)”一行在冥王星上目睹了地球“躺平”的全過(guò)程。
文中描述,三維世界的地球內(nèi)部有豐富的結(jié)構(gòu),在不損失信息的情況下變成二維的,面積就會(huì)變得巨大,像一張宇宙烙餅。
難以想象么?沒(méi)關(guān)系,在B站上有同學(xué)(@Ele實(shí)驗(yàn)室)用數(shù)學(xué)方法模擬了這個(gè)過(guò)程,就如下圖:
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
(鏈接附后,感興趣淺友可以移步看完整版)
地球的故事告訴我們,如果“體素時(shí)代”的信息量是“弱水三千”,像素時(shí)代就只是“取了一瓢飲”。那,有沒(méi)有一種可能:踏進(jìn)體素時(shí)代,就像一個(gè)人住過(guò)別墅花園,再也回不去鴿籠蝸居?
體素時(shí)代早有征兆:
比如,《黑客帝國(guó)》開創(chuàng)的“子彈時(shí)間”和《阿凡達(dá)》開創(chuàng)的“3D 電影”;比如,以《絕地求生》《堡壘之夜》為代表的第一人稱游戲;
比如,Oculus VR 眼鏡、正在趕來(lái)的蘋果 AR 眼鏡和各路牛鬼蛇神的元宇宙雛形。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
Meta 的“VR 社交平臺(tái)”Horizon Worlds
這些嘗試的意義在于,它們?yōu)槭澜绶e累了“3D建模系統(tǒng)”、“虛擬渲染引擎”、“頭顯硬件”等諸多技術(shù)。這些技術(shù),可以看做是涓滴細(xì)水,而它們終究會(huì)匯在一起,成為“時(shí)代的泥石流”。
現(xiàn)在,泥石流近在眼前。
最先進(jìn)入體素時(shí)代的將會(huì)是我們生活的哪個(gè)部分呢?
我盲猜有三個(gè):電商、社交、搜索。
這三個(gè)領(lǐng)域,熟不熟悉?夢(mèng)回2000年,互聯(lián)網(wǎng)的流金歲月,我們的生活不恰恰也是從這三個(gè)領(lǐng)域開始變革的嗎?
如果,我們20年前經(jīng)歷的那一波以“像素”為代表的的科技浪潮,在今天以同樣摧枯拉朽的姿勢(shì)重新席卷一遍——我們也許將看到體素時(shí)代的淘寶、微信和百度。
這不是在憑空想象,端倪已經(jīng)出現(xiàn)。
就在前兩天,我和淘寶的幾個(gè)前沿技術(shù)團(tuán)隊(duì)聊了聊。在他們眼里,體素時(shí)代正如黎明一般迫近。而這群技術(shù)理想主義者,趁其他人還沒(méi)睡醒,就已經(jīng)背上行囊向星辰大海進(jìn)發(fā)了。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
(二)前輩們留下的“兩把鑰匙”
說(shuō)實(shí)話,現(xiàn)在為“體素時(shí)代”擂鼓助威,我心里也有點(diǎn)發(fā)虛。
為啥呢?因?yàn)闅v史上,這個(gè)時(shí)代四舍五入已經(jīng)“來(lái)”過(guò)一次,而且又走了。。。
那是遙遠(yuǎn)的2016年,還沒(méi)有國(guó)際形勢(shì)的劍拔弩張,只有人們對(duì)愛與科技的幻想。
那一年,谷歌地球的創(chuàng)始人,整天幻想怪物出沒(méi)的老男孩漢克搞出了《PokémonGo》(寶可夢(mèng)Go),人們拿著手機(jī)對(duì)準(zhǔn)無(wú)趣的草叢和平常巷陌,就能發(fā)現(xiàn)寵物小精靈隱藏其中,一個(gè)精靈球甩過(guò)去,捕獲神獸,爽點(diǎn)爆棚。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
《PokémonGo》和漢克
VR/AR 的熱潮就這么出現(xiàn)了。
彼時(shí)尚未嗅到命運(yùn)血腥的暴風(fēng)影音信心滿懷推出 VR 眼鏡;光線傳媒、愛奇藝這樣的頂級(jí)內(nèi)容制作商也開始重金制作 VR 影片;明星初創(chuàng)公司 MagicLeap 在網(wǎng)上強(qiáng)推了一個(gè)短片——籃球場(chǎng)的木地板上,一只鯨魚騰空躍起,收獲四座尖叫。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
當(dāng)時(shí)的淘寶也深受鼓舞,在2016年的“淘寶造物節(jié)”上推出了VR購(gòu)物模塊——“Buy+”。人們不用買VR眼鏡,也能在手機(jī)屏幕上體驗(yàn)到“3D購(gòu)物”的樂(lè)趣。
現(xiàn)在說(shuō)起“Buy+”,其實(shí)很多人都不太記得。
這是因?yàn)椋珺uy+本身就是實(shí)驗(yàn)性的。雖然大家第一感覺(jué)很驚艷,但在那個(gè)技術(shù)尚不成熟的世界里,要把“腦袋”轉(zhuǎn)到對(duì)準(zhǔn)地上的箭頭才能走路,可以說(shuō)“舉步維艱”;好不容易走到貨架前,商品種類也是有限的,還不能享受和店家講價(jià)的快感。體驗(yàn)并不完善。
所以,嘗鮮之后,大多數(shù)人也就淡忘了。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
但從歷史的角度看,Buy+ 意義重大。
因?yàn)樗C明了“體素時(shí)代”雖好,但沒(méi)辦法跑步進(jìn)入。而且,它還用自己的經(jīng)驗(yàn)教訓(xùn)給后人留下了進(jìn)入體素時(shí)代的“兩把鑰匙”:
第一把鑰匙:人人都得用得起;
這里的人人包括兩個(gè),賣家和買家。
當(dāng)時(shí)為一套洗發(fā)水3D建模所花的錢,恨不得能買半車洗發(fā)水,除了大廠,又有幾家公司用得起呢?而且,如果模型稍微精細(xì)一點(diǎn),一般的手機(jī)就跑不起來(lái),得用上專業(yè)的“頭顯設(shè)備”,這又有幾個(gè)用戶愿意用呢?
所以,大幅降低“建模建設(shè)”和“模型渲染”的成本,就是必要條件。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
第二把鑰匙:體驗(yàn)不能凹造型。
還拿洗發(fā)水舉例,這類生活用品人人都熟悉,連質(zhì)感氣味形狀都知道,好像不必通過(guò)3D模型了解。。。這樣的場(chǎng)景就很難給人提供新的刺激。
所以,
找到能發(fā)揮3D模型功能的獨(dú)特場(chǎng)景
,也是必要條件。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
2016年的那波 AR/VR 熱潮很快就過(guò)去了。但“降低成本”和“尋找場(chǎng)景”這兩把鑰匙卻傳給了后來(lái)人。(這兩把鑰匙我用綠色字體表示,后面說(shuō)到鑰匙的時(shí)候,我還會(huì)用綠色標(biāo)注。)
灰燼之下,開始有了新芽。
(三)體素時(shí)代的“商品詳情頁(yè)”
不妨把進(jìn)度條拉到2021年,也就是我們今天故事的前夜。
你會(huì)發(fā)現(xiàn),那時(shí)的“淘寶App”就像一個(gè)大逃殺戰(zhàn)場(chǎng):很多當(dāng)年大開大合的 VR/AR 功能都已殘血進(jìn)入了蟄伏期,而一些實(shí)用的小功能,反而因?yàn)橛脩舻闹С帧捌垺弊×恕?br /> 比如,“AR試”。
也就是通過(guò)攝像頭來(lái)試鞋、試妝、試表和試眼鏡。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
“AR試”之所以能通過(guò)大逃殺活下來(lái),恰恰是因?yàn)槭治漳莾砂谚€匙:1)一目了然就能看到商品上身的效果,給用戶提供了很實(shí)在的參考,這是場(chǎng)景合適;2)運(yùn)用了一種名叫 WebXR 的輕量化技術(shù),幾乎所有手機(jī)都能無(wú)壓力地運(yùn)行3D計(jì)算,這是成本低廉。
注意,剛才我提到一個(gè)生詞,WebXR。
多介紹幾句,WebXR 最早是2016年由 Mozilla(就是做火狐瀏覽器那個(gè))的幾位技術(shù)宅提出的框架,它的理想就是:手機(jī)上不用下載任何軟件,僅僅打開瀏覽器就能進(jìn)入3D世界。(XR的意思就是AR、VR、MR,什么R都行)
那幾年,雖然 XR 產(chǎn)業(yè)遭遇了血雨腥風(fēng),但 WebXR 技術(shù)本身卻在社區(qū)的貢獻(xiàn)之下日益精進(jìn),越來(lái)越輕量化,越來(lái)越親民。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
好了,有了這些鋪墊,現(xiàn)在請(qǐng)上我們今天第一位主角,承越。
承越是個(gè)資深 XR 愛好者,2016年的時(shí)候就吃了螃蟹——當(dāng)時(shí)他看完 HTC Vive 頭顯的發(fā)布會(huì),直接上頭,下單剁手。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
(和我打視頻電話中的)承越
2021年時(shí),他在淘寶的技術(shù)團(tuán)隊(duì)負(fù)責(zé)會(huì)場(chǎng)、頻道的開發(fā),一方面看到“AR試”很受歡迎,一方面看到 WebXR 在互動(dòng)技術(shù)上有了新進(jìn)步,他又有點(diǎn)上頭:
既然手表、鞋,這種東西能在線試,那么更復(fù)雜的東西,例如小家電的拆裝和使用,能不能在線試呢?
想到這,他坐不住了,帶著幾位同學(xué)成立了一個(gè)“f(x)團(tuán)隊(duì)”,嘗試把 WebXR 這幾年的最新技術(shù)推進(jìn)實(shí)戰(zhàn)。
調(diào)研了半天,他們決定先做一個(gè)“商品說(shuō)明書”。
啥是說(shuō)明書?
我們分析發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:人們?yōu)g覽淘寶商品的時(shí)候,通常會(huì)在“物品+場(chǎng)景”那張圖上停留很長(zhǎng)時(shí)間,這說(shuō)明人們不止關(guān)心商品本身,更關(guān)心商品和環(huán)境在一起的信息。也就是,
“商品應(yīng)該用在哪里”
。
比如一個(gè)吸塵器,有很多組件、吸頭,它們?cè)趺囱b配才能吸地毯,怎么裝配才能吸瓷磚呢?
這些信息雖然在家電說(shuō)明書里都有記載,但人們看上去不直觀,我們就把這些組件都做成3D模型,用戶在3D空間里拆裝、使用,很快就能明白它的用法,這就是“商品說(shuō)明書”啦。
承越說(shuō)。
我仔細(xì)體會(huì)了一下,這么說(shuō)來(lái),要想做出一個(gè)好的“商品說(shuō)明書”,承越他們不僅需要把“商品本身”變成“可拆裝的3D模型”,還得把“商品使用的場(chǎng)景”變成“3D空間”。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
但這件事兒沒(méi)有說(shuō)起來(lái)那么容易——在商品過(guò)剩的時(shí)代,用戶是很挑剔的,你這說(shuō)明書但凡“不流暢”或者“不真實(shí)”,大家就會(huì)覺(jué)得沒(méi)必要在這浪費(fèi)時(shí)間,轉(zhuǎn)頭就走。。。
于是,第一個(gè)坑來(lái)了。
悖論擺在面前:要保證流暢,3D模型就要精簡(jiǎn);可模型一精簡(jiǎn),就會(huì)失真,變成五毛特效。
思來(lái)想去,承越他們只好對(duì)模型分情況“雕刻”——用戶可以互動(dòng)的地方,模型就盡量做得精細(xì),用戶不互動(dòng)的地方,就盡量把模型做小。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
說(shuō)到互動(dòng),第二個(gè)坑來(lái)了。
如果想實(shí)現(xiàn)“互動(dòng)”功能,就必須往這些模型里注入“靈魂”,也就是“功能代碼”。但這些代碼也會(huì)占很大一部分空間。。。
承越告訴我,標(biāo)準(zhǔn)的 WebXR 框架包括很細(xì)致的交互動(dòng)作。比如,你的手放到一個(gè)物體上,可以觸發(fā)一個(gè)命令;手指移動(dòng),也會(huì)觸發(fā)命令;移動(dòng)停止也能觸發(fā)命令,抬起手指還會(huì)觸發(fā)一個(gè)命令。
作為一個(gè)框架,設(shè)計(jì)的時(shí)候當(dāng)然要考慮所有情況,無(wú)可厚非。但如果直接拿來(lái)就用,就會(huì)讓最終的成品充滿無(wú)用代碼,變得很臃腫。直接表現(xiàn)就是——用戶點(diǎn)開之后,要看著進(jìn)度條加載半天。
所以,要想做出好東西,精簡(jiǎn)“WebXR”的框架是不可省略的動(dòng)作。
承越說(shuō),為了搞清楚一堆代碼之間的調(diào)用關(guān)系,他們把所有功能都畫在墻上,然后用“連連看”把不同模塊的關(guān)系搞清楚,最后,再一根根剪斷。
有點(diǎn)像拆彈部隊(duì),面對(duì)一堆雜亂無(wú)章的線,卻不能犯錯(cuò)誤。一旦把有用的功能給剪掉,就會(huì)“爆炸”。
他笑。
從2022年春節(jié)開始,雕刻了兩個(gè)月,成果斐然,f(x)團(tuán)隊(duì)總算把這套 Demo 從最初的幾百M(fèi)精簡(jiǎn)到了10M以內(nèi)。這就已經(jīng)相當(dāng)于一個(gè)短視頻的大小了,普通手機(jī)、普通網(wǎng)速下載起來(lái)也沒(méi)壓力。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
至此,不妨再跟著我想象一下這個(gè)說(shuō)明書的樣子:
1)一個(gè)3D小房間,里面有一個(gè)(或多個(gè))商品。
2)你可以進(jìn)入這個(gè)房間,仔細(xì)研究商品的功能,而商品各個(gè)部位的屬性、參數(shù),也都用懸浮泡泡的方式展示在旁邊。
3)賽博空間里,這樣的3D小房間還可以有很多,無(wú)窮無(wú)盡,他們之間相互連通,你可以走來(lái)走去。
你有沒(méi)有發(fā)現(xiàn):這個(gè)商品的3D小房間,有點(diǎn)像我們熟悉的“商品詳情頁(yè)”。而如果布置妥當(dāng),小房間能給你傳達(dá)的信息,其實(shí)比詳情頁(yè)更多、更直接。
也就是說(shuō),“3D商品說(shuō)明書”只是這個(gè)設(shè)想的初級(jí)階段,未來(lái)它很有可能成為新一代的“3D商品詳情頁(yè)”。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
說(shuō)到這,你可能就明白了, 承越他們正是在為“體素時(shí)代”的到來(lái)尋找那把鑰匙——合適的場(chǎng)景。(注意,是綠色字體)
承越幫我設(shè)想了一個(gè)標(biāo)準(zhǔn)場(chǎng)景:
未來(lái)朋友分享給我一個(gè)商品,很可能不是商品詳情頁(yè),而是一個(gè)“3D房間”的鏈接,我只要點(diǎn)擊,一秒就能進(jìn)入這個(gè)3D房間,在里面體驗(yàn)過(guò)商品的詳細(xì)功能,如果覺(jué)得好,就能直接下單購(gòu)買!
這聽上去還挺酷的。
好,我們繼續(xù)。如果你接受了“體素時(shí)代會(huì)有很多3D房間”這個(gè)設(shè)定,就一定會(huì)想到:未來(lái)這些房間里恐怕需要大量的“3D商品”來(lái)填充。
于是,這些3D商品怎么才能“低成本”、“大量地”建模制作出來(lái),就成了迫切需要解決的問(wèn)題。
巧了,在淘寶技術(shù)團(tuán)隊(duì),恰好有一群大牛在研究這個(gè)問(wèn)題。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
(四)“侵略者”和“造物者”
2021年春天,友聞開心地一蹦三尺。
纏繞在他心頭的一團(tuán)亂麻,被一把利劍劈開。
這團(tuán)“亂麻”是啥呢?
多介紹一句背景:友聞帶領(lǐng)一群技術(shù)宅,服務(wù)于“每平每屋”。應(yīng)該有不少人用過(guò)“每平每屋”,就是阿里巴巴旗下的家居平臺(tái),可以在上面買家具,也可以請(qǐng)?jiān)O(shè)計(jì)師幫你搞家居設(shè)計(jì)和裝修。
然鵝,賣家居是個(gè)很費(fèi)勁的事兒,因?yàn)榧揖呖钍胶脱b修風(fēng)格各有不同,顧客很難想象出一個(gè)沙發(fā)放到一種裝修風(fēng)格里的樣子。。。想象不出來(lái),就不敢買嘛。
所以,最好的辦法就是“先嘗后買”——下單之前,讓設(shè)計(jì)師先幫你做出一套“3D設(shè)計(jì)圖”瞧瞧。
就像這樣???
(, 下載次數(shù): 9)
上傳
點(diǎn)擊文件名下載附件
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
但設(shè)計(jì)師干活兒是要錢的。一個(gè)裝修方案的3D設(shè)計(jì)最少也得1000塊,一個(gè)沙發(fā)的手繪3D模型最便宜也要200塊。一般人看到這么貴,就打退堂鼓了,我還不如去線下家具店看看實(shí)物呢。。。
所以,友聞和團(tuán)隊(duì)的任務(wù)就是:找到一種方法,用計(jì)算機(jī)來(lái)代替人類進(jìn)行“建?!焙汀霸O(shè)計(jì)”,大大降低“試”的成本。
但是這件事兒談何容易。2020年,友聞和團(tuán)隊(duì)研究了一年,嘗試了三種不同的技術(shù)路線,全都沒(méi)能成功。。。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
友聞
就在這時(shí),那支“利劍”橫空出世。
這就是谷歌發(fā)表在機(jī)器視覺(jué)頂級(jí)會(huì)議 ECCV 上的一種算法:NeRF。
看到這,可能有的淺友心中一驚:頂級(jí)會(huì)議的學(xué)術(shù)研究,估計(jì)完全看不懂吧。。。放心,后面我會(huì)用特別簡(jiǎn)單的例子來(lái)給你說(shuō)明白。
NeRF 的核心奧義就是一句話:原本需要“手繪”的3D建模,用“拍照”的方式來(lái)實(shí)現(xiàn)。
NeRF 建模就像這樣???
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
當(dāng)然,建模的話,用一張照片肯定不夠,得從不同角度多拍幾張(或是繞著主體拍一段視頻)——只要角度足夠豐富,就能靠“想象力”把平面上的“像素”還原成空間里的“體素”。
這個(gè)想象的過(guò)程,靠的當(dāng)然不是人腦,而是人工智能。
NeRF 有牛呢?它被技術(shù)宅們形容為:人工智能對(duì)圖形渲染的一次“侵略”。
還是用實(shí)力說(shuō)話吧。你看,給我?guī)讖埞雀杞志暗恼掌?,就能還你一個(gè)3D世界的舊金山。。。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
連一座城市都能還原出來(lái),還原一個(gè)椅子和柜子,還不是小菜一碟么?淘寶商家自己繞著椅子拍一段視頻,就能還原出椅子的3D模型,這簡(jiǎn)直是生產(chǎn)力的史詩(shī)級(jí)飛躍啊。。。
想到這里,友聞激動(dòng)萬(wàn)分。
但很快,問(wèn)題出現(xiàn)了:
NeRF的論文只是理論上可行,但真按照論文的方法做出來(lái)一個(gè)模型,要消耗大量計(jì)算力,渲染一幀就要20多秒;
有一種叫做 FastNeRF 的改良技術(shù)可以解決這個(gè)問(wèn)題,但做出來(lái)的模型大小超過(guò)1G,完全沒(méi)辦法大規(guī)模實(shí)戰(zhàn)。。。
但作為算法界的老炮,他是不會(huì)輕易認(rèn)輸?shù)摹?br /> 一個(gè)三維模型,只有表面這一層體素是最有意義的,至于物體的內(nèi)部和外部的體素,其實(shí)并不包含重要信息。
舉個(gè)例子:西瓜之所以看上去是西瓜,不是因?yàn)椤拔鞴先俊保且驗(yàn)椤拔鞴掀ぁ?。你看不到西瓜?nèi)部,并不影響你判斷它是個(gè)西瓜。
所以,在3D建模過(guò)程中,內(nèi)部體素就可以大幅刪減。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
當(dāng)然,舉西瓜的例子只是為了說(shuō)明模型精簡(jiǎn)的思路。整個(gè)2021年春天,團(tuán)隊(duì)都在研究一件事情,怎么像修剪樹木一樣,既不影響模型表達(dá)效果,又能把 NeRF 算法的計(jì)算量簡(jiǎn)化到最小。
兩個(gè)月后,他們成功地把模型的大小從1G壓縮到了70M,計(jì)算效率也比論文中提升了10000倍。
技術(shù)宅們趕緊找來(lái)一堆桌椅板凳,準(zhǔn)備自己用手機(jī)拍的視頻渲染一個(gè)模型。
新問(wèn)題很快出現(xiàn)了:這套系統(tǒng)要求拍攝者必須是人肉三腳架、人肉穩(wěn)定儀。稍微手抖一下,人工智能就會(huì)“想象不出來(lái)”,換句話說(shuō),就是建模失敗。。。
即便建模成功,也有可能出現(xiàn)一個(gè)詭異的情況,那就是:從某個(gè)刁鉆的角度看,3D物體會(huì)出現(xiàn)缺損。。。
就像這樣???
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
這是為啥呢?
說(shuō)到這,看來(lái)我還得科普一下 NeRF 進(jìn)行“想象”時(shí)候的基本原理。
首先,系統(tǒng)會(huì)射出無(wú)數(shù)根“光線”穿過(guò)物體;
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
然后,通過(guò)不同光線上同一個(gè)點(diǎn)的坐標(biāo),反推計(jì)算,就能還原出3D模型中體素的準(zhǔn)確位置。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
在 NeRF 原版的設(shè)計(jì)中,從一個(gè)點(diǎn)射出的光線都是平行的,就像電影《英雄》里,秦國(guó)士兵射出的箭那樣。結(jié)果,就會(huì)造成前文所說(shuō)的“刁鉆角度”下模型缺損的問(wèn)題。
就像這樣???
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
友聞他們眉頭一皺,計(jì)上心來(lái),做了一個(gè)小改動(dòng),把平行的箭改成了“亂箭”——讓每一條光線隨機(jī)選擇角度。這樣,在完全沒(méi)有增加計(jì)算量的前提下,卻一下子解決了建模質(zhì)量的問(wèn)題。
就像這樣???
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
當(dāng)然,類似這樣的改進(jìn),他們還做了好多,就不一一詳解了。這些改進(jìn)綜合起來(lái),就大大提高了建模的成功率。
就像這樣???
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
到了2021年10月,他們已經(jīng)能做到:一個(gè)普通人,用普通手機(jī),學(xué)習(xí)拍攝10次就能學(xué)會(huì)建模。
這時(shí),友聞他們才覺(jué)得時(shí)機(jī)成熟了。
他們給這套系統(tǒng)起名叫做“Object Drawer”,在淘寶內(nèi)部正式發(fā)布。
說(shuō)到這,這個(gè)故事就和我們今天的主題聯(lián)系起來(lái)了:因?yàn)橛崖勊麄冏龅模∏【褪菍ふ摇绑w素時(shí)代”的那一把鑰匙——“降低成本”。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
你看,視頻抖成這樣也沒(méi)問(wèn)題。
說(shuō)到這我還得提醒你注意:要想真正進(jìn)入“體素時(shí)代”,降低成本絕不能靠粗制濫造的“五毛特效”,華麗逼真的模型是首要前提。
這不,“Object Drawer” 剛剛發(fā)布,就有一些商家申請(qǐng)內(nèi)測(cè),但是他們用過(guò)之后,給出了“吐槽”:
“形狀嘛倒是還原得還可以,但是表面紋理為啥有點(diǎn)模糊啊。。?!?br /> 友聞?dòng)悬c(diǎn)撓頭:“紋理”二字,可擊中了人工智能的軟肋。
因?yàn)槿斯ぶ悄艿倪\(yùn)算過(guò)程的本質(zhì)是概率推理,這必然會(huì)造成相鄰體素的參數(shù)有一定的相似性。換句話說(shuō),模糊就是人工智能甩不掉的內(nèi)在缺陷。。。
但眼看萬(wàn)里長(zhǎng)征已經(jīng)走了一大半,不能功敗垂成。友聞他們只好研究了另一種方案,把傳統(tǒng)算法生成的紋理疊加在 NeRF 的模型之上。這樣一來(lái),在計(jì)算成本不提升的前提下,一下子就讓表面紋理從“模棱兩可”變成了“高清畫質(zhì)”。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
至此,“Object Drawer” 被封裝成了一個(gè)非常好用的“攝像頭建模工具”。
雖然在友聞他們看來(lái),Object Drawer 還有很大的進(jìn)步空間,但不可否認(rèn),一個(gè)虛擬世界的“模型生產(chǎn)線”已經(jīng)雛形初現(xiàn)!
注意,3D模型生產(chǎn)線和實(shí)物生產(chǎn)線有所不同:
一個(gè)以原子為基礎(chǔ)的“物理商品”會(huì)隨著時(shí)間損壞、變質(zhì);但以代碼為基礎(chǔ)的“3D模型”一旦被制作出來(lái),就永遠(yuǎn)光鮮如初。
這些模型會(huì)成為賽博世界里的“基石”,永遠(yuǎn)堅(jiān)硬,而且不斷堆壘。
你有沒(méi)有發(fā)現(xiàn),這個(gè)過(guò)程很像淘寶過(guò)去的發(fā)展歷程。無(wú)數(shù)商家們不斷把自己的商品拍照上傳,這些數(shù)以億計(jì)的照片積累起來(lái),就成為蘊(yùn)含數(shù)據(jù)價(jià)值的金礦——可以通過(guò)人工智能學(xué)習(xí)服務(wù)商家,也可以用于未來(lái)虛擬空間的設(shè)計(jì)和搭建。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
從這個(gè)角度理解,3D模型的價(jià)值,比圖片的價(jià)值只多不少。
當(dāng)然,這些設(shè)想都是后話。眼下,在這些模型積累的過(guò)程中,它們能發(fā)揮什么價(jià)值呢?
起碼有一條路,已經(jīng)能走通了:一群技術(shù)大牛,正在把這些3D模型塞進(jìn)主播們的帶貨直播間,把“普通直播間”升級(jí)成“3D直播間”。
(五)3D直播間
經(jīng)??粗辈ベ?gòu)物的淺友可能知道,現(xiàn)在的直播已經(jīng)非?!熬怼绷耍鞑児馐窃阽R頭前耍嘴皮子已經(jīng)遠(yuǎn)遠(yuǎn)不夠了。
他們得搞些大場(chǎng)面。
比如李佳琦,他的直播間就會(huì)在大促的時(shí)候,租下一個(gè)巨大的演播室,然后聘請(qǐng)晚會(huì)級(jí)的燈光、舞美團(tuán)隊(duì)。幾百號(hào)人共同協(xié)作,才能完成一場(chǎng)直播狂歡。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
這是李佳琦日常直播,也需要40-60人的團(tuán)隊(duì)。
但講真,這樣的大場(chǎng)面確實(shí)費(fèi)錢,沒(méi)個(gè)幾百萬(wàn)是搞不下來(lái)的,不是頭部主播根本不敢這樣玩。
在長(zhǎng)孫泰眼里,這樣的實(shí)景直播好是好。。。但也。。。不是很有必要。。。
因?yàn)樗蛨F(tuán)隊(duì)可以用一整套3D技術(shù),實(shí)現(xiàn)虛擬場(chǎng)景直播——人只要站在綠幕前,就可以被傳送到一個(gè)盛大的舞臺(tái)中央。
這個(gè)舞臺(tái)可以在深山老林,也可以在古堡花園,可以漫天飛著鯨魚,也可以建在月球的環(huán)形山里,總之,壓根不用受物理定律的限制。。。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
這不,2021年的“618 大促”,小米在天貓進(jìn)行了一場(chǎng)盛大的帶貨直播。
他們使用的技術(shù)就是“3D直播間”。
注意,這些舞臺(tái)元素不是隨便“Ctrl+V”過(guò)來(lái)的妖艷賤貨,而是專門為這場(chǎng)直播從頭設(shè)計(jì)的。但即便是專門團(tuán)隊(duì)制作了整套舞臺(tái)3D形象,成本也只是幾萬(wàn)元量級(jí),比搭建實(shí)景舞臺(tái)便宜得多。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
這是小米的直播間
長(zhǎng)孫泰伸出三個(gè)指頭,給我科普:“凡是賣貨的場(chǎng)景,都分為三個(gè)要素:人、貨、場(chǎng)?!?br /> 所謂人,就是主播,用綠幕摳圖的方法來(lái)捕捉影像。(當(dāng)然也可以是數(shù)字人,這里篇幅有限不討論了。)
所謂貨,就是要賣的東西,它可以是主播手上拿著實(shí)物,也可以以“3D模型”的方式出現(xiàn)在主播身邊的“虛空”中。
所謂場(chǎng),就是舞臺(tái)。
對(duì)于“3D直播間”來(lái)說(shuō),場(chǎng),也就是舞臺(tái)是最復(fù)雜的。
之所以復(fù)雜,還是因?yàn)橐蟾摺S捎谥辈バЧ且蛯I(yè)的舞臺(tái)相對(duì)標(biāo)的,所以這些背景模型沒(méi)辦法做到像友聞他們用 Object Drawer 掃描出來(lái)的模型那么小。
這就造成兩個(gè)結(jié)果:
1、舞臺(tái)目前還需要專業(yè)團(tuán)隊(duì)來(lái)制作;
2、要想把這個(gè)舞臺(tái)運(yùn)行起來(lái),需要一個(gè)配置非常好的電腦。(手機(jī)暫時(shí)不行)
退回到2021年夏天,如果你想搞一個(gè)3D直播,需要有一個(gè)小團(tuán)隊(duì)去到你家輔助你:
一部分人負(fù)責(zé)支綠幕、打光;一部分人操作電腦,在旁邊把人物影像和虛擬背景合成起來(lái)。
(, 下載次數(shù): 9)
上傳
點(diǎn)擊文件名下載附件
估計(jì)你也感受到了,這樣的操作臨時(shí)搞一兩次還可以,但好像不能作為標(biāo)準(zhǔn)方法大量推廣。
原因就是——這樣的成本太高。
這么高昂的成本,是無(wú)法帶領(lǐng)廣大主播進(jìn)入“體素時(shí)代”的。
于是,整個(gè)2021年下半年,長(zhǎng)孫泰和團(tuán)隊(duì)就在嘗試把這一整套系統(tǒng)搬到云端。
他們要達(dá)到的目標(biāo)就是:
1、主播只需要像平常一樣直播,可以有綠幕也可以沒(méi)有綠幕,打光更好不打光也行,系統(tǒng)都能自動(dòng)把他們的人像摳出來(lái)。
2、3D舞臺(tái)和3D商品的計(jì)算全部在云端運(yùn)行。主播的人像傳到云端,和背景疊加之后,直接傳輸?shù)角f(wàn)剁手黨的手機(jī)上。
這樣一來(lái),不用專人去現(xiàn)場(chǎng)輔助直播,成本直接大幅降低——無(wú)論是大主播還是小主播,就都能方便地搞出自己的“3D直播間”。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
這是云上XR直播的全流程
長(zhǎng)孫泰提醒我:“虛擬商品”這樣的資產(chǎn)可以積累,“虛擬舞臺(tái)”這樣的資產(chǎn)也是可以積累的。
不妨拿樂(lè)高積木打比方:
樂(lè)高積木生產(chǎn)的過(guò)程固然比較復(fù)雜,需要在工廠里實(shí)現(xiàn);
但是一旦生產(chǎn)出來(lái),再用這些積木拼插出無(wú)數(shù)有趣的場(chǎng)景,就變得簡(jiǎn)單了,普通人也能玩得轉(zhuǎn)。
主播可以買來(lái)“積木”自己拼搭,這就是它私有的直播間(不與別人分享);主播也可以選擇在淘寶上直接使用公共3D直播間,在上面做個(gè)性化微調(diào)。
這樣,使用“公共3D直播間”的主播越多,平攤下來(lái),制作成本就越低。
假如制作一個(gè)精美的舞臺(tái)用了5萬(wàn)塊,結(jié)果有5萬(wàn)個(gè)主播都選擇共用,那就相當(dāng)于每人眾籌1塊錢。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
長(zhǎng)孫泰
說(shuō)到這兒,我們不妨回到歷史的上空,俯視現(xiàn)在這個(gè)時(shí)間點(diǎn)已有的一切:
我們正在擁有價(jià)格低廉的“3D模型”,也有了價(jià)格低廉的“3D房間”和“3D直播間”,它們共同構(gòu)成了“體素世界”的雛形。
接下來(lái),終于到了靈魂拷問(wèn):
普通人(也就是你和我)目前只能隔著手機(jī)屏幕*觀察*和*控制*這個(gè)世界,但不能方便地“置身其中”。
之所以這樣,是因?yàn)槲覀冞€缺乏一個(gè)成本低廉,表現(xiàn)穩(wěn)定的“任意門”,這個(gè)任意門,就是“XR 眼鏡”。
當(dāng)然,無(wú)數(shù)技術(shù)人曾經(jīng)和正在嘗試造出這扇門,比如“先烈” Google Glass,當(dāng)紅小生 Meta 的 VR 眼鏡 Oculus,微軟的 VR眼鏡 Hololens,國(guó)產(chǎn) VR 眼鏡 Pico,還有萬(wàn)眾期待的“蘋果眼鏡”。(哦還有羅永浩老師即將推出的AR眼鏡)
看架勢(shì),這將是一個(gè)史詩(shī)級(jí)的科技賽道。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
從左至右:Hololens、Oculus、Google Glass
但問(wèn)題在于:在殺手級(jí)的“XR 眼鏡”普及之前,寫軟件代碼的技術(shù)宅們不能閑著。他們必須提前“搶跑”,一旦硬件具備,軟件要馬上能安裝進(jìn)去。
豪贊,就是搶跑的大牛中的一位。
(六)兩個(gè)世界間的“掛鉤”
很多人應(yīng)該都用過(guò)淘寶里的“拍立淘”功能。
你對(duì)著一個(gè)東西拍張照片,立刻就能搜索到相關(guān)商品。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
2019年的拍立淘
在普通人眼里,這只是一個(gè)輔助購(gòu)物的小特性,可是在豪贊眼里,這卻是通往未來(lái)的絕佳入口。
因?yàn)椤芭牧⑻浴边@個(gè)場(chǎng)景,把“現(xiàn)實(shí)世界”和“體素世界”聯(lián)系起來(lái)了。(注意,我用了綠色字體,說(shuō)明這是一個(gè)合適的場(chǎng)景。)
為什么這么說(shuō)呢?最近,豪贊他們?yōu)榕牧⑻陨?jí)了一個(gè)“XR看世界”的新功能,從中可以看出端倪。
過(guò)去你需要拍一張照片上傳,它才啟動(dòng)搜索;現(xiàn)在不用了,你只要拿攝像頭對(duì)著世界,系統(tǒng)就實(shí)時(shí)工作,幫你識(shí)別視野里一切物品,然后跳轉(zhuǎn)到商品詳情。(這個(gè)光說(shuō)你感受不強(qiáng),你可以現(xiàn)在就打開拍立淘感受一下。)
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
“XR看世界”,從本質(zhì)上來(lái)講,就相當(dāng)于做出了很多包含信息的“3D泡泡”,追蹤在實(shí)體物品之上。
你想想看,如果這時(shí)把“手機(jī)”換成“XR 眼鏡”,會(huì)發(fā)生什么呢?
沒(méi)錯(cuò),你眼前世界的一切物體,都可以被附加上“3D泡泡”:“
路邊不認(rèn)識(shí)的花,上面有泡泡會(huì)顯示它的名稱、習(xí)性。
路邊不認(rèn)識(shí)的車,上面有泡泡會(huì)顯示它的品牌、價(jià)格。
路人穿的衣服很好看, 系統(tǒng)也能在淘寶商品庫(kù)里給你找出來(lái)一模一樣的。
(, 下載次數(shù): 9)
上傳
點(diǎn)擊文件名下載附件
怎么樣,瞬間有了科幻電影里的感覺(jué)了吧?
這一整套技術(shù),有一個(gè)名字——XR 互動(dòng)技術(shù)。
豪贊就是這方面的專家。
人們通過(guò)拍立淘找到了想要的商品,就會(huì)購(gòu)買。在我看來(lái),這些購(gòu)買就是對(duì)我們
“XR 互動(dòng)技術(shù)”
的認(rèn)可,是“點(diǎn)贊”。將來(lái),大家不僅可以通過(guò) AR 買東西,還可以通過(guò) AR 看世界,我們就會(huì)得到更多的贊,所以我的花名就是“豪贊”!
豪贊老師有理有據(jù)給我解釋。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
豪贊
你有沒(méi)有發(fā)現(xiàn),XR互動(dòng)技術(shù)就像“物理世界”和“體素世界”的掛鉤,把兩個(gè)原本沒(méi)有關(guān)系的世界給聯(lián)系起來(lái)了。
不過(guò),要獲得“豪贊”并不是那么容易的事情,因?yàn)檫@個(gè)“掛鉤”背后的技術(shù)還是挺復(fù)雜的。
我們來(lái)拆解一下步驟:
1、要把攝像頭采集的視頻切分為一幀一幀的靜態(tài)圖片;
2、用人工智能找到靜態(tài)圖片里究竟包含哪些物體;
3、去云端的數(shù)據(jù)庫(kù)里找到和這些物體相關(guān)的信息,然后顯示在物體旁邊的“泡泡”上;
4、運(yùn)用影像追蹤技術(shù),識(shí)別出相鄰兩幀畫面中“同一個(gè)物體”,就可以讓“泡泡”在動(dòng)態(tài)視頻中跟隨同一個(gè)主體移動(dòng)了。
這一套流程跑下來(lái),計(jì)算量可小不了。
實(shí)際上,這么大的計(jì)算量,靠手機(jī)或AR眼鏡中的小芯片來(lái)搞定,確實(shí)是力不從心。。。
所以,豪贊他們處理這個(gè)問(wèn)題的核心思路就是:在整個(gè)流程中適當(dāng)?shù)奈恢每车舨槐匾挠?jì)算邏輯。
比如,我們發(fā)現(xiàn)人們經(jīng)常會(huì)把A物體放在大腿上。畫面實(shí)際上出現(xiàn)了兩個(gè)東西:“A物體”和“大腿”。但人工智能會(huì)老老實(shí)實(shí)進(jìn)行一系列的計(jì)算,然后給出答案:畫面里有“A物體”和“大腿”。
但你有沒(méi)有發(fā)現(xiàn),整個(gè)流程里,識(shí)別大腿的計(jì)算完全是不需要的?
豪贊解釋。
所以,更好的做法是,畫面里對(duì)“桌面、大腿、手、墻壁”之類的識(shí)別動(dòng)作根本不應(yīng)該被拉起,這個(gè)計(jì)算流越早被“壓制”掉,就能越省計(jì)算力。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
但是,靠技術(shù)宅們手動(dòng)定義哪些東西不應(yīng)該被識(shí)別,這既不準(zhǔn)確,效率也不高。
這里涉及到人工智能改進(jìn)的一個(gè)通用方法,就是:通過(guò)用戶對(duì)每次搜索的點(diǎn)擊行為,來(lái)修正系統(tǒng)的行為。
比如,最開始系統(tǒng)經(jīng)常都能搜出“大腿”,但絕大多數(shù)用戶不會(huì)點(diǎn)擊“大腿”,更不會(huì)購(gòu)買“大腿”(也就是不給“大腿”點(diǎn)贊),這個(gè)動(dòng)作就被稱為“負(fù)樣本”。
在人們使用“XR 看世界”的功能時(shí),“負(fù)樣本”會(huì)源源不斷傳送給人工智能用來(lái)學(xué)習(xí)。
很快,系統(tǒng)就知道大腿是不用識(shí)別的,從而越來(lái)越精簡(jiǎn),計(jì)算量不斷變小。
這就是系統(tǒng)
“剪枝”
的過(guò)程。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
不過(guò),僅僅靠“剪枝”,剩下的“主干”還是太大,沒(méi)辦法把計(jì)算量控制在設(shè)備的能力范圍。
于是,豪贊他們必須做得更多:能不能在不影響AI模型效果的前提下,把“模型的主干”變小呢?
目測(cè),這種既讓馬兒跑又不讓馬吃草的操作還真能實(shí)現(xiàn)。這里給你隆重介紹一個(gè)逆天的“推理引擎”——MNN。
啥是“推理引擎”呢?
我們不妨拿汽車引擎來(lái)類比。
同樣是98號(hào)汽油,用A引擎就能跑到200km每小時(shí),且油耗很低;用B引擎只能跑到100km每小時(shí),且油耗很高。
這里的汽油就是前文所說(shuō)的“AI模型”,用同樣的模型,卻能跑得更快,更省計(jì)算力,就是“推理引擎”的職責(zé)了。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
“用 MNN 引擎,不損失精度的情況下,至少可以把模型減小一半。如果把精度犧牲一點(diǎn),還可以小得多?!焙蕾澱f(shuō)。
這么神奇的嘛?我趕緊給 MNN 的負(fù)責(zé)人呂行打電話,請(qǐng)他幫我科普其中的黑科技。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
呂行
呂行驕傲地告訴我,MNN 的絕招簡(jiǎn)單來(lái)說(shuō)可以分為三層:
1、向上看,市面上存在很多人工智能訓(xùn)練框架,他們訓(xùn)練出來(lái)的模型各不相同,但是 MNN 可以把這些模型都統(tǒng)一成 MNN 格式。
2、向下看,市面上存在很多手機(jī)芯片類型,MNN 為不同的芯片類型搞出了最適合的算子運(yùn)行模式。提前預(yù)制好。
3、在中間,人工智能模型運(yùn)行時(shí),程序會(huì)自動(dòng)探測(cè)自己跑在哪一類芯片上,然后就切換到最合適的預(yù)制模式來(lái)運(yùn)行。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
這張圖詳細(xì)解釋了 MNN 面臨的挑戰(zhàn),點(diǎn)擊可以放大。
聽完他的介紹,我感覺(jué) MNN 有點(diǎn)像一個(gè)自動(dòng)駕駛汽車:走平路就用高檔位,遇到上坡就自動(dòng)切換成低檔位,路滑就不急踩剎車。
和發(fā)動(dòng)機(jī)一樣,推理引擎背后的技術(shù)細(xì)節(jié)是極其精細(xì)的,精細(xì)到 MNN 團(tuán)隊(duì)已經(jīng)有很多
世界級(jí)的論文
產(chǎn)出,被頂級(jí)會(huì)議收錄。限于篇幅,今天我們沒(méi)辦法展開了,后面我會(huì)找機(jī)會(huì)專門寫文章討論。
呂行自豪地告訴我,目前阿里巴巴已經(jīng)有30多個(gè) App 都內(nèi)置了 MNN 的模塊。
目前,MNN加持的輕量級(jí)人工智能可以進(jìn)行語(yǔ)音識(shí)別、視頻內(nèi)容理解,當(dāng)然也幫助把“XR 看世界”這把鉤子做得更小巧堅(jiān)固;未來(lái),如果出現(xiàn)殺手級(jí)的“XR 眼鏡”,MNN 肯定也會(huì)第一時(shí)間適配,把更多普通人拉進(jìn)體素世界。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
(七)數(shù)字資產(chǎn)和“淘寶叛軍”
因?yàn)檎幰咔槠陂g,所以和這些淘寶技術(shù)大牛的聊天都是在線上進(jìn)行的。
掛斷和大牛們的視頻電話,從“體素世界”的想象中抽離回來(lái),我看看窗外熟悉到有些膩味的風(fēng)景,總有一種肉身沉重的感覺(jué)。
估計(jì)很多淺友也開始質(zhì)疑:
你說(shuō)得這么熱鬧,但我們現(xiàn)在不還活在無(wú)聊的現(xiàn)實(shí)中么?體素時(shí)代到底什么時(shí)候來(lái)呢?
我必須承認(rèn),客觀上來(lái)說(shuō),沒(méi)有人能精確預(yù)言一個(gè)時(shí)代的到來(lái)。
而且,對(duì)于一項(xiàng)技術(shù)的過(guò)度關(guān)注,反而會(huì)消磨大家對(duì)它的善意,2016年的”VR熱潮”和如今如出一轍的“元宇宙騙局”已經(jīng)證明了這一點(diǎn)。
所以,我只想小心翼翼地客觀呈現(xiàn)這些大牛們的努力:
他們只是從自己熟悉的家園出發(fā),用各自的方式開始了遠(yuǎn)征,為體素時(shí)代悄悄準(zhǔn)備“磚石”——一旦未來(lái)降臨,我們手中不至于赤手空拳。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
承越告訴我,他們的“3D說(shuō)明書”正在努力從“小家電”拓展出去,很快,大家就能看到冰箱、洗衣機(jī)這樣大家電的3D說(shuō)明書。他們也在嘗試做出3D世界的“穿鞋帶說(shuō)明書”,甚至還有美妝產(chǎn)品的說(shuō)明書——讓大家在虛擬世界就能體會(huì)到各種化妝品的使用順序和使用效果。
“這些嘗試未必都能成功,但值得嘗試?!彼f(shuō)。
長(zhǎng)孫泰告訴我,他希望不久的將來(lái),每個(gè)大小商家,甚至夫妻店都能擁有自己的3D直播間。
商家可以像裝修房子那樣,不斷修改、豐富云上直播間的樣子,還可以添加新的3D擺件。不僅如此,還能根據(jù)直播的主題在各個(gè)直播間之間切換,就像一個(gè)人在全國(guó)每個(gè)城市都有別墅,想住哪套住哪套,土豪得不要不要的。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
就像這樣,每個(gè)商家都可以有好多不同主題的直播間。
友聞告訴我,他們還在奮力改進(jìn)算法,讓 Object Drawer 繪制出來(lái)的 3D模型平均大小從20m縮小到5m。
未來(lái),商家上架一個(gè)商品,就像現(xiàn)在拍一張照片那么簡(jiǎn)單。每一個(gè)淘寶上的商品都可以有配套的3D模型。
他說(shuō)。
這樣一來(lái),我們買一個(gè)椅子,就同時(shí)在虛擬世界得到一個(gè)“數(shù)字椅子”,買一個(gè)水壺,就在虛擬世界得到一個(gè)“數(shù)字水壺”。
于是,我們裝點(diǎn)自己家的時(shí)候,也能裝點(diǎn)自己數(shù)字世界的另一個(gè)家:
我們?cè)谡鎸?shí)的家里,得到的是真實(shí)生活品質(zhì)的提升,而在虛擬房間里,得到的是突破物理定律的自由想象——我們可以讓水杯懸在半空,我們可以讓屋頂閃耀璀璨銀河。
我們可以邀請(qǐng)朋友到真實(shí)的家,也可以邀請(qǐng)朋友的數(shù)字分身到我們的數(shù)字莊園。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
數(shù)字藝術(shù)家 Krista Kim 做了一個(gè) Mars House(火星屋)。他把一片豪宅建設(shè)在了荒涼的火星上,使之充滿了對(duì)于物理定律的挑釁。
所以,我愿意把這些淘寶大牛稱為“叛軍”。他們反叛的不是任何人,而是像素時(shí)代的種種限制,種種無(wú)趣。他們相信,人們的3D數(shù)字世界里不應(yīng)一片荒蕪,而創(chuàng)造必須始于今天,始于腳下。
也許未來(lái)的某一天,我們回望那個(gè)像素時(shí)代的黃昏,也許會(huì)對(duì)當(dāng)年的先行者們致以微笑。
因?yàn)樗麄冊(cè)鴪?jiān)信,對(duì)未來(lái)最大的慷慨,就是把一切獻(xiàn)給現(xiàn)在。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
參考文章:
《一種降維打擊的可視化方案》
https://www.bilibili.com/video/BV1Sf4y147J9?share_source=copy_web
夸克“兇猛”:一場(chǎng)手機(jī)鏡頭背后的狂野冒險(xiǎn)
文|史中
??
李逍遙出生的村子叫什么你知道嗎?
我知道,叫盛漁村,地處杭州余杭縣,位置偏僻,但風(fēng)景秀麗。。。
我為啥記得這么清楚呢?
因?yàn)?0歲那年我第一次玩《仙劍奇?zhèn)b傳》的時(shí)候,劇情剛剛展開,看著熱情的村民,聽著溫情的 BGM,我突然有奇怪的想法:為啥我李逍遙不能一輩子慫在家鄉(xiāng)耍木劍采野果,非得去外面被妖怪毒打呢?
但是轉(zhuǎn)念一想,不遇到妖怪,也不會(huì)遇到趙靈兒。
想到這里,DNA 動(dòng)了,明知山有虎偏向釜山行,我就這樣走出了新手村。
好吧,咱們未必玩過(guò)一樣的游戲,但咱們都過(guò)著同樣操蛋的人生。你我都有(不得不)從新手村出發(fā)的那一天,面對(duì)天書一樣的試卷時(shí),面對(duì)老板“今晚就要”的死線時(shí),都會(huì)幻想:如果天上能掉下來(lái)一把神刀,一刀999級(jí),該有多好。。。
今天,中哥就給你講一個(gè)“神刀”的故事。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
(一)“戰(zhàn)五渣”和掃描王
“放假前剛發(fā)的卷子,我家小孩就找不到了!我還得在家長(zhǎng)群里求著同學(xué)媽媽把試卷拍給我,打印出來(lái)讓孩子做。但人家孩子已經(jīng)寫了答案,我只能用紙條擋住答案去復(fù)印。。?!?br /> 這是一個(gè)兩年前發(fā)在媽媽幫論壇上的帖子。
如此不能打的劇情,卻引來(lái)了不合時(shí)宜的共鳴,上百個(gè)家長(zhǎng)回復(fù)說(shuō):??!我以為只有我家孩子是這樣。。。
看來(lái),身邊潛伏的渣渣不止一個(gè)啊。
吃瓜群眾中潛伏著一個(gè)人,戴著眼鏡,自己就接近學(xué)生模樣,按道理都不應(yīng)該知道這世界上有媽媽幫這樣“戾氣深重”的網(wǎng)站。
這個(gè)人就是尹毅彬。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
尹毅彬
尹毅彬是夸克App的產(chǎn)品經(jīng)理,之所以要逛家長(zhǎng)論壇,是因?yàn)樗?fù)責(zé)的正是當(dāng)時(shí)大火的“學(xué)習(xí)版塊”。
他同時(shí)也是個(gè)暖男?!霸趺茨茏寢寢寕兪苓@樣的苦呢?”于是趕緊把這個(gè)發(fā)現(xiàn)講給伙伴。
一個(gè)月后,夸克App里添加了一個(gè)小功能——試卷去手寫——拿一張卷子來(lái),能自動(dòng)把里面的手寫字去掉;不僅如此,還能把卷子角度自動(dòng)轉(zhuǎn)正,把紙變白,把字變清晰,打印出來(lái)比原版的還原版,隔壁學(xué)霸都饞哭了。。。
就是這個(gè)效果???
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
別看就是這么一個(gè)不起眼的功能,受歡迎程度卻難以言表,后臺(tái)調(diào)用量像火箭直入云霄。
以防有的淺友不熟悉夸克,這里中哥強(qiáng)勢(shì)插入一下,多介紹幾句背景姿勢(shì):
很多人覺(jué)得夸克是個(gè)搜索 App,但是在年輕用戶心里,搜索只是夸克“功能大餐”中的一道菜,他們還能用夸克看小說(shuō)、看電影、拍圖識(shí)萬(wàn)物、文檔翻譯、簡(jiǎn)歷生成、自拍證件照、PDF轉(zhuǎn)Word、截長(zhǎng)圖、轉(zhuǎn)gif、掛號(hào)買藥、學(xué)菜譜查快遞。。。
我覺(jué)得,夸克的夢(mèng)想是成為大家手機(jī)里的“瑞士軍刀”——沒(méi)車沒(méi)房沒(méi)女票這種大事解決不了,但遇到蹩腳的小困難,掏出來(lái)一準(zhǔn)兒能搞定。
給你們看一下夸克工具的列表???
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
為了達(dá)成這個(gè)目標(biāo),不只是尹毅彬,夸克團(tuán)隊(duì)每個(gè)人都患上了“需求搜集癖”。。。
他們就像八爪魚:產(chǎn)品經(jīng)理做調(diào)研,技術(shù)老師傅看數(shù)據(jù),運(yùn)營(yíng)小姐姐接客訴,反正有各種渠道和用戶溝通。用戶想要啥,分分鐘就能傳遞到夸克團(tuán)隊(duì),沒(méi)準(zhǔn)新功能幾個(gè)星期就做出來(lái)了,有一種“被寵溺”的感覺(jué)。
講真,在今天的世界,能夠和用戶混成這種好兄弟(好姐妹)的互聯(lián)網(wǎng)產(chǎn)品都已經(jīng)不多了呀。
不過(guò)這也好理解,因?yàn)榭淇藞F(tuán)隊(duì)和他們的用戶一樣年輕,幾乎一水的90后。其中最小的一位生于澳門回歸的1999年。畢竟中國(guó)人不騙中國(guó)人,年輕人不坑年輕人嘛。
好,認(rèn)識(shí)了這群頭發(fā)尚且濃密的年輕人,我們回到主線劇情。
搞出“試卷去手寫”,無(wú)數(shù)小朋友可以罵罵咧咧開開心心去寫作業(yè)了,但這只是故事的《序章》。
夸克這群年輕人像胡八一那樣提鼻子一聞,忽然感覺(jué)自己站在一座“尚未完全被開發(fā)”的寶藏大門前,這座寶藏就叫——掃描。
之所以說(shuō)尚未完全開發(fā),是因?yàn)閽呙柽@座寶藏早已被人發(fā)現(xiàn),市面上也早有一些掃描產(chǎn)品。
只是夸克這群人覺(jué)得前人挖掘得不細(xì)心,或者說(shuō)勘探技術(shù)不到位,就拿“試卷去手寫”這樣的具體任務(wù)來(lái)說(shuō),在他們之前就沒(méi)人做得這么精細(xì)嘛。。。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
于是,一場(chǎng)內(nèi)部討論展開:如果做一個(gè)市面上最好的把“紙質(zhì)文件”掃描成“數(shù)字文檔”的掃描工具,誰(shuí)贊成?誰(shuí)反對(duì)?
團(tuán)隊(duì)那位99年的同學(xué)趕緊舉手:
我上大學(xué)那時(shí)候,哦,也就是去年,就特別想要一個(gè)這樣的工具。因?yàn)槔蠋熤v課的PPT翻得太快,我只能用相機(jī)一張張拍下來(lái),再用 iPhone 的備忘錄功能整理起來(lái)。雖然四舍五入能用,但是像我這么社恐的人,坐在教室最邊上,拍出來(lái)的照片都是梯形。。。
話音未落,另一個(gè)同學(xué)插話:
我表哥在投資公司工作,我記得他吐槽,說(shuō)每天都得把各種紙質(zhì)文件、單據(jù)神馬的掃描歸檔,掃描儀難用的一比。
恰在此時(shí),探馬回報(bào),在北京、廣州、秦皇島等等城市的用戶調(diào)研里,很多夸克的主力用戶——老師和學(xué)生——也都吐了這個(gè)槽:學(xué)知識(shí)最好是舉一反三,得把錯(cuò)題抄下來(lái)反復(fù)練嘛。但除非愛好書法,誰(shuí)能耐下心來(lái)手抄那么多錯(cuò)題呢?
而且,人類都已經(jīng)進(jìn)入賽博朋克紀(jì)元了,把這么多時(shí)間用來(lái)物理抄題,也太 old school 了吧?能有個(gè)順手且強(qiáng)大的手機(jī)掃描工具多好??!
正所謂,工欲善其事必先利其器。你讓哈利波特去削伏地魔,不得先給他個(gè)掃帚么?你讓小智干翻全世界的寶可夢(mèng),不得先給他個(gè)精靈球嗎?你讓你家小孩考清華,不得先給他個(gè)“掃描王”么?
夸克掃描王產(chǎn)品負(fù)責(zé)人夏雅瞳小姐姐一拍桌子:決定了!咱們就幫大伙兒把“掃描王”做得更好用!
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
小智,你捫心自問(wèn),如果把精靈球改成三室一廳總統(tǒng)套房,皮卡丘能不愿意進(jìn)來(lái)么?
(二)高清無(wú)碼大圖,get?
說(shuō)到掃描,咱們小時(shí)候見的掃描都是那樣的:把紙質(zhì)文件按在一個(gè)掃描儀上,然后“呲——”,電腦上就顯示出了一模一樣的圖片。
那個(gè)操作叫“光學(xué)掃描”,實(shí)際上,那已經(jīng)是老黃歷了。
聽中哥給你科普,現(xiàn)在的掃描比女生化妝還厲害:
第一步、拍圖片
用手機(jī)給文件拍一張素顏照,App會(huì)自動(dòng)幫你裁剪,擺正角度,去掉無(wú)用信息,相當(dāng)于打了個(gè)遮瑕粉底,然后把圖片上傳云端。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
第二步、修圖片
云端算力充沛,AI 能識(shí)別出文件上的瑕疵(例如紙上的臟點(diǎn)、水印、手寫痕跡),把它們都去掉;再識(shí)別出有用的文字,把它們加深,變得更清晰。相當(dāng)于眼線紅唇化個(gè)全妝。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
第三步、導(dǎo)圖片
云端把這張圖片傳回給手機(jī)里的 App,App 幫你導(dǎo)出定妝照,也就是掃描結(jié)果的圖片。
完美結(jié)束,撒花出街。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
這樣三步下來(lái),比光學(xué)掃描的“素面朝天”那簡(jiǎn)直高到不知哪里去了。
不過(guò),欲戴王冠必承其重,這個(gè)“美顏之旅”比大多數(shù)人想得難多了。
怎么個(gè)難法呢?咱們先請(qǐng)上夸克團(tuán)隊(duì)的第一位現(xiàn)身說(shuō)法的選手,他就是王淮。王淮在夸克App的研發(fā)團(tuán)隊(duì),負(fù)責(zé)我們剛才說(shuō)的“第一步”。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
王淮
王淮是個(gè)“強(qiáng)迫癥”,一幅畫掛歪1度都能看出來(lái)那種。但做 App 客戶端恰恰需要這種細(xì)致的精神。
剛接到任務(wù),一個(gè)不是問(wèn)題的問(wèn)題就擋在面前——該用什么拍照方式?
你肯定沒(méi)有注意過(guò),攝像頭獲取圖片其實(shí)是有兩種方式的:
一種是速度快但畫質(zhì)感人的——就是進(jìn)入攝像模式,從流動(dòng)的畫面里截取一幀湊合能看的。
一種是畫質(zhì)好但速度感人的——就是進(jìn)入拍照模式,老老實(shí)實(shí)對(duì)焦,調(diào)整光圈快門,拍一張照。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
王淮玩得比較遛的是第一種“視頻截圖”。因?yàn)樗麄冎白龅摹叭f(wàn)物識(shí)別”功能,就在用這種方式。
為啥呢?因?yàn)槟切﹫D片是用來(lái)做“分類”的——比如你拍了一只狗,即便是模糊的狗,相比于貓,AI 也會(huì)覺(jué)得它也更像狗——所以不用清楚,拍得快才是王道。
可是掃描就不同了,它的終極目標(biāo)不是分類,而是清晰呈現(xiàn)這張照片里的每一個(gè)細(xì)節(jié)。
沒(méi)辦法,王淮只能老老實(shí)實(shí)選擇“拍照模式”??蛇@樣一來(lái),體驗(yàn)就不太流暢,他又和一群強(qiáng)迫癥事們做了10086個(gè)優(yōu)化。
接下來(lái)可以拍照了吧!王淮把自己手機(jī)翻過(guò)來(lái)一看,臥槽?!怎么這么多攝像頭?
第二個(gè)問(wèn)題又迎面撲來(lái)——該用哪個(gè)攝像頭?
廢什么話?隨便選一個(gè)不就行了嗎?
“不行。我們?cè)嚵艘幌?,長(zhǎng)焦鏡頭一般光圈大,拍出來(lái)的照片景深小,這樣用戶如果拍攝角度傾斜,就會(huì)造成一半清晰,一半虛焦。。。廣角鏡頭一般光圈小,能拍清楚。但如果鏡頭視野太寬,紙張占畫面的比例又比較小,有效像素不夠多。。?!?br /> 王淮解釋。
就像這樣???
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
他們最后寫了一套規(guī)則,讓夸克 App 在手機(jī)里現(xiàn)場(chǎng)“唐伯虎點(diǎn)秋香”,找出最適合做掃描的那顆攝像頭。
可實(shí)戰(zhàn)中到底能不能選準(zhǔn)秋香,王淮心里有點(diǎn)嘀咕。。。他又請(qǐng)測(cè)試團(tuán)隊(duì)的同學(xué)真的用不同型號(hào)手機(jī)拍了幾千張照片,把每一個(gè)機(jī)型都調(diào)優(yōu)了一遍才罷休。
這下可以拍照了吧?還不行。。。
夸克的用戶數(shù)以億計(jì),你永遠(yuǎn)想象不到大家在拍照片的時(shí)候是在九天攬?jiān)逻€是在五洋捉鱉。
比如有的人手抖,拍出的照片就是帕金森模仿秀;有的人心不在焉,拍出的照片就是斜到懷疑人生;有的人是暗夜騎士,拍東西祖?zhèn)鞑婚_燈。
于是第三個(gè)問(wèn)題來(lái)了——怎么保證拍照清晰?
王淮他們?cè)谂恼战缑婕恿颂嵝选綔y(cè)到畫面光線不足,就提示開燈;還加了網(wǎng)格線——眼殘的可以參考網(wǎng)格拍得橫平豎直;還做了一個(gè)實(shí)時(shí)對(duì)焦模塊——哪怕用戶冷不丁地按下拍照,也能保證盡量清晰。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
看到這兒,有老哥可能會(huì)問(wèn):這都是什么雞毛蒜皮的小事???
其實(shí)我是故意選擇這些瑣碎細(xì)節(jié)講給你聽的。因?yàn)槟愣?,面?duì)這些細(xì)節(jié)都能如此“強(qiáng)迫癥”的人,是很難在圖像裁剪、圖像壓縮、圖片上傳鏈路這類更嚴(yán)肅的事情上偷工減料的。
“咻——”,隨著圖片傳上云端,沉甸甸的接力棒也交到了第二位選手,云端算法工程師黃銳華手上。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
黃銳華
黃銳華是個(gè)技術(shù)控老司機(jī)。他的駕駛風(fēng)格是:“我前面不能有車”。
凡是遇到什么技術(shù)困難,他不睡覺(jué)也得把全世界的解法都找來(lái),然后不允許任何一個(gè)解法比自己更好。。。
開發(fā)過(guò)程中,看著手機(jī)端傳上來(lái)的圖片,黃銳華皺皺眉頭:喂,這圖片怎么有好多都是
“S身材”
????
你想想看,一張紙,如果能夠平平展展讓你拍照,那是燒高香的情況。大多數(shù)情況,咱們打開書拍某一頁(yè),書頁(yè)肯定是彎折的,而且越靠近書脊,彎折程度越大,就像霍金的黑洞。。。
黃銳華當(dāng)時(shí)就暴躁了,一張紙這么“性感”,很影響掃描效果的好不好?!
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
接下來(lái)的問(wèn)題就是——怎么把S形書頁(yè)給拉直?
其實(shí)方法就是借助人工智能,讓 AI 對(duì)著彎折的書頁(yè)“YY”它平展的時(shí)候應(yīng)該是什么樣。
可問(wèn)題是,要想讓人工智能學(xué)會(huì)這個(gè)技能,先得給它學(xué)習(xí)資料——同一張紙彎折時(shí)和平展時(shí)的“對(duì)比數(shù)據(jù)”。這個(gè)數(shù)據(jù)還不能只有一兩組,得成千上萬(wàn)組才行。
黃銳華給我解釋。
雖然但是,從哪去找這么多書頁(yè)彎折的數(shù)據(jù)呢?這數(shù)據(jù)又不是可樂(lè),街邊隨便找家店就有賣。。。而且也來(lái)不及自己一張張拍啊,等你拍完,等著掃描書頁(yè)的大學(xué)生都該領(lǐng)退休金了。。。
一個(gè)平時(shí)喜歡玩游戲的同學(xué)若有所思:誒,3A游戲大作不都會(huì)用到物理引擎么?
一語(yǔ)點(diǎn)醒夢(mèng)中人,黃銳華組織大家搞了好幾本書的3D模型,然后用游戲物理引擎對(duì)它進(jìn)行各種“蹂躪”,這不一下子就有了豐富的訓(xùn)練數(shù)據(jù)嗎?
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
這么一搞,效果拔群。
看著 AI 書頁(yè)拉直的效果越來(lái)越棒,黃銳華仰天長(zhǎng)嘯:果然,不會(huì)3D建模的AI工程師不是好司機(jī)啊!
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
搞完這些,已經(jīng)是2021年春天。
丑媳婦總得見公婆,“夸克掃描王”終于發(fā)布了。
春江水暖鴨先知,夸克新功能鐵桿粉絲先知——說(shuō)時(shí)遲那時(shí)快,在夸克的粉絲群里,已經(jīng)有眼尖的人發(fā)現(xiàn)了掃描王。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
夸克團(tuán)隊(duì)搬好小板凳排排坐,等著夸獎(jiǎng)砸來(lái),不過(guò),夸獎(jiǎng)沒(méi)等來(lái),卻等來(lái)了板兒磚。
“欸我這個(gè)掃描出來(lái)怎么是花的???”有粉絲問(wèn)。
黃銳華一看粉絲發(fā)來(lái)的“證據(jù)”,居然是對(duì)著電腦屏幕拍的,上面都是摩爾紋。。。
“欸我這個(gè)卷子怎么掃描之后還能看出背面的字啊?”
黃銳華一問(wèn),才知道這哥們的卷子太薄,簡(jiǎn)直是蕾絲半透款,背面的字毫無(wú)壓力地透了過(guò)來(lái)。。。
“欸我這掃描出來(lái)怎么還帶手指頭啊?”
黃銳華一看,原來(lái)這哥們是拿手舉著一本書掃描的,手指頭也拍進(jìn)去了,AI 以為是書上的插圖呢,給強(qiáng)勢(shì)保留了。。。
“這好辦,你告訴他們拍照的時(shí)候別用手扶著不就行了?”我提議。
“用戶用手扶,一定有他不得不扶的道理。我們既然要做全世界最好的掃描工具,就不可能讓用戶來(lái)適應(yīng)我們。”黃銳華一臉慷慨。
本著“做最牛X的掃描工具”的原則,老師傅們繼續(xù)返工:優(yōu)化了人工智能算法,讓它更好地識(shí)別出背面透字;還教會(huì)了 AI 識(shí)別邊緣亂入的手指頭,自動(dòng)擦除;還研究了去摩爾紋的濾鏡。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
注意,剛才提到的各種濾鏡是一層層“疊buff”的。
比如,上一層去摩爾紋的輸出結(jié)果是下一層去邊緣手指的輸入資料;去手指的輸出結(jié)果又是下一層去背面透字的輸入資料。
這很像雜技演員踩著高蹺,頭上頂著水缸,手里扔著12個(gè)雞蛋,腰上還轉(zhuǎn)著5個(gè)呼啦圈——但凡中間任何一個(gè)環(huán)節(jié)出問(wèn)題,整個(gè)雜技都會(huì)垮掉。
做掃描難,就難在了這兒。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
耿直的夸克用戶是一面明鏡,不滿意會(huì)吐槽,滿意會(huì)真夸。經(jīng)過(guò)了幾次改進(jìn),夸克粉絲群里逆風(fēng)翻盤,變成夸夸群。
尹毅彬現(xiàn)在還記得,有一個(gè)用戶專門跑來(lái)說(shuō):“我從來(lái)沒(méi)用過(guò)這么好的掃描產(chǎn)品,掃出來(lái)真白,就跟新買的書一樣!”
不過(guò)彼時(shí)沾沾自喜的掃描王團(tuán)隊(duì),就像剛出長(zhǎng)安的唐長(zhǎng)老,還不知道有一群妖怪正圍著餐巾等著他們呢。
那天,運(yùn)營(yíng)小姐姐找到尹毅彬,跟他提到了一個(gè)用戶投訴。
那個(gè)用戶留言說(shuō):“用夸克掃描出來(lái)的文件,我沒(méi)法用!”
“掃得這么白,怎么沒(méi)法用?”尹毅彬一邊嘀咕,一邊決定跟那個(gè)投訴用戶直接打個(gè)電話。
他恍然大悟,原來(lái)這個(gè)用戶在掃描一份鑒定報(bào)告,在報(bào)告的下面,專門鋪了簽發(fā)機(jī)構(gòu)的防偽水印。可是在AI看來(lái),水印這種臟東西不是要去掉的么?一秒鐘擦得干干凈凈,對(duì)用戶說(shuō):快夸我!
用戶說(shuō):我謝謝你啊!
無(wú)獨(dú)有偶,另一個(gè)用戶反饋也前后腳進(jìn)來(lái):他想掃描一個(gè)發(fā)票,用于報(bào)銷??墒强淇藪呙柰鯍叱鰜?lái)的發(fā)票過(guò)于白嫩,而且經(jīng)過(guò)“清晰度補(bǔ)足”的濾鏡,紅章就會(huì)變得暗淡,打眼看上去就像是街角買的假票。。。那哥們都不敢提交報(bào)銷了。。。
原來(lái),“一白遮百丑”也不總是真理。
一個(gè)巨大的哲學(xué)問(wèn)題擺在夸克掃描王團(tuán)隊(duì)面前:當(dāng)“真”和“美”坐在蹺蹺板的兩端,到底要怎么選?
就和生活一樣,沒(méi)有人永遠(yuǎn)需要真實(shí),也沒(méi)人永遠(yuǎn)需要漂亮。所以我們的結(jié)論是,你要去了解用戶在掃描那一刻的真實(shí)意圖,才能更準(zhǔn)確地服務(wù)他。
尹毅彬解釋。
于是,在隨后的升級(jí)里,夸克掃描王加入了一道“自動(dòng)識(shí)別邏輯”:判斷這是個(gè)單據(jù),就以“真實(shí)呈現(xiàn)”為主;判斷這是個(gè)文件,就以“黑白分明”為主。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
這個(gè)思考影響深遠(yuǎn)。
從這件事以后,夸克團(tuán)隊(duì)就像搞了個(gè)高音喇叭放在耳邊,時(shí)刻在喊:“你們確定真的了解用戶想干嘛嗎?R U F**KING SURE?!”
“警鐘長(zhǎng)鳴”之下,他們有了驚奇的發(fā)現(xiàn)——當(dāng)用戶掃描的時(shí)候,有時(shí)并不想“掃描”。
(三)當(dāng)你掃描的時(shí)候,你在“掃描”什么?
“在我們的一生中,遇到愛,遇到性,都不稀罕,稀罕的是遇到了解。”這是廖一梅在話劇《柔軟》里寫下的臺(tái)詞。
這句話恰好完美隱喻了互聯(lián)網(wǎng)產(chǎn)品的難處。
在真實(shí)世界里,哪怕你和最要好的朋友對(duì)面長(zhǎng)談,都無(wú)法完全理解Ta的意圖;更別提在賽博世界里,提供服務(wù)的系統(tǒng)和用戶相隔萬(wàn)里,只能通過(guò)用戶令人費(fèi)解的行為碎片來(lái)“猜”。
我問(wèn)你,當(dāng)一個(gè)用戶掃描了電腦屏幕上的一串快遞單號(hào),Ta 想干嘛?
我再問(wèn)你,當(dāng)一個(gè)用戶沒(méi)有調(diào)用攝像頭,而是去相冊(cè)里調(diào)取了一張寫著名言警句的圖片進(jìn)入掃描王,Ta 想干嘛?
有沒(méi)有一種可能,此時(shí)他們并不是想“掃描”,而是想把照片里的文字提取出來(lái),復(fù)制到別的地方用?
有可能是,也可能不是。。。
2021年夏天,夸克這群年輕人就帶著這種狐疑上線了“文字提取”功能。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
這個(gè)操作效果炸裂。
從激增的后臺(tái)調(diào)用量看,用戶仿佛在說(shuō):這么牛X的功能,搞么子現(xiàn)在才上?
為啥大家對(duì)文字提取這么情有獨(dú)鐘?我還真琢磨了一下。
看看我們自己的大腦就知道了,人類的右腦負(fù)責(zé)形象思維,左腦負(fù)責(zé)邏輯思維。長(zhǎng)期的進(jìn)化讓大腦產(chǎn)生了這樣的左右分工,那必然是因?yàn)檫@樣比“左右腦一團(tuán)漿糊”更好。
好處是啥呢?省能量。
語(yǔ)言文字屬于邏輯思維——可以用“抽象的信息”反應(yīng)“具象的世界”——而抽象的信息真的很省地方。
你看,說(shuō)“蘋果”兩個(gè)字只需要半秒,把這兩個(gè)字寫出來(lái)也只需要兩秒,可畫出一個(gè)蘋果恐怕需要一分鐘。遇到手笨的,畫一個(gè)蘋果恨不得消耗兩個(gè)蘋果的卡路里。。。
所以,“文字提取”功能的本質(zhì)是把一張“圖像”里的“邏輯信息”(而非視覺(jué)信息)提取出來(lái),復(fù)制、粘貼、修改、搜索隨你大小便——大大降低信息處理的成本。
在原有的視覺(jué)工具旁邊直接加了一個(gè)邏輯工具,沖鋒槍+迫擊炮,買一送一,肯定受歡迎嘛!
(我替你們體驗(yàn)了一下文字提取,原諒我此時(shí)身處賓館,能找到的紙不多。。。)
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
嘗到“提取”功能的甜頭之后,夸克這群“摸金校尉”如同找到了掃描領(lǐng)域的新一道暗門,向幽深的秘境又挺進(jìn)一層。。。
尹毅彬回憶,那天產(chǎn)品團(tuán)隊(duì)在整理用戶反饋時(shí),又發(fā)現(xiàn)一個(gè)奇怪的案例。
這個(gè)用戶反饋了一張手寫的購(gòu)物單,上面寫著:菠菜XX元,買了XX斤;白菜XX元,買了XX斤,諸如此類。
用戶的訴求是:我拍了這個(gè)購(gòu)物單,你們能不能給我轉(zhuǎn)成 Excel 表格?
原來(lái),他是一個(gè)飯店的采購(gòu)員,每天進(jìn)貨,月底盤點(diǎn),得把30天的數(shù)據(jù)金額加總。過(guò)去手寫數(shù)字加總,得鼓搗半小時(shí),還不一定算對(duì)。如果能有工具把手賬變成 Excel,那妥妥從石器時(shí)代直接進(jìn)入工業(yè)革命??!
尹毅彬一看,有道理!他去找技術(shù)老師傅,有點(diǎn)心虛地問(wèn):手寫字,能提取出來(lái)么?
黃銳華呵了一下:可以試試。
其實(shí),這個(gè)技術(shù)黃銳華團(tuán)隊(duì)并沒(méi)那么陌生。在兩年前夸克的“學(xué)習(xí)”模塊里,就實(shí)現(xiàn)了一個(gè)小功能:把學(xué)生手寫的答案轉(zhuǎn)換為印刷體。
但注意,這兩者的難度是不同的。
一個(gè)學(xué)生寫題,他的目的是讓判卷的老師看懂,潦草程度是有下限的。
比如這樣:
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
一個(gè)人寫采購(gòu)單,就是為了記賬給自己看,那潦草程度是沒(méi)有下限的呀!
比如這樣:
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
簡(jiǎn)而言之,之前給搜題做的那套手寫識(shí)別技術(shù)根本拿不出手,必須加大數(shù)據(jù)劑量,重新訓(xùn)練。
不過(guò),這次黃銳華遇到了強(qiáng)勁對(duì)手。越深入訓(xùn)練,技術(shù)團(tuán)隊(duì)就越抓狂——仿佛自己身處一個(gè)深不見底的巨坑里。。。
手寫體的難度不只在于潦草,更在于你要理解手寫信息的復(fù)雜含義。
比如訪客登記的時(shí)候,上面那個(gè)人在性別那欄填了“男”,你填表的時(shí)候,就在下面打兩個(gè)點(diǎn),表示“同上”。人類很容易理解的事情,人工智能就想不通。
再比如我們寫好了一段話,突然想在兩句之間新插入一句,就會(huì)打一個(gè)插入符號(hào),然后把新的字寫在縫隙里。這種意思AI就很難理解。
黃銳華解釋。
地獄級(jí)的情況還在后面——手寫字和印刷字同時(shí)出現(xiàn)在一張紙上。。。
舉幾個(gè)栗子:
比如,我在一個(gè)填空題上寫了“一”,但在人工智能看來(lái),這個(gè)“一”是一橫,下面的橫杠也是一橫,這不就是“二”么?
再比如,我在方格本里寫了“女人”,人工智能肯定會(huì)質(zhì)問(wèn)你,這TM不是“囡囚”是什么?
亂世須用重典,難題得上狠活。為了解決這個(gè)問(wèn)題,老師傅一股腦派了三個(gè) AI 出戰(zhàn):
首先,訓(xùn)練一個(gè)AI,它不負(fù)責(zé)識(shí)別文字,只用來(lái)分辨哪一筆是手寫的,哪一筆是印刷的。
然后,是正常的 AI 文字識(shí)別。由于剛才已經(jīng)盡可能把兩種筆畫分開,此時(shí)識(shí)別準(zhǔn)確率會(huì)大大提高。
最后,再派一個(gè) AI 結(jié)合上下文讀一讀通不通順。比如,“美好的一天“明顯就比“美好的二天”更通順;“她是個(gè)女人”,就比“她是個(gè)囡囚”更對(duì)嘛。。。
總之,兩個(gè)月后,黃銳華在會(huì)上蛋定地展示手寫文字提取 Demo 的時(shí)候,尹毅彬嚇得一蹦:老哥,你還真弄出來(lái)了呀!
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
有了“印刷體”+“手寫體”這兩個(gè)文字提取,夸克掃描王才多少配得上“王”的稱號(hào)。
想想看,無(wú)論是在書上看到語(yǔ)句,還是在街上看到標(biāo)語(yǔ),還是在插圖里看到內(nèi)嵌的文字,你都可以在朋友的注視下,從容地掏出手機(jī),一秒鐘把文字復(fù)制出來(lái),“咻——”地發(fā)給他,優(yōu)雅蛋定不臟手。
這感覺(jué)很酷。裝X利器不一定是一個(gè)好的生產(chǎn)力工具,但一個(gè)好的生產(chǎn)力工具,一定是個(gè)裝X利器。
手寫文字識(shí)別準(zhǔn)確率到了99%,手寫識(shí)別率到了90%,掃描王團(tuán)隊(duì)以為事情已經(jīng)做到八九不離十。然鵝,他們又錯(cuò)了。。。用戶就像一盒巧克力糖,你永遠(yuǎn)不知道下一個(gè)是神馬口味。
他們總能掃描“奇怪的東西”。。。
(四)去冒險(xiǎn)吧!
你看這個(gè):
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
一個(gè)公式,你猜夸克掃描王會(huì)掃出神馬效果?
有了剛才的鋪墊,你可能也成了半個(gè)專家:首先,夸克至少可以把公式當(dāng)成一個(gè)圖片來(lái)掃描(就像我現(xiàn)在把這個(gè)公式截圖插入文章一樣);但是,它有一個(gè)更優(yōu)雅的選擇——把公式像文字那樣“提取”出來(lái)。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
沒(méi)錯(cuò),這里遇到了一個(gè)比“文字提取”棘手一百倍的問(wèn)題:“格式提取”。
而且,“公式”最多只是所有煩人格式里的一種。咱們隨便看一張海報(bào),上面有圖片和文字混合排版,有各種字體,還有彎成蝦一樣的變形設(shè)計(jì)——這一切都是格式!
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
格式是魔鬼,反正我還記得大學(xué)時(shí)代被格式支配的恐懼。那時(shí)候?qū)懻撐模笆仔锌s進(jìn)”這么一個(gè)小問(wèn)題,經(jīng)常是刪一格太左,加一格太右,純純能把人逼瘋。
夸克這群人需要“降魔”。為了把一個(gè)圖片上的格式完整“扒”下來(lái),老師傅們專門去找其他文檔團(tuán)隊(duì)取經(jīng),把一整套文字格式處理邏輯嵌入掃描王。
事情還沒(méi)完,如果你把文字和圖像混合在一起排版,噩夢(mèng)直接翻十倍。
咱們還以掃描那張海報(bào)為例,靈魂拷問(wèn)一個(gè)接一個(gè):
難題一:哪里是圖案,哪里是文字?
海報(bào)的排版是放飛自我的。各種顏色的裝飾、斑點(diǎn)還有文字、字母、數(shù)字都摻雜在一起。
很多時(shí)候就連視力1.5的人都得仔細(xì)分辨哪個(gè)是“逗號(hào)”哪個(gè)是“底色里的裝飾黑點(diǎn)”。
難題二:到底是海報(bào)斜,還是圖案偏?
人眼有誤差,很難把海報(bào)拍得周正,總會(huì)有多多少少的偏角。這個(gè)時(shí)候系統(tǒng)理應(yīng)把海報(bào)轉(zhuǎn)正。
可問(wèn)題來(lái)了,假如海報(bào)上有一個(gè)藝術(shù)字,字體就是斜體的。那么,怎么判斷是“因?yàn)楹?bào)斜了這個(gè)字才斜了”還是“海報(bào)沒(méi)那么斜這個(gè)字本來(lái)就是斜的”?!
難題三:到底是圖案還是瑕疵?
有些海報(bào)很大,展開之后會(huì)有折痕。那請(qǐng)問(wèn),如何判斷一條線是海報(bào)上的圖案設(shè)計(jì),應(yīng)該保留,還是無(wú)用的折痕,需要抹除?
難題四:背景如何補(bǔ)足?
海報(bào)掃描出來(lái)是帶有格式的,這也就意味著你可以修改海報(bào)上的字。
可海報(bào)不再是 PS 文件,所有圖層都已經(jīng)融成一體。如果你刪掉了一個(gè)字,它下面就會(huì)露出一片恐怖的空白?。?yīng)該用什么顏色、圖案來(lái)填充呢?
這里面隨便一個(gè)問(wèn)題都是業(yè)界難題,但黃銳華挽起袖子,勞資不上秋名山,你們真當(dāng)我是賣豆腐的!
比如“折痕”和“圖案”,從三米開外可能看起來(lái)一樣,但是如果放大端詳,一定能找出二者區(qū)別。算法需要做的改進(jìn)就是“精細(xì)”。但做這么精細(xì)的微操,就代表云端 AI 要計(jì)算更多的數(shù)據(jù),耗費(fèi)更多的計(jì)算力。
比如“背景補(bǔ)足”,其實(shí)現(xiàn)在最先進(jìn)的AI算法是可以根據(jù)周圍的信息把中間的空白補(bǔ)充得以假亂真的。問(wèn)題還在于“數(shù)據(jù)量”和“計(jì)算力”,只有在云端猛堆機(jī)器,才能把這個(gè)活兒干漂亮。
AI 的殿堂歡迎技術(shù)流,但更歡迎人民幣玩家。
黃銳華告訴我,為了挑戰(zhàn)極限,他們已經(jīng)卷瘋了,2022年整個(gè)夸克云端的AI計(jì)算力已經(jīng)升級(jí)成最新一代的 GPU,上面跑的算法基本每個(gè)月都有升級(jí)更新。
此時(shí)此刻,雖然海報(bào)的掃描效果還沒(méi)達(dá)到他心中的完美境界,但相比世界范圍內(nèi)的同類產(chǎn)品,他還是可以拍胸脯的。
我?guī)湍阍嚵艘幌???
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
我們的用戶對(duì)排版接受很高的。從會(huì)員付費(fèi)情況就能知道,大家愿意為好的效果買單。
黃銳華不客氣。
說(shuō)回我們的故事。從2022年開始,夸克掃描王突然進(jìn)入了一個(gè)有趣的螺旋:能掃描的東西越奇怪,就有越多人用;越多人用,這群人就會(huì)去掃描更奇怪的東西。
正所謂,浪大了不知道催上來(lái)什么海鮮。
最近,通過(guò)各種渠道,老師傅開始看到有人拍歌單,有人拍樂(lè)譜,有人拍少數(shù)民族的文字,還有人拍一堆源代碼。
雖然他們沒(méi)說(shuō),但用戶肯定不會(huì)做無(wú)意義的動(dòng)作。
黃銳華說(shuō)。
于是,掃描王團(tuán)隊(duì)開始思考一些瘋狂的事情。比如,能不能內(nèi)嵌一個(gè)音樂(lè)播放引擎,讓掃描王看到五線譜就直接把音樂(lè)播放出來(lái)?比如,能不能加入一個(gè)模擬器,把看到的代碼直接運(yùn)行出來(lái)?
你看,從提取文字,到提取格式,現(xiàn)在到了“提取一切”。掃描這個(gè)坑比馬里亞納海溝還深。。。
當(dāng)然,這些只是一小部分例子,各種有趣的功能每天都在討論中,受限于各種因素最終未必都做出來(lái)。但老師傅敢討論這些東西,前提是掃描的核心技術(shù)已經(jīng)到了足夠“支撐花活兒”的地步。
“就拿代碼來(lái)說(shuō),它對(duì)格式極其敏感。同樣一個(gè)位置,放兩個(gè)空格和三個(gè)空格,意義就不相同了。如果掃描不對(duì),肯定執(zhí)行不對(duì)!”黃銳華解釋。
聊到這里,我頗有一點(diǎn)感慨。
用戶在拍這些奇怪的東西時(shí),肯定沒(méi)想這么多。但實(shí)際上,遠(yuǎn)在千里之外,他們所有靠譜不靠譜的嘗試都沒(méi)有被責(zé)怪,更沒(méi)有被忽視,而是被思考,被念念不忘,被必有回響。
如果說(shuō)存在“互聯(lián)網(wǎng)精神”的話,恐怕這就是互聯(lián)網(wǎng)精神的重要部分。
我在2020年曾經(jīng)和夸克的小伙伴們聊過(guò)一次(參考
《當(dāng)年輕人說(shuō)夸克真香的時(shí)候,他們?cè)谡f(shuō)什么》
),那個(gè)時(shí)候,我感覺(jué)夸克的用戶中學(xué)生比例極高——就是那些整日做題、搜題,純純的人生新手。
但如今看夸克掃描王的用戶,已經(jīng)大有不同。
他們之中可能有公司的人事經(jīng)理,需要經(jīng)常整理人員信息,備份合同;可能有工程師,需要掃描圖紙?jiān)龈脑O(shè)計(jì);可能有“包租婆”,需要掃描一份舊的租房合同,修改一下信息重新打印。
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
這張圖里有房屋租賃交割單、企業(yè)詢證函和材料計(jì)劃表。
這些用戶顯然已經(jīng)走出了人生的新手村,正在各自的戰(zhàn)場(chǎng)跟怪獸搏斗。
在我看來(lái)這是一個(gè)有愛的變化。
我試著想象這件事是怎么發(fā)生的:也許是在學(xué)生時(shí)代就用夸克的人長(zhǎng)大了,他們進(jìn)入了五花八門的工作崗位,仍然習(xí)慣依靠夸克解決問(wèn)題;也許是一些“老人”被年輕人安利“夸克yyds”,然后入坑。也有可能是兩種情況兼而有之。
但這一切之所以發(fā)生,恐怕是因?yàn)樵谝欢尾欢痰娜兆永?,夸克沒(méi)讓他們失望。
大多數(shù)時(shí)候,“維護(hù)信任”比“建立信任”更難。因?yàn)槟阋诼L(zhǎng)的歲月里時(shí)時(shí)審視自己——不僅審視自己的善,更要審視自己可能的惡。
(五)兄弟,信我!
在夸克日常收到的反饋里,有律師說(shuō)他用夸克掃描裁判文書,也有公司財(cái)務(wù)說(shuō)她會(huì)掃描經(jīng)營(yíng)數(shù)據(jù)。
看到這,你也許會(huì)有點(diǎn)隱隱的不舒服。
沒(méi)錯(cuò),大膽說(shuō)出來(lái)——這些數(shù)據(jù)涉及隱私,用夸克掃描王時(shí),數(shù)據(jù)經(jīng)過(guò)云端會(huì)不會(huì)有問(wèn)題?
這件事兒引發(fā)的大討論,居然沒(méi)有首先發(fā)生在夸克的用戶群里,而是在夸克團(tuán)隊(duì)內(nèi)部。
為了使后面的討論基于事實(shí),這里必須得強(qiáng)調(diào),夸克團(tuán)隊(duì)的任何人都不能查看用戶上傳的圖片,也不能以任何形式泄漏用戶上傳的數(shù)據(jù),約束他們的不只有自我道德,更有法律條文。
但你吃了幾碗粉,不是你說(shuō)了算。世界的運(yùn)行,也不能靠賭咒發(fā)誓。
比如,有很多公司,在規(guī)章制度里就寫明,禁止內(nèi)部數(shù)據(jù)上傳互聯(lián)網(wǎng),不管會(huì)不會(huì)引發(fā)問(wèn)題,反正不允許上傳;還有很多特殊的工作環(huán)境,本身就帶有信號(hào)屏蔽,這種情況下,就算讓你用都沒(méi)辦法用。
意識(shí)到這些問(wèn)題以后,夸克這群人決定緊急上線一個(gè)“補(bǔ)丁”——
離線掃描
。
你還記得一開始我們說(shuō)的掃描三步走嗎?1、本地裁剪;2、云端處理;3、發(fā)回本地導(dǎo)出文件。
所謂離線掃描,就是把第2步本該在云端完成的一切(去瑕疵、去手寫、文字提取、格式提取等等)統(tǒng)統(tǒng)都塞在手機(jī)里完成。數(shù)據(jù)從頭到尾都不出手機(jī),自然不會(huì)有隱私泄露的問(wèn)題。
這種“不出手機(jī)”是可驗(yàn)證的——你可以關(guān)掉網(wǎng)絡(luò),拔掉手機(jī)卡,進(jìn)入信號(hào)屏蔽室,whatever,只要手機(jī)有電,夸克掃描王就能工作。
可是,這個(gè)目標(biāo)會(huì)引發(fā)一個(gè)巨大的技術(shù)問(wèn)題:
算法團(tuán)隊(duì)剛剛使出吃奶的勁兒,把云端的計(jì)算力飆到最高,把算法卷到最新,才把掃描效果做到極致?,F(xiàn)在你端著手機(jī)告訴他,忘掉你們那可愛性感一望無(wú)際的小云朵吧,這個(gè)小盒才是算法的家啊。。。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
然而,暴躁老師傅黃銳華沒(méi)有掀桌子。相反,他非常支持。
他支持到了從本就人手不富裕的團(tuán)隊(duì)里分出一個(gè)小分隊(duì),專門做“離線算法”的程度。
把算法塞進(jìn)手機(jī),難度堪比把大象裝冰箱,嚴(yán)格來(lái)說(shuō)比把大象裝冰箱更難,因?yàn)樵贫怂惴ū仁謾C(jī)里的算法大100倍。而世界上沒(méi)有任何一個(gè)東西壓縮100倍之后還能保持原有的功能——這意味著大多數(shù)算法必須重寫。
老師傅沒(méi)日沒(méi)夜地飆車,終于,2020年8月“離線掃描”重磅上線,用1%的模型大小,實(shí)現(xiàn)了云端90%的水平。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
從一個(gè)角度看,離線掃描的水平非常驚艷,但從另一個(gè)角度看,它卻是一個(gè)“性價(jià)比非常差”的功能。
比如,它上線之后,被調(diào)用的數(shù)量并不多——因?yàn)榻^大多數(shù)情況下用戶掃描的都不是敏感信息,不會(huì)開啟離線模式。
比如,派一個(gè)專門的團(tuán)隊(duì)來(lái)持續(xù)維護(hù)離線算法非常不經(jīng)濟(jì)——相當(dāng)于一輛車同時(shí)有兩部引擎運(yùn)轉(zhuǎn),開銷巨大。
而且,還有一個(gè)非常難受的問(wèn)題:在大多數(shù)用戶的注意力沒(méi)有放在隱私風(fēng)險(xiǎn)的時(shí)候,主動(dòng)推出離線掃描,反而讓他們覺(jué)得怪異,有引火上身的風(fēng)險(xiǎn)。就像我忽然對(duì)你說(shuō):你猜我的褲子拉鏈有沒(méi)有拉上?哈哈,拉上啦!
但尹毅彬說(shuō),他們不這樣看問(wèn)題。
“一個(gè)功能好不好,不能純粹用數(shù)據(jù)來(lái)衡量。說(shuō)得不客氣一些,數(shù)據(jù)是會(huì)騙人的,有時(shí)你必須更相信自己的腦袋?!彼f(shuō)。
“但成本上總會(huì)有壓力吧?”我問(wèn)。
“當(dāng)然有壓力。壓力歸壓力,正確的事歸正確的事?!彼f(shuō),“況且,正確的事情早晚會(huì)帶來(lái)數(shù)據(jù)的回報(bào)?。〔挥脫?dān)心,長(zhǎng)期來(lái)看我們并不虧?!?br /> 講真,每個(gè)年輕人長(zhǎng)大的過(guò)程中,生活都會(huì)或早或晚給他上一堂必修課,那就是:當(dāng)越來(lái)越多人依賴你的時(shí)候,你身上就憑空出現(xiàn)了一種叫做責(zé)任的東西。而責(zé)任就是責(zé)任,它不會(huì)因?yàn)槟悴幌胴?fù)責(zé)任而變成別人的責(zé)任。
這是一個(gè)既簡(jiǎn)單又難的道理。簡(jiǎn)單到人人都能理解,卻難到極少有人能夠做到。
話說(shuō)回來(lái),性價(jià)比很高的事情,總共就那么三五件,智商正常的人都在做。真正把人和人、產(chǎn)品和產(chǎn)品區(qū)別開的,不就是誰(shuí)做了更多性價(jià)比不那么高,但正確的事情么?
倒不能說(shuō)夸克已經(jīng)是楷模,我的意思是他們努力的方向還挺性感的。
(六)我們各自還有一生的奇跡
王淮是一個(gè)對(duì)未來(lái)充滿想象的人。他具體在做的事情雖然只是一個(gè)夸克客戶端,但他卻相信,手機(jī)背后這幾顆小小的攝像頭里有關(guān)于未來(lái)的隱喻。
我們基于攝像頭做了很多不同的事情,但這背后有一條主線任務(wù)——
“理解世界”
。
比如我們最早做的萬(wàn)物識(shí)別,是理解鏡頭里的物品;現(xiàn)在我們做的掃描王,是理解一個(gè)平面上的信息。
如果向未來(lái)看,我們可以讓鏡頭對(duì)準(zhǔn)一切,比如你的視野里是街景,屏幕上就會(huì)把這個(gè)建筑的名字標(biāo)注出來(lái);比如你的視野里是一本書,就會(huì)把作者年代書評(píng)等等信息顯示出來(lái),英文書也可以實(shí)時(shí)翻譯成中文。
在我的個(gè)人觀點(diǎn)里,基于相機(jī)的工具的終極形態(tài),應(yīng)該是一個(gè)AR(增強(qiáng)現(xiàn)實(shí))助手。
他說(shuō)。
我在網(wǎng)上找到了一些AR未來(lái)應(yīng)用的片段???
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
(, 下載次數(shù): 7)
上傳
點(diǎn)擊文件名下載附件
我回味了一下他的描述,腦海里突然出現(xiàn)了一個(gè)奇怪的場(chǎng)景:
我是一個(gè)上班第一天的戰(zhàn)五渣,緊張到臉盲,連隔壁同事叫什么都忘了,這個(gè)時(shí)候,打開AR眼鏡上的掃描王,對(duì)方的名片,還有我們認(rèn)識(shí)的時(shí)間地點(diǎn),曾經(jīng)交談過(guò)的內(nèi)容,都出現(xiàn)在眼球幾厘米開外的小屏幕上,簡(jiǎn)直是社恐救星。
就在我盯著屏幕認(rèn)真研究對(duì)面這個(gè)人是誰(shuí)的時(shí)候,驚奇地發(fā)現(xiàn)他也在斜眼看自己的屏幕,奮力找出我是誰(shuí)。。。
這個(gè)場(chǎng)景等同于:一個(gè)游戲新手,正瑟瑟發(fā)抖站在曠野上,突然從天上掉下來(lái)一把滿級(jí)神刀,拿起來(lái)剛想大殺四方,發(fā)現(xiàn)身邊所有的對(duì)手也都瞬間添置了一模一樣的刀。。。
(, 下載次數(shù): 10)
上傳
點(diǎn)擊文件名下載附件
如今每個(gè)人都能坐在鐵鳥的肚子里飛到全世界任何一個(gè)地方,每個(gè)人能用帶芯片的板磚跟天邊的朋友通話,你并不會(huì)驚奇。因?yàn)楫?dāng)每個(gè)人都有神刀的時(shí)候,每個(gè)人就都沒(méi)有了神刀。
科技讓我們平等地進(jìn)步,平等到?jīng)]人大驚小怪。
如果真有什么是神奇的,在我看來(lái),是夸克團(tuán)隊(duì)和他們的用戶,這兩群年輕人一直在隔空“陪伴”。
當(dāng)年輕人上路,口袋里揣著一個(gè)精靈球,雖然牛鬼蛇神在前路夾道歡迎,但他們無(wú)比確信,在云端有一群和自己一樣逗比又好奇又不愿輕易認(rèn)輸?shù)膹?qiáng)迫癥、老司機(jī)、好哥們,在沒(méi)日沒(méi)夜地絞盡腦汁幫自己改進(jìn)精靈球,心里也許會(huì)稍稍安慰。
相信老哥我,以我三十多年對(duì)這個(gè)操蛋的世界的理解,哪怕是這種稍稍的安慰,都是人生中不可多得的珍貴情感。
能帶著情誼和一群朋友一起變大,變老,從戰(zhàn)五渣變成“老戰(zhàn)五渣”,反復(fù)吐槽那些只有你們之間才懂的爛梗,恐怕無(wú)需遠(yuǎn)求,人間至味是此清歡。
雖然你我終將老去,但總有人正年輕。
有一件事我們無(wú)比確信:在世界的角落里,永遠(yuǎn)有18歲的少年,他們?cè)谛率执蹇谧詈蠡赝?,然后扶一扶劍柄,決絕地走向荒野。
也許這時(shí),BGM還會(huì)響起那首老歌:你要去哪里,我去哪里,我也不在意。以后我們各自還有一生的奇跡。
(, 下載次數(shù): 8)
上傳
點(diǎn)擊文件名下載附件
再自我介紹一下吧。我叫
史中
,是一個(gè)傾心故事的科技記者。
我的日常是和各路大神聊天。
如果想和我做朋友,
可以搜索微信:shizhongmax,也可以關(guān)注微信公眾號(hào)淺黑科技:qianheikeji
史中:像素時(shí)代的黃昏和“淘寶叛軍”史中:夸克“兇猛”:一場(chǎng)手機(jī)鏡頭背后的狂野冒險(xiǎn)
歡迎光臨 愛鋒貝 (http://7gfy2te7.cn/)
Powered by Discuz! X3.4