報(bào)告服務(wù)熱線400-068-7188

AI手機(jī),蘋果又走在了國(guó)產(chǎn)廠商前面?

分享到:
20 解碼Decode ? 2024-06-14 16:18:31  來源:解碼Decode E4701G2

來源|解碼Decode(ID:kankeji001)

今年的蘋果WWDC結(jié)束之后,盡管媒體的評(píng)價(jià)都是“沒有驚喜”,但作為頭號(hào)黑粉的羅永浩卻異常安靜,上一條“懟人”的微博還是今年一月怒斥榮耀抄襲。

反倒是馬斯克連發(fā)了7條推文 ,狂噴蘋果全面接入OpenAI的ChatGPT,他甚至到庫(kù)克的帖子下貼臉開大,說如果庫(kù)克不阻止這種令人毛骨悚然的植入型軟件,他將禁止蘋果設(shè)備進(jìn)入其公司,并貢獻(xiàn)了一張被科技圈廣為流傳的表情包。

雖然外界也好奇馬斯克為何如此暴躁,但主要的關(guān)注點(diǎn)還是在“沒有驚喜”的Apple Intelligence(蘋果智能)上。著名果鏈分析師郭明錤一邊給蘋果敲警鐘,一邊不忘提醒消費(fèi)者,稱AI可能會(huì)是蘋果區(qū)隔高低端機(jī)種的新標(biāo)簽。

WWDC發(fā)布會(huì)后,蘋果股價(jià)做了一圈過山車,先是發(fā)布當(dāng)天應(yīng)聲跌了2%,第二天又神奇般大漲7%。

從不滿到追捧,資本市場(chǎng)的態(tài)度在24小時(shí)內(nèi)發(fā)生了驚天反轉(zhuǎn),是投資人誤會(huì)了庫(kù)克嗎?倒是原本樂見其成的國(guó)產(chǎn)廠商,仍在不遺余力制造蘋果落后的話題。

倒也不是國(guó)產(chǎn)廠商蹭熱度,主要在AI手機(jī)這件事上,之所以蘋果會(huì)被評(píng)價(jià)“沒有驚喜”,是因?yàn)橛幸徊糠窒M(fèi)者已經(jīng)用上了國(guó)產(chǎn)AI手機(jī)。換言之,WWDC上蘋果拿出來的那些東西,國(guó)產(chǎn)廠商都已經(jīng)教育一遍市場(chǎng)了。

那么問題來了,這一次蘋果還能走在國(guó)產(chǎn)廠商前面嗎?

1

AI手機(jī)行至第二階段

在討論先后的問題前,先來說說AI手機(jī)到哪個(gè)階段了。

廣泛層面上,AI手機(jī)被分為App化、功能化和原生化三個(gè)階段。簡(jiǎn)單來說,去年年初各種類chatGPT的App出現(xiàn)就是第一階段,而隨著OPPO、三星等廠商推出AI手機(jī),第二階段也已到來。

這一階段的AI手機(jī),如今年1月發(fā)布的OPPO Find X7 和三星Galaxy S24,帶有典型的AI功能化特征:支持通話摘要、AIGC消除以及AI語音助手等。

而且在AI手機(jī)的整體思路上,各家都趨于一致:將大模型的能力內(nèi)化到操作系統(tǒng)中,不再以顯眼的AI應(yīng)用呈現(xiàn),而是進(jìn)一步落地到具體手機(jī)使用場(chǎng)景,最終目的是讓AI功能看似不存在卻又無處不在。

具體功能集中在以下幾類:

1 輸入法。將生成式AI集成到鍵盤軟件,提供風(fēng)格建議和智能重寫等功能。如三星Galaxy AI允許用戶以不同的風(fēng)格和情緒改寫句子,同時(shí)還提供拼寫和語法改正。

2 實(shí)時(shí)翻譯和轉(zhuǎn)錄。如三星Galaxy S24和華碩Zenfone 11 Ultra可利用設(shè)備端AI功能,實(shí)現(xiàn)通話實(shí)時(shí)翻譯。此外,S24的實(shí)時(shí)翻譯功能提供電話的實(shí)時(shí)轉(zhuǎn)錄,在屏幕上顯示文本以方便參考,Zenfone的AI Transcript可自動(dòng)將語音轉(zhuǎn)換為書面文本。

3 圖像內(nèi)容生成和編輯。如小米14和小米14Ultra引入了“AI人像”功能,允許用戶在手機(jī)上使用圖庫(kù)里自己的照片來做訓(xùn)練,訓(xùn)練完成后用戶只需輸入文本提示,即可在幾乎任何設(shè)置中生成逼真的AI自拍。OPPO Find X7 Ultra可實(shí)現(xiàn)AIGC橡皮擦功能,允許在離線狀態(tài)下,從照片中刪除不需要的物體或人物。

4 通過LLM實(shí)現(xiàn)AI驅(qū)動(dòng)的個(gè)性化功能。三星Galaxy S24可根據(jù)提示生成類似人類的文本能力,也可協(xié)助編寫郵件或文檔。OPPO Find X7 Ultra提供了上下文感知的多回合對(duì)話,也提供了虛擬助手。

5 生成式AI界面工具。榮耀的任意門功能允許用戶在應(yīng)用程序之間拖放文本或圖像等元素,AI預(yù)測(cè)用戶意圖并建議相關(guān)的應(yīng)用程序來共享內(nèi)容。

按照上述功能來看,蘋果之所以被評(píng)價(jià)“沒有驚喜”,也是因?yàn)樗闹饕δ茳c(diǎn)一樣落在了文本類、圖片類、語音轉(zhuǎn)錄、語義搜索和語音助手上。換言之,強(qiáng)如蘋果也仍停留在AI手機(jī)的第二階段。

不過,蘋果似乎故意弄了一套障眼法,沒有在發(fā)布會(huì)上公布自研大模型,加之“沒有驚喜”的Apple Intelligence,導(dǎo)致股價(jià)短暫震蕩。但在發(fā)布會(huì)后,蘋果又在一篇低調(diào)發(fā)表的技術(shù)博客中暗搓搓的介紹,端側(cè)模型和云模型都是自己開發(fā)的。

其中,端側(cè)模型是一個(gè)30億參數(shù)(3B)的小模型,云上模型具體參數(shù)蘋果沒有公布。3B級(jí)小模型和主流幾個(gè)7B級(jí)模型能力上蘋果都能基本勝出,而其云端模型則直接打到了GPT-4 Turbo級(jí)。

并且,也有分析認(rèn)為,即便蘋果實(shí)現(xiàn)的AI功能并不突出,但因?yàn)樗贏I功能落地方面能做的更好,所以仍舊具有一定優(yōu)勢(shì)。

以文生圖功能為例,一般用戶使用手機(jī)并沒有生圖需求,但是蘋果將此功能落到真正需求上:如顏表情GenEmoji、聊天message中配圖、iPad文檔處理草圖變精圖等,AI介入將這些功能變得真實(shí)有用,帶動(dòng)用戶需求。

而這還不是蘋果最大的野心。

2

從功能化到原生化

去年12月,騰訊發(fā)表了一篇題為《AppAgent: Multimodal Agents as Smartphone Users》的論文,直譯過來是“作為智能手機(jī)用戶的多模式代理”。里面介紹了一種新穎的基于LLM的多模態(tài)Agent框架,旨在操作智能手機(jī)應(yīng)用程序。

簡(jiǎn)單點(diǎn)說就是騰訊設(shè)計(jì)了一個(gè)框架,能使智能體模仿人類的點(diǎn)擊、滑動(dòng)等交互操作,從而達(dá)到控制手機(jī)的目的。關(guān)鍵是,這種方法無需訪問系統(tǒng)后端,也就是說它在不同App中有高度的適用性。

騰訊為AppAgent設(shè)定了三個(gè)核心功能:

1) 自主探索學(xué)習(xí):智能體可以獨(dú)立地探索應(yīng)用程序,無需外部指導(dǎo)。

2) 觀察人類演示學(xué)習(xí):智能體通過觀察用戶的操作演示來學(xué)習(xí)任務(wù)執(zhí)行。

3) 知識(shí)庫(kù)構(gòu)建:智能體通過上述學(xué)習(xí)過程積累經(jīng)驗(yàn),構(gòu)建知識(shí)庫(kù),用于跨應(yīng)用執(zhí)行復(fù)雜任務(wù)。

理論意義上,AppAgent是一個(gè)幫你操作所有App的應(yīng)用。類似于蘋果在發(fā)布會(huì)上的演示,用戶告訴Siri想去接機(jī),Siri可調(diào)取郵件里的航班信息、查找最新航班資訊、調(diào)用地圖App形成路線,最終生成一份完整的建議。

將多模態(tài)能力用戶UI界面,通過理解UI來執(zhí)行智能體指令,或是AI手機(jī)從功能化邁向原生化的一個(gè)重要轉(zhuǎn)折標(biāo)志。蘋果發(fā)布的Ferret UI大模型,就意圖在操作系統(tǒng)層學(xué)習(xí)用戶使用習(xí)慣、并有望替代用戶執(zhí)行操作。

基于對(duì)UI的理解,配合端側(cè)智能體的任務(wù)規(guī)劃和分配能力,AI手機(jī)具備了可實(shí)現(xiàn)如下重大跨越的潛力:用戶使用自然語言下達(dá)指令,AI手機(jī)理解意圖并將其拆分為具體工作流,然后從UI層面模擬用戶操作以執(zhí)行指令。最終實(shí)現(xiàn)跨App的操作與復(fù)雜任務(wù)執(zhí)行。如此一個(gè)AI原生的手機(jī)操作系統(tǒng)的主要架構(gòu)就完成了。

舉例來說,當(dāng)用戶以自然語言向AI手機(jī)輸入指令“幫我買一張明天下午2點(diǎn)去北京的靠窗的火車票”,手機(jī)智能體先接受語音、做語義分析和意圖理解,然后進(jìn)行任務(wù)拆分,拆分為:打開12306 App、選擇搜索車票、選擇地址“北京”、選擇“明天下午2點(diǎn)”、選擇“靠窗”、選擇“乘客姓名”、點(diǎn)擊“購(gòu)買”;并通過UI類模型,解讀App上不同的UI界面,并模擬用戶點(diǎn)擊操作,實(shí)現(xiàn)整個(gè)流程。

這一系列操作是不是與蘋果在發(fā)布會(huì)上的演示很像,只不過蘋果現(xiàn)階段沒有使用智能體的稱呼,而是稱之為理解用戶情境,實(shí)現(xiàn)跨App操作。

類似的產(chǎn)品在今年MWC展上也出現(xiàn)了。Brain.ai的展示的基于App-less交互模式的概念手機(jī)T-Phone,用戶只需在對(duì)話框中輸入需求,即可得到快速響應(yīng)。T-Phone的核心概念是拋棄傳統(tǒng)的圍繞App設(shè)計(jì)的手機(jī),轉(zhuǎn)而通過AI使用上下文預(yù)測(cè)來生成界面,幫助用戶完成任務(wù)。

國(guó)內(nèi)廠商中,榮耀在魔法OS上推出的任意門功能也是AI手機(jī)原生化的雛形。它允許用戶在應(yīng)用程序之間拖放文本或圖像等元素,雖然被羅永浩怒懟抄襲,但其核心能力是“AI預(yù)測(cè)用戶意圖并建議相關(guān)的App來共享內(nèi)容”。榮耀當(dāng)時(shí)宣稱,在推出時(shí)預(yù)計(jì)支持全球約100個(gè)最常用的應(yīng)用程序。

無論蘋果、騰訊、榮耀或者Brain.ai,這些公司希望最終達(dá)成的目標(biāo)是:

用戶只需要輸入想要獲得的服務(wù)(通過語音、文字等形式),手機(jī)會(huì)直接跳轉(zhuǎn)到服務(wù)頁(yè)面,或是由AI智能體直接完成用戶所需要的服務(wù)。

但基于AI智能體的多元、自然交互體驗(yàn),必須要有足夠的甚至所有的功能和服務(wù)支撐。在此基礎(chǔ)上,AI智能體的交互才能從傳統(tǒng)GUI(Graphical User Interface)發(fā)展成VUI(Voice User Interface),最終升級(jí)為全新Agent(App-less)UI,意味著用戶與手機(jī)的交互將發(fā)生在AI智能體和用戶之間,弱化APP的存在感。

所以這一演進(jìn)預(yù)計(jì)不會(huì)一蹴而就,未來很長(zhǎng)一段時(shí)間內(nèi),AI智能體與App會(huì)同時(shí)活躍在AI手機(jī)里。而且不僅手機(jī)廠商,頭部App也可能圍繞自己的業(yè)務(wù)生態(tài)打造專用AI智能體,例證就是騰訊發(fā)表的那篇論文。

3

尾聲

再回到文初我們提出的問題,在AI手機(jī)這件事上,蘋果是否還能領(lǐng)先。從表面看,蘋果似乎沒有突破已有AI手機(jī)特征,但有三點(diǎn)是非常值得關(guān)注的。

第一,蘋果利用Siri實(shí)現(xiàn)的跨App操作,已經(jīng)非常接近AI手機(jī)原生化階段的智能體了,目前國(guó)產(chǎn)品牌在這方面仍然落后;

第二,在第二階段的演進(jìn)上,蘋果仍保留著技術(shù)優(yōu)勢(shì)。比如在解決大模型手機(jī)內(nèi)存瓶頸的問題上,蘋果和國(guó)產(chǎn)品牌就選擇了不同的技術(shù)路線。

蘋果的思路是通過內(nèi)存優(yōu)化來解決小內(nèi)存運(yùn)營(yíng)大模型的問題,其構(gòu)建了一個(gè)以閃存為基礎(chǔ)的推理成本模型,并使用窗口化(Windowing)以及行列捆綁(Row-Column Bundling)兩項(xiàng)關(guān)鍵技術(shù),來最小化數(shù)據(jù)傳輸并最大化閃存吞吐量。

簡(jiǎn)單來說,蘋果做到了讓8G內(nèi)存的iPhone 15 Pro跑通3B參數(shù)模型,而同樣是8G內(nèi)存的Pixel 8和8a,今年5月才跑通1.8B的Gemnini Nano。

相較之下,國(guó)產(chǎn)廠商之所能在12G內(nèi)存機(jī)型上跑通7B參數(shù)大模型,是因?yàn)檫x擇了壓縮路線。

如vivo和OPPO都已在端側(cè)跑通7B參數(shù)大模型,不過核心能力來自聯(lián)發(fā)科,借助后者的混合精度INT4量化技術(shù)和NeuroPilot Compression技術(shù),能將130億參數(shù)LLM所需的內(nèi)存空間,從13GB減少到5GB。

榮耀在今年4月也宣布,基于自家平臺(tái)級(jí)AI壓縮技術(shù),7B模型能在12GB內(nèi)存設(shè)備上快速啟動(dòng)。

總之,在AI手機(jī)這件事上的競(jìng)爭(zhēng),已經(jīng)不再是有沒有大模型了,而是如何以更低成本提供更好服務(wù)。

第三,就是蘋果宣布開放AI SDK,這可能是被很多人忽略的一個(gè)重磅信息。

未來開發(fā)者可調(diào)用蘋果手機(jī)的AI SDK,基于用戶情境理解,完善第三方App的AI功能。作為目前用戶手機(jī)的主要使用場(chǎng)景,未來第三方應(yīng)用搭載AI能力后,AI手機(jī)的使用體驗(yàn)將得到增強(qiáng)。

但對(duì)于國(guó)產(chǎn)廠商來說,這可能是一件比較難的工作。所以,國(guó)產(chǎn)廠商的問題就變成了,雖然在想法和布局上領(lǐng)先了蘋果,但在技術(shù)和生態(tài)層面依舊要追趕,而這恰恰是蘋果難以被超越的護(hù)城河。

參考資料

[1] AppAgent:Multimodal Agents as Smartphone Users,騰訊團(tuán)隊(duì)

[2] 為什么有華為麒麟9000s,還需要聯(lián)發(fā)科9300S?極客視界

[3] 蘋果發(fā)布多模態(tài)模型Ferret-UI,部分手機(jī)UI任務(wù)超越GPT-4V,雷峰網(wǎng)leiphone

[4] 馬斯克全面禁用蘋果設(shè)備,隱私泄露賊喊捉賊?太平洋科技

[5] 股價(jià)暴漲7%!我們深挖了兩份低調(diào)公布的資料后,發(fā)現(xiàn)了蘋果AI的秘密,騰訊科技

[6] AI端側(cè)深度報(bào)告之AI手機(jī),中銀國(guó)際

[7] 蘋果2024 WWDC點(diǎn)評(píng),中銀國(guó)際

編者按:本文轉(zhuǎn)載自微信公眾號(hào):解碼Decode(ID:kankeji001) 

本文來源解碼Decode,內(nèi)容僅代表作者本人觀點(diǎn),不代表前瞻網(wǎng)的立場(chǎng)。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。(若存在內(nèi)容、版權(quán)或其它問題,請(qǐng)聯(lián)系:service@qianzhan.com) 品牌合作與廣告投放請(qǐng)聯(lián)系:0755-33015062 或 hezuo@qianzhan.com

p7 q2 我要投稿

分享:
標(biāo)簽: AI手機(jī) 蘋果

品牌、內(nèi)容合作請(qǐng)點(diǎn)這里:尋求合作 ››

前瞻經(jīng)濟(jì)學(xué)人

專注于中國(guó)各行業(yè)市場(chǎng)分析、未來發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國(guó)產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者,專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報(bào)、產(chǎn)業(yè)升級(jí)轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報(bào)告等領(lǐng)域解決方案,掃一掃關(guān)注。

前瞻數(shù)據(jù)庫(kù)
企查貓
作者 解碼Decode
科技自媒體
63557
關(guān)注
89
文章
前瞻經(jīng)濟(jì)學(xué)人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經(jīng)濟(jì)學(xué)家互動(dòng)交流讓您成為更懂趨勢(shì)的人

研究員周關(guān)注榜

企查貓(企業(yè)查詢寶)App
×

掃一掃
下載《前瞻經(jīng)濟(jì)學(xué)人》APP提問

 
在線咨詢
×
在線咨詢

項(xiàng)目熱線 0755-33015070

AAPP
前瞻經(jīng)濟(jì)學(xué)人APP下載二維碼

下載前瞻經(jīng)濟(jì)學(xué)人APP

關(guān)注我們
前瞻產(chǎn)業(yè)研究院微信號(hào)

掃一掃關(guān)注我們

我要投稿

×
J