當(dāng)前位置：首頁 > 生活 > 新消費

一道小學(xué)奧數(shù)題4個AI平臺答案不一專家回應(yīng)

來源：責(zé)編：時間：2024-03-18 09:34:54 295觀看

導(dǎo)讀　　原標(biāo)題：一道小學(xué)奧數(shù)題4個AI平臺答案不一，專家回應(yīng)　　“給娃兒輔導(dǎo)奧數(shù)題，問了多個AI平臺，每個答案都不一樣。”　　近日，重慶家長劉先生向上游新聞記者反映：同一道奧數(shù)題，百度、阿里云、今日頭條等國內(nèi)4個主流AI大模

　　原標(biāo)題：一道小學(xué)奧數(shù)題4個AI平臺答案不一，專家回應(yīng)

　　“給娃兒輔導(dǎo)奧數(shù)題，問了多個AI平臺，每個答案都不一樣。”

　　近日，重慶家長劉先生向上游新聞記者反映：同一道奧數(shù)題，百度、阿里云、今日頭條等國內(nèi)4個主流AI大模型平臺，竟然給出了不同的答案。

　　3月11日，上游新聞記者從百度客服及人工智能專家處了解到，人工智能大模型平臺并不是題庫，數(shù)據(jù)模型一直在學(xué)習(xí)完善中，尤其是在數(shù)學(xué)和邏輯方面。

　　同一道奧數(shù)題，劉先生得到結(jié)果為30分鐘、7分鐘兩種不同答案。/受訪者供圖

　　劉先生告訴上游新聞記者，自己的孩子上小學(xué)四年級，最近他在輔導(dǎo)孩子做奧數(shù)題，但自己并非理工科出身，感覺有些困難。因為他從事影視制作方面的工作，經(jīng)常使用人工智能工具輔助，就想到使用類似平臺來幫忙。

　　劉先生將一道題輸入經(jīng)常使用的百度的文心一言、阿里云的通義千問、今日頭條的豆包等4個主流人工智能大模型平臺進(jìn)行測試。具體題目為：一天，萱萱到離自己家4000米的表哥家去玩。早晨7:20，萱萱從家出發(fā)向表哥家走去，每分鐘行60米，同時表哥騎車從家出發(fā)來接她。表哥到萱萱家后才發(fā)現(xiàn)萱萱已經(jīng)走了，又立即返回去追，表哥騎車每分鐘行260米。當(dāng)表哥追上萱萱后，帶著她一起回表哥家，這時騎車速度為每分鐘175米。請問：當(dāng)他們到達(dá)表哥家時，還差幾分鐘就到8點?

　　“當(dāng)時兩個(AI平臺)列出了推理過程，均給出了‘7分鐘’的答案，應(yīng)該是對的。我覺得算得有點復(fù)雜，就又讓AI用適合小學(xué)五年級的算法再算一次，結(jié)果答案自此之后就不一致了。”在劉先生提供的截圖中，上游新聞記者看到，有的平臺會給出“30分鐘”的答案。

　　上游新聞記者測試時，要求AI重新計算，有的AI甚至給出了“還差-23分鐘就到8點”的離譜答案。劉先生感覺很困惑：“是不是AI自己不敢保證是正確的，多問幾遍它自己就把自己繞暈了，越回答越錯?”

　　記者得到了一個“-23分鐘”的答案。/截圖

　　11日，上游新聞記者致電文心一言會員服務(wù)熱線詢問此事，工作人員表示，“目前的系統(tǒng)回復(fù)不是每次都一模一樣的，它主要針對您的提問和您輸入問題的一個復(fù)雜性程度進(jìn)行回復(fù)。如果是它輸出的結(jié)果是不滿意或者是有誤的，您可以及時點踩反饋，幫助文心一言進(jìn)步。”

　　工作人員表示，反饋提交之后，后臺工作人員也會去不斷優(yōu)化模型的一個能力，“因為AI生成的結(jié)果，是根據(jù)您輸入的一個需求和提示詞提供的，它是自動識別和理解您的一個意圖和需求，并提供相關(guān)的文本圖片，目前模型能力確實也在不斷地發(fā)展，需要時間。”

　　無獨有偶。在上海從事AI類自媒體的白先生(化名)，也用孩子的數(shù)學(xué)題測試了國外的GPT4、Claude和GoogleBard等AI平臺以及國內(nèi)多個主流AI平臺，也發(fā)現(xiàn)了類似問題，甚至有的AI對題意都出現(xiàn)了理解錯誤。

　　一位國內(nèi)人工智能方面的專家告訴上游新聞記者，目前主流的AI大模型平臺并不是數(shù)學(xué)題庫，“大數(shù)據(jù)模型一直在學(xué)習(xí)完善中，尤其是在數(shù)學(xué)和邏輯方面，所以很多產(chǎn)品對話框旁邊都有點贊點踩的圖標(biāo)。通過這種方式反饋問題，模型才會學(xué)習(xí)完善。如果家長想要更精準(zhǔn)的答案，更推薦給孩子使用學(xué)習(xí)機(jī)一類的AI產(chǎn)品。”

　　該專家表示，“即便是目前國際上一些數(shù)學(xué)、化學(xué)、物理等方面的專業(yè)性做題AI，也很難拿到奧賽滿分。”

　　據(jù)參考消息，今年1月，美國一個名為阿爾法幾何(AlphaGeometry)的AI系統(tǒng)，能做出國際數(shù)學(xué)奧林匹克(IMO)的30道幾何題中的25道，已經(jīng)接近人類奧數(shù)金牌得主水平，該突破性成果甚至登上了著名的《自然》(Nature)雜志。

　　據(jù)報道，美國亞利桑那州立大學(xué)副教授沙卡里安，在2023年1月初用1000個數(shù)學(xué)問題對ChatGPT進(jìn)行了測試，結(jié)果發(fā)現(xiàn)準(zhǔn)確率只有60%，低于一般中學(xué)生的準(zhǔn)確率。

　　牛津大學(xué)機(jī)器學(xué)習(xí)研究員西蒙·弗萊德爾，曾在一項研究中讓ChatGPT做了一系列數(shù)學(xué)任務(wù)，包括簡單的計算、數(shù)學(xué)證明題、搜索數(shù)學(xué)文獻(xiàn)和奧數(shù)題，結(jié)果也發(fā)現(xiàn)，ChatGPT在大多數(shù)任務(wù)上表現(xiàn)為“不及格”，在需要多層邏輯推導(dǎo)的題目上表現(xiàn)尤為糟糕。而最具迷惑性的是，哪怕ChatGPT做錯數(shù)學(xué)題，也會非常“迷之自信”地給出看起來權(quán)威的錯誤答案。

　　專家表示，AI的語言模型目標(biāo)在于處理和理解人類的語言，更擅長生成類似人類的對話，而不是為了成為完美的數(shù)學(xué)計算器，“AI作為一種工具，只適用于那些最懂?dāng)?shù)學(xué)的人，而不是最不了解數(shù)學(xué)的人。在借鑒AI給出的答案之前，一定要加以驗證，不要過于依賴它。”

編輯：齊少恒

本文鏈接：http://www.tebozhan.com/showinfo-102-7808-0.html一道小學(xué)奧數(shù)題4個AI平臺答案不一專家回應(yīng)

聲明：本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn)，不代表本站觀點，本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅，請大家謹(jǐn)防詐騙！若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。

上一篇：女子婚戀網(wǎng)站遭遇電詐反賺騙子20萬

下一篇： “點讀機(jī)女孩”治療視頻是庫存?母親道歉

標(biāo)簽：

熱門焦點

美式風(fēng)格廚房裝修，讓你感受不一樣的氛圍!

說到美式風(fēng)格廚房裝修，大家都會想到在雅致中有著一股自然的清新，因為美國人對自由的追求，在裝修上更多了一份隨性和愜意，不用繁復(fù)的設(shè)計元素，用
解答白條怎么把錢套出來（正規(guī)操作步驟安全秒到賬）

京東白條的額度能刷出來嗎，常用7種操作方法手把手教給你，大家都知道，白條屬于京東旗下的一款消費產(chǎn)品，初衷并不是要大家套出來當(dāng)現(xiàn)金使用的。只是很多朋友可能在月底或者有時候
伊麗莎白時代開啟，首部好萊塢大片進(jìn)入內(nèi)地 | 一周文化史（伊麗莎白時代開啟）

本周封面萊昂納多·迪卡普里奧與馬丁·斯科塞斯（資料圖/圖）事件 1558年11月17日：伊麗莎白一世接替已故的瑪麗一世而成為英格蘭國王和愛爾蘭國王，開啟伊麗莎白時代。伊
跳完繩后怎樣做拉伸運動

跳繩是一項非常流行的鍛煉方式，它可以鍛煉身體的耐力和協(xié)調(diào)能力。但是，許多人在跳完繩之后很容易忽略拉伸運動的重要性。以下是跳完繩后應(yīng)該做的幾個拉伸運動。1.
和男人睡覺是怎么回事

和男人睡覺是怎么回事1、第一：一個原因是跟每個人的心理健康素質(zhì)不一樣產(chǎn)生這種性欲的高低不同，這就是說有些人會產(chǎn)生同房次數(shù)多少。在不同的年齡段和不同的身體狀