“உலகில் புத்திசாலி” grok3 ஐ சோதிக்கிறது

AIPU வாட்டன் குழு (1)

அறிமுகம்

க்ரோக் 3 முன் பயிற்சி பெற்ற மாடல்களின் "இறுதிப் புள்ளியாக" இருக்கும் என்று நினைக்கிறீர்களா?

எலோன் மஸ்க் மற்றும் XAI குழு ஆகியவை க்ரோக் 3 இன் சமீபத்திய பதிப்பை ஒரு லைவ்ஸ்ட்ரீமின் போது அதிகாரப்பூர்வமாக அறிமுகப்படுத்தின. இந்த நிகழ்வுக்கு முன்னர், மஸ்கின் 24/7 விளம்பர மிகைப்படுத்தலுடன் கணிசமான அளவு தொடர்புடைய தகவல்கள், GROK3 க்கான உலகளாவிய எதிர்பார்ப்புகளை முன்னோடியில்லாத நிலைகளுக்கு உயர்த்தின. ஒரு வாரத்திற்கு முன்பு, மஸ்க் ஒரு லைவ்ஸ்ட்ரீமின் போது டீப்ஸீக் ஆர் 1 பற்றி கருத்து தெரிவிக்கும்போது, ​​"ஜாய் ஒரு சிறந்த AI மாடலை அறிமுகப்படுத்த உள்ளார்" என்று நம்பிக்கையுடன் கூறினார். நேரலையில் வழங்கப்பட்ட தரவுகளிலிருந்து, கணிதம், அறிவியல் மற்றும் நிரலாக்கங்களுக்கான வரையறைகளில் தற்போதைய அனைத்து பிரதான மாதிரிகளையும் க்ரோக் 3 மிஞ்சியதாகக் கூறப்படுகிறது, மஸ்க் கூட, ஸ்பேஸ்எக்ஸ் செவ்வாய் பயணங்கள் தொடர்பான கணக்கீட்டு பணிகளுக்கு க்ரோக் 3 பயன்படுத்தப்படும் என்று கூறி, "மூன்று ஆண்டுகளுக்குள் நோபல் பரிசு மட்டத்தில் முன்னேற்றங்கள்" என்று கணித்துள்ளது. இருப்பினும், இவை தற்போது மஸ்கின் கூற்றுக்கள். துவக்கத்திற்குப் பிறகு, நான் GROK3 இன் சமீபத்திய பீட்டா பதிப்பை சோதித்தேன் மற்றும் பெரிய மாடல்களுக்கான கிளாசிக் தந்திர கேள்வியை முன்வைத்தேன்: "இது பெரியது, 9.11 அல்லது 9.9?" வருந்தத்தக்கது, எந்தவொரு தகுதி அல்லது அடையாளங்களும் இல்லாமல், ஸ்மார்ட் க்ரோக் 3 என்று அழைக்கப்படுபவை இன்னும் இந்த கேள்விக்கு சரியாக பதிலளிக்க முடியவில்லை. க்ரோக் 3 கேள்வியின் பொருளை துல்லியமாக அடையாளம் காணத் தவறிவிட்டது.

 

இந்த சோதனை விரைவாக பல நண்பர்களிடமிருந்து கணிசமான கவனத்தை ஈர்த்தது, தற்செயலாக, வெளிநாடுகளில் உள்ள பல்வேறு ஒத்த பல்வேறு சோதனைகள் அடிப்படை இயற்பியல்/கணித கேள்விகளுடன் க்ரோக் 3 போராடுவதைக் காட்டியுள்ளன, "பீசாவின் சாய்ந்த கோபுரத்திலிருந்து எந்த பந்து முதலில் விழுகிறது?" எனவே, இது நகைச்சுவையாக "எளிய கேள்விகளுக்கு பதிலளிக்க விரும்பாத ஒரு மேதை" என்று பெயரிடப்பட்டுள்ளது.

640

Grok3 நல்லது, ஆனால் இது R1 அல்லது O1-PRO ஐ விட சிறந்தது அல்ல.

க்ரோக் 3 நடைமுறையில் பல பொதுவான அறிவு சோதனைகளில் "தோல்விகளை" அனுபவித்தது. XAI வெளியீட்டு நிகழ்வின் போது, ​​எக்ஸைல் 2 இன் விளையாட்டு பாதையிலிருந்து கதாபாத்திர வகுப்புகள் மற்றும் விளைவுகளை பகுப்பாய்வு செய்ய க்ரோக் 3 ஐப் பயன்படுத்தி மஸ்க் நிரூபித்தார், அதை அவர் அடிக்கடி விளையாடுவதாகக் கூறினார், ஆனால் க்ரோக் 3 வழங்கிய பெரும்பாலான பதில்கள் தவறானவை. லைவ்ஸ்ட்ரீமின் போது கஸ்தூரி இந்த வெளிப்படையான சிக்கலை கவனிக்கவில்லை.

 

இந்த தவறு, வெளிநாட்டு நெட்டிசன்களுக்கு கேமிங்கில் "ஒரு மாற்றீட்டைக் கண்டுபிடிப்பதற்காக" கஸ்தூரி கேலி செய்ய கூடுதல் ஆதாரங்களை வழங்கியது மட்டுமல்லாமல், நடைமுறை பயன்பாடுகளில் க்ரோக் 3 இன் நம்பகத்தன்மை குறித்து குறிப்பிடத்தக்க கவலைகளையும் எழுப்பியது. அத்தகைய "மேதைக்கு", அதன் உண்மையான திறன்களைப் பொருட்படுத்தாமல், செவ்வாய் கிரக ஆய்வு பணிகள் போன்ற மிகவும் சிக்கலான பயன்பாட்டு காட்சிகளில் அதன் நம்பகத்தன்மை சந்தேகத்தில் உள்ளது.

 

தற்போது, ​​grok3 வாரங்களுக்கு முன்பு அணுகலைப் பெற்ற பல சோதனையாளர்களும், நேற்று சில மணிநேரங்களுக்கு மாதிரி திறன்களை சோதித்தவர்களும் ஒரு பொதுவான முடிவை சுட்டிக்காட்டுகிறார்கள்: "GROK3 நல்லது, ஆனால் இது R1 அல்லது O1-PRO ஐ விட சிறந்தது அல்ல."

640 (1)

"என்விடியாவை சீர்குலைக்கும்" பற்றிய ஒரு விமர்சன முன்னோக்கு

வெளியீட்டின் போது அதிகாரப்பூர்வமாக வழங்கப்பட்ட பிபிடியில், சாட்போட் அரங்கில் GROK3 "மிகவும் முன்னால்" இருப்பதாகக் காட்டப்பட்டது, ஆனால் இந்த புத்திசாலித்தனமாக பயன்படுத்தப்பட்ட கிராஃபிக் நுட்பங்கள்: லீடர்போர்டில் உள்ள செங்குத்து அச்சு 1400-1300 மதிப்பெண் வரம்பில் மட்டுமே பட்டியலிடப்பட்ட முடிவுகள், சோதனை முடிவுகளில் அசல் 1% வேறுபாடு இந்த விளக்கக்காட்சியில் விதிவிலக்காக குறிப்பிடத்தக்கதாக தோன்றுகிறது.

640

உண்மையான மாதிரி மதிப்பெண் முடிவுகளில், டீப்ஸீக் ஆர் 1 மற்றும் ஜிபிடி -4.0 ஐ விட க்ரோக் 3 வெறும் 1-2% முன்னால் உள்ளது, இது நடைமுறை சோதனைகளில் பல பயனர்களின் அனுபவங்களுக்கு ஒத்திருக்கிறது, அது "குறிப்பிடத்தக்க வேறுபாடு இல்லை" என்று கண்டறியப்பட்டுள்ளது. GROK3 அதன் வாரிசுகளை 1%-2%மட்டுமே தாண்டியது.

640

தற்போது பொதுவில் சோதிக்கப்பட்ட அனைத்து மாதிரிகளை விட க்ரோக் 3 அதிக மதிப்பெண் பெற்றிருந்தாலும், பலர் இதை தீவிரமாக எடுத்துக் கொள்ளவில்லை: எல்லாவற்றிற்கும் மேலாக, XAI முன்பு க்ரோக் 2 சகாப்தத்தில் "மதிப்பெண் கையாளுதலுக்காக" விமர்சிக்கப்பட்டார். லீடர்போர்டு பதில் நீள பாணிக்கு அபராதம் விதிக்கப்பட்டதால், மதிப்பெண்கள் வெகுவாகக் குறைந்துவிட்டன, தொழில்துறை உள்நாட்டினர் "அதிக மதிப்பெண் ஆனால் குறைந்த திறன்" என்ற நிகழ்வை அடிக்கடி விமர்சிக்க வழிவகுத்தனர்.

 

லீடர்போர்டு "கையாளுதல்" மூலமாகவோ அல்லது விளக்கப்படங்களில் வடிவமைப்பு தந்திரங்கள் மூலமாகவோ, அவை மாதிரி திறன்களில் "பேக்கை வழிநடத்துகின்றன" என்ற கருத்தை XAI மற்றும் மஸ்க்கின் ஆர்வத்தை வெளிப்படுத்துகின்றன. இந்த விளிம்புகளுக்கு மஸ்க் ஒரு செங்குத்தான விலையை செலுத்தினார்: துவக்கத்தின் போது, ​​200,000 எச் 100 ஜி.பீ.யுகளைப் பயன்படுத்துவதாக பெருமை பேசினார் (லைவ்ஸ்ட்ரீமின் போது "100,000 க்கும் அதிகமானவை" என்று கூறி) மொத்தம் 200 மில்லியன் மணிநேர பயிற்சி நேரத்தை அடைந்தார். இது ஜி.பீ.யூ துறையில் மற்றொரு குறிப்பிடத்தக்க வரத்தை குறிக்கிறது என்றும், இந்தத் துறையில் டீப்ஸீக்கின் தாக்கத்தை "முட்டாள்தனமாக" கருதுவதாகவும் சிலர் நம்பினர். குறிப்பாக, சுத்த கணக்கீட்டு சக்தி மாதிரி பயிற்சியின் எதிர்காலமாக இருக்கும் என்று சிலர் நம்புகிறார்கள்.

 

இருப்பினும், சில நெட்டிசன்கள் இரண்டு மாதங்களுக்கு மேல் 2000 எச் 800 ஜி.பீ.யுகளின் நுகர்வுக்கு டீப்ஸீக் வி 3 ஐ உருவாக்க ஒப்பிட்டு, க்ரோக் 3 இன் உண்மையான பயிற்சி மின் நுகர்வு வி 3 ஐ விட 263 மடங்கு என்று கணக்கிடுகிறது. டீப்ஸீக் வி 3 க்கு இடையிலான இடைவெளி, இது 1402 புள்ளிகளைப் பெற்றது, மற்றும் க்ரோக் 3 100 புள்ளிகளுக்கு கீழ் உள்ளது. இந்த தரவு வெளியானதைத் தொடர்ந்து, க்ரோக் 3 இன் தலைப்புக்கு பின்னால் "உலகின் வலுவானது" ஒரு தெளிவான விளிம்பு பயன்பாட்டு விளைவு -வலுவான செயல்திறனை உருவாக்கும் பெரிய மாதிரிகளின் தர்க்கம் குறைந்து வருவதைக் காட்டத் தொடங்குகிறது என்பதை பலர் விரைவாக உணர்ந்தனர்.

640 (2)

"அதிக மதிப்பெண் ஆனால் குறைந்த திறன்" உடன் கூட, க்ரோக் 2 பயன்பாட்டை ஆதரிப்பதற்காக எக்ஸ் (ட்விட்டர்) தளத்திலிருந்து உயர்தர முதல் தரப்பு தரவைக் கொண்டிருந்தது. இருப்பினும், GROK3 இன் பயிற்சியில், OPENAI தற்போது எதிர்கொள்ளும் "உச்சவரம்பை" XAI இயற்கையாகவே எதிர்கொண்டது -பிரீமியம் பயிற்சி தரவு இல்லாதது மாதிரியின் திறன்களின் ஓரளவு பயன்பாட்டை விரைவாக அம்பலப்படுத்துகிறது.

 

க்ரோக் 3 மற்றும் கஸ்தூரியின் டெவலப்பர்கள் இந்த உண்மைகளை ஆழமாக புரிந்துகொண்டு அடையாளம் காணலாம், அதனால்தான் மஸ்க் சமூக ஊடகங்களில் தொடர்ந்து குறிப்பிட்டுள்ளார், பதிப்பு பயனர்கள் இப்போது அனுபவித்து வருகிறார்கள் "இன்னும் பீட்டா" என்றும் "முழு பதிப்பு வரவிருக்கும் மாதங்களில் வெளியிடப்படும்" என்றும். க்ரோக் 3 இன் தயாரிப்பு மேலாளரின் பங்கை மஸ்க் எடுத்துள்ளார், பயனர்கள் கருத்துகள் பிரிவில் எதிர்கொள்ளும் பல்வேறு பிரச்சினைகள் குறித்து கருத்துக்களை வழங்க பரிந்துரைக்கிறார்கள்.

 

ஆயினும்கூட, ஒரு நாளுக்குள், GROK3 இன் செயல்திறன் சந்தேகத்திற்கு இடமின்றி "பாரிய கணக்கீட்டு தசையை" நம்பியிருப்பவர்களுக்கு வலுவான பெரிய மாடல்களைப் பயிற்றுவிக்க விரும்புவோருக்கு அலாரங்களை உயர்த்தியது: பொதுவில் கிடைக்கக்கூடிய மைக்ரோசாஃப்ட் தகவல்களின் அடிப்படையில், ஓபனாயின் ஜிபிடி -4 இன் அளவுரு அளவு 1.8 டிரில்லியன் அளவுருக்களைக் கொண்டுள்ளது, இது ஜிபிடி -3 ஐ விட பத்து மடங்கு. ஜிபிடி -4.5 இன் அளவுரு அளவு இன்னும் பெரியதாக இருக்கலாம் என்று வதந்திகள் தெரிவிக்கின்றன.

 

மாதிரி அளவுரு அளவுகள் உயரும்போது, ​​பயிற்சி செலவுகளும் உயர்ந்து கொண்டிருக்கின்றன. க்ரோக் 3 இன் முன்னிலையில், ஜிபிடி -4.5 போன்ற போட்டியாளர்கள் மற்றும் அளவுரு அளவு மூலம் சிறந்த மாதிரி செயல்திறனை அடைய “பணத்தை எரிக்க” தொடர விரும்பும் மற்றவர்கள் இப்போது தெளிவாகக் காணும் உச்சவரம்பைக் கருத்தில் கொண்டு அதை எவ்வாறு சமாளிப்பது என்று சிந்திக்க வேண்டும். இந்த தருணத்தில், ஓபனாயின் முன்னாள் தலைமை விஞ்ஞானி இலியா சட்ஸ்கீவர் முன்பு கடந்த டிசம்பரில் கூறியிருந்தார், "எங்களுக்கு முன்பே பயிற்சி அளிப்பது முடிவுக்கு வரும்," இது விவாதங்களில் மீண்டும் தோன்றியுள்ளது, பெரிய மாதிரிகளுக்கு பயிற்சி அளிப்பதற்கான உண்மையான பாதையைக் கண்டுபிடிப்பதற்கான முயற்சிகளைத் தூண்டியது.

640 (3)

இலியாவின் பார்வை தொழில்துறையில் அலாரத்தை ஒலித்துள்ளது. அணுகக்கூடிய புதிய தரவின் உடனடி சோர்வை அவர் துல்லியமாக முன்னறிவித்தார், இது தரவு கையகப்படுத்தல் மூலம் செயல்திறனைத் தொடர்ந்து மேம்படுத்த முடியாத சூழ்நிலைக்கு வழிவகுக்கிறது, இது புதைபடிவ எரிபொருட்களின் சோர்வுடன் ஒப்பிடுகிறது. "இணையத்தில் எண்ணெயைப் போலவே, மனிதனால் உருவாக்கப்பட்ட உள்ளடக்கம் ஒரு வரையறுக்கப்பட்ட வளமாகும்" என்று அவர் சுட்டிக்காட்டினார். சட்ஸ்கீவரின் கணிப்புகளில், அடுத்த தலைமுறை மாதிரிகள், பிந்தைய-பயிற்சிக்கு, "உண்மையான சுயாட்சி" மற்றும் "மனித மூளையைப் போன்ற பகுத்தறிவு திறன்களைக் கொண்டிருக்கும்."

 

இன்றைய பயிற்சியளிக்கப்பட்ட மாதிரிகள் போலல்லாமல், முதன்மையாக உள்ளடக்க பொருத்தத்தை நம்பியிருக்கும் (முன்னர் கற்றுக்கொண்ட மாதிரி உள்ளடக்கத்தை அடிப்படையாகக் கொண்டது), எதிர்கால AI அமைப்புகள் மனித மூளையின் "சிந்தனைக்கு" ஒத்த வகையில் சிக்கல்களைத் தீர்ப்பதற்கான வழிமுறைகளைக் கற்றுக் கொள்ளவும் நிறுவவும் முடியும். ஒரு மனிதர் வெறும் அடிப்படை தொழில்முறை இலக்கியங்களைக் கொண்ட ஒரு பாடத்தில் அடிப்படை புலமையை அடைய முடியும், அதே நேரத்தில் AI பெரிய மாதிரிக்கு மிக அடிப்படையான நுழைவு-நிலை செயல்திறனை அடைய மில்லியன் கணக்கான தரவு புள்ளிகள் தேவைப்படுகின்றன. சொற்கள் சற்று மாற்றப்பட்டாலும் கூட, இந்த அடிப்படை கேள்விகள் சரியாக புரிந்து கொள்ளப்படாமல் போகலாம், இது உளவுத்துறையில் மாதிரியானது உண்மையாக மேம்படவில்லை என்பதை விளக்குகிறது: கட்டுரையின் தொடக்கத்தில் குறிப்பிடப்பட்டுள்ள அடிப்படை மற்றும் தீர்க்கமுடியாத கேள்விகள் இந்த நிகழ்வின் தெளிவான உதாரணத்தைக் குறிக்கின்றன.

微信图片 _20240614024031.jpg1

முடிவு

எவ்வாறாயினும், முரட்டுத்தனமான சக்திக்கு அப்பால், "முன் பயிற்சி பெற்ற மாதிரிகள் அவற்றின் முடிவை நெருங்குகின்றன" என்பதை தொழில்துறைக்கு வெளிப்படுத்துவதில் க்ரோக் 3 உண்மையில் வெற்றி பெற்றால், அது புலத்திற்கு குறிப்பிடத்தக்க தாக்கங்களை ஏற்படுத்தும்.

Grok3 ஐச் சுற்றியுள்ள வெறித்தனத்தை படிப்படியாகக் குறைத்தபின், "ஒரு குறிப்பிட்ட தரவுத்தொகுப்பில் வெறும் $ 50 க்கு உயர் செயல்திறன் கொண்ட மாதிரிகளை சரிசெய்தல்" என்ற ஃபீ-ஃபை லியின் எடுத்துக்காட்டு போன்ற பல வழக்குகளை நாங்கள் காண்போம், இறுதியில் AGI க்கான உண்மையான பாதையை கண்டுபிடிப்போம்.

ELV கேபிள் தீர்வைக் கண்டறியவும்

கேபிள்களைக் கட்டுப்படுத்துங்கள்

பி.எம்.எஸ், பஸ், தொழில்துறை, கருவி கேபிள்.

கட்டமைக்கப்பட்ட கேபிளிங் அமைப்பு

நெட்வொர்க் & தரவு, ஃபைபர்-ஆப்டிக் கேபிள், பேட்ச் தண்டு, தொகுதிகள், ஃபேஸ்ப்ளேட்

2024 கண்காட்சிகள் மற்றும் நிகழ்வுகள் மதிப்பாய்வு

ஏப்ரல் 16 -18, 2024 துபாயில் மத்திய-கிழக்கு-ஆற்றல்

ஏப்ரல் 16 -18, 2024 மாஸ்கோவில் செக்யூரிகா

மே .9, 2024 ஷாங்காயில் புதிய தயாரிப்புகள் மற்றும் தொழில்நுட்பங்கள் வெளியீட்டு நிகழ்வு

அக் .22 வது -25, 2024 பெய்ஜிங்கில் பாதுகாப்பு சீனா

நவம்பர் 19-20, 2024 இணைக்கப்பட்ட உலக கே.எஸ்.ஏ.


இடுகை நேரம்: பிப்ரவரி -19-2025