"உலகின் புத்திசாலி" Grok3 ஐ சோதித்தல்

ஐபு வாடன் குழு (1)

அறிமுகம்

முன் பயிற்சி பெற்ற மாடல்களின் "இறுதிப் புள்ளியாக" Grok3 இருக்கும் என்று நினைக்கிறீர்களா?

எலோன் மஸ்க் மற்றும் xAI குழு, நேரடி ஒளிபரப்பின் போது Grok இன் சமீபத்திய பதிப்பான Grok3 ஐ அதிகாரப்பூர்வமாக அறிமுகப்படுத்தினர். இந்த நிகழ்வுக்கு முன்பு, மஸ்க்கின் 24/7 விளம்பர விளம்பரத்துடன் இணைந்து, Grok3 க்கான உலகளாவிய எதிர்பார்ப்புகளை முன்னோடியில்லாத அளவிற்கு உயர்த்தியது. ஒரு வாரத்திற்கு முன்பு, DeepSeek R1 இல் கருத்து தெரிவிக்கும் போது, ​​மஸ்க் ஒரு நேரடி ஒளிபரப்பின் போது நம்பிக்கையுடன் கூறினார், "xAI ஒரு சிறந்த AI மாதிரியை அறிமுகப்படுத்த உள்ளது." நேரலையில் வழங்கப்பட்ட தரவுகளிலிருந்து, கணிதம், அறிவியல் மற்றும் நிரலாக்கத்திற்கான அளவுகோல்களில் Grok3 தற்போதைய அனைத்து முக்கிய மாதிரிகளையும் விஞ்சியுள்ளது, மேலும் SpaceX இன் செவ்வாய் கிரக பயணங்கள் தொடர்பான கணக்கீட்டு பணிகளுக்கு Grok3 பயன்படுத்தப்படும் என்றும், "மூன்று ஆண்டுகளுக்குள் நோபல் பரிசு மட்டத்தில் முன்னேற்றங்கள்" என்று கணித்துள்ளதாகவும் மஸ்க் கூறினார். இருப்பினும், இவை தற்போது மஸ்க்கின் கூற்றுகள் மட்டுமே. அறிமுகப்படுத்தப்பட்ட பிறகு, Grok3 இன் சமீபத்திய பீட்டா பதிப்பை சோதித்தேன், பெரிய மாடல்களுக்கான கிளாசிக் தந்திரக் கேள்வியை எழுப்பினேன்: "எது பெரியது, 9.11 அல்லது 9.9?" துரதிர்ஷ்டவசமாக, எந்த தகுதிகளும் அல்லது அடையாளங்களும் இல்லாமல், புத்திசாலியான Grok3 என்று அழைக்கப்படுபவரால் இன்னும் இந்தக் கேள்விக்குச் சரியாகப் பதிலளிக்க முடியவில்லை. Grok3 கேள்வியின் அர்த்தத்தை துல்லியமாக அடையாளம் காணத் தவறிவிட்டது.

 

இந்தச் சோதனை பல நண்பர்களிடமிருந்து கணிசமான கவனத்தை விரைவாக ஈர்த்தது, மேலும் தற்செயலாக, வெளிநாடுகளில் இதேபோன்ற பல்வேறு சோதனைகள் Grok3 "பைசாவின் சாய்ந்த கோபுரத்திலிருந்து எந்த பந்து முதலில் விழுகிறது?" போன்ற அடிப்படை இயற்பியல்/கணித கேள்விகளுடன் போராடுவதைக் காட்டுகின்றன. இதனால், இது "எளிய கேள்விகளுக்கு பதிலளிக்க விரும்பாத ஒரு மேதை" என்று நகைச்சுவையாக முத்திரை குத்தப்பட்டுள்ளது.

640 தமிழ்

Grok3 நல்லதுதான், ஆனால் அது R1 அல்லது o1-Pro-வை விட சிறந்தது அல்ல.

நடைமுறையில் பல பொது அறிவு சோதனைகளில் Grok3 "தோல்விகளை" சந்தித்தது. xAI வெளியீட்டு நிகழ்வின் போது, ​​மஸ்க் அடிக்கடி விளையாடுவதாகக் கூறிக்கொண்ட பாத் ஆஃப் எக்ஸைல் 2 விளையாட்டின் கதாபாத்திர வகுப்புகள் மற்றும் விளைவுகளை பகுப்பாய்வு செய்ய Grok3 ஐப் பயன்படுத்தி செயல்விளக்கம் அளித்தார், ஆனால் Grok3 வழங்கிய பெரும்பாலான பதில்கள் தவறானவை. நேரடி ஒளிபரப்பின் போது மஸ்க் இந்த வெளிப்படையான சிக்கலை கவனிக்கவில்லை.

 

இந்தத் தவறு, வெளிநாட்டு இணையவாசிகள் மஸ்க்கை கேமிங்கில் "ஒரு மாற்றீட்டைக் கண்டுபிடித்ததற்காக" கேலி செய்வதற்கு மேலும் ஆதாரங்களை வழங்கியது மட்டுமல்லாமல், நடைமுறை பயன்பாடுகளில் Grok3 இன் நம்பகத்தன்மை குறித்து குறிப்பிடத்தக்க கவலைகளையும் எழுப்பியது. அத்தகைய "மேதைக்கு", அதன் உண்மையான திறன்களைப் பொருட்படுத்தாமல், செவ்வாய் கிரக ஆய்வுப் பணிகள் போன்ற மிகவும் சிக்கலான பயன்பாட்டு சூழ்நிலைகளில் அதன் நம்பகத்தன்மை சந்தேகத்தில் உள்ளது.

 

தற்போது, ​​வாரங்களுக்கு முன்பு Grok3 ஐ அணுகிய பல சோதனையாளர்களும், நேற்று சில மணிநேரங்களுக்கு மாதிரி திறன்களை சோதித்தவர்களும், "Grok3 நல்லது, ஆனால் அது R1 அல்லது o1-Pro ஐ விட சிறந்தது அல்ல" என்ற பொதுவான முடிவை சுட்டிக்காட்டுகின்றனர்.

640 (1)

"என்விடியாவை சீர்குலைத்தல்" பற்றிய ஒரு விமர்சனக் கண்ணோட்டம்

வெளியீட்டின் போது அதிகாரப்பூர்வமாக வழங்கப்பட்ட PPT இல், Grok3 Chatbot Arena-வில் "மிகவும் முன்னால்" இருப்பதாகக் காட்டப்பட்டது, ஆனால் இது புத்திசாலித்தனமாக கிராஃபிக் நுட்பங்களைப் பயன்படுத்தியது: லீடர்போர்டில் உள்ள செங்குத்து அச்சு 1400-1300 மதிப்பெண் வரம்பில் மட்டுமே முடிவுகளைப் பட்டியலிட்டது, இதனால் சோதனை முடிவுகளில் அசல் 1% வேறுபாடு இந்த விளக்கக்காட்சியில் விதிவிலக்காக குறிப்பிடத்தக்கதாகத் தெரிகிறது.

640 தமிழ்

உண்மையான மாதிரி மதிப்பெண் முடிவுகளில், Grok3 DeepSeek R1 மற்றும் GPT-4.0 ஐ விட 1-2% மட்டுமே முன்னிலையில் உள்ளது, இது நடைமுறை சோதனைகளில் பல பயனர்களின் அனுபவங்களில் "குறிப்பிடத்தக்க வேறுபாடு இல்லை" என்பதைக் காட்டுகிறது. Grok3 அதன் வாரிசுகளை 1%-2% மட்டுமே மிஞ்சுகிறது.

640 தமிழ்

Grok3 தற்போது பொதுவில் சோதிக்கப்பட்ட அனைத்து மாடல்களையும் விட அதிக மதிப்பெண் பெற்றிருந்தாலும், பலர் இதை பெரிதாக எடுத்துக்கொள்வதில்லை: எல்லாவற்றிற்கும் மேலாக, xAI முன்பு Grok2 சகாப்தத்தில் "மதிப்பெண் கையாளுதலுக்காக" விமர்சிக்கப்பட்டது. லீடர்போர்டு பதில் நீள பாணியை தண்டித்ததால், மதிப்பெண்கள் வெகுவாகக் குறைந்தன, இதனால் தொழில்துறையினர் "அதிக மதிப்பெண் பெற்றாலும் குறைந்த திறன்" என்ற நிகழ்வை அடிக்கடி விமர்சிக்க வழிவகுத்தது.

 

லீடர்போர்டு "கையாளுதல்" மூலமாகவோ அல்லது விளக்கப்படங்களில் வடிவமைப்பு தந்திரங்கள் மூலமாகவோ, அவை xAI மற்றும் மாடல் திறன்களில் "பேக்கை வழிநடத்துதல்" என்ற கருத்துடன் மஸ்க்கின் வெறியை வெளிப்படுத்துகின்றன. இந்த ஓரங்களுக்கு மஸ்க் ஒரு செங்குத்தான விலையைக் கொடுத்தார்: வெளியீட்டின் போது, ​​அவர் 200,000 H100 GPUகளைப் பயன்படுத்தியதாகவும் (நேரடி ஒளிபரப்பின் போது "100,000 க்கும் மேற்பட்டவை" என்று கூறி) 200 மில்லியன் மணிநேர மொத்த பயிற்சி நேரத்தை அடைந்ததாகவும் பெருமையாகக் கூறினார். இது GPU துறைக்கு மற்றொரு குறிப்பிடத்தக்க வரப்பிரசாதம் என்று சிலர் நம்பவும், இந்தத் துறையில் DeepSeek இன் தாக்கத்தை "முட்டாள்தனம்" என்று கருதவும் வழிவகுத்தது. குறிப்பாக, மாதிரி பயிற்சியின் எதிர்காலம் முழுமையான கணக்கீட்டு சக்தியாக இருக்கும் என்று சிலர் நம்புகிறார்கள்.

 

இருப்பினும், சில நெட்டிசன்கள் DeepSeek V3 ஐ உருவாக்க இரண்டு மாதங்களில் 2000 H800 GPUகளின் நுகர்வை ஒப்பிட்டு, Grok3 இன் உண்மையான பயிற்சி மின் நுகர்வு V3 ஐ விட 263 மடங்கு என்று கணக்கிட்டனர். 1402 புள்ளிகளைப் பெற்ற DeepSeek V3 க்கும் Grok3 க்கும் இடையிலான இடைவெளி 100 புள்ளிகளுக்கு சற்று குறைவாகவே உள்ளது. இந்தத் தரவு வெளியானதைத் தொடர்ந்து, Grok3 இன் "உலகின் வலிமையானது" என்ற பட்டத்திற்குப் பின்னால் ஒரு தெளிவான விளிம்பு பயன்பாட்டு விளைவு உள்ளது என்பதை பலர் விரைவாக உணர்ந்தனர் - வலுவான செயல்திறனை உருவாக்கும் பெரிய மாடல்களின் தர்க்கம் குறைந்து வரும் வருமானத்தைக் காட்டத் தொடங்கியுள்ளது.

640 (2)

"அதிக மதிப்பெண் பெற்றாலும் குறைந்த திறன்" இருந்தபோதிலும், பயன்பாட்டை ஆதரிக்க X (ட்விட்டர்) தளத்திலிருந்து Grok2 அதிக அளவிலான உயர்தர முதல் தரப்பு தரவைக் கொண்டிருந்தது. இருப்பினும், Grok3 இன் பயிற்சியில், xAI இயல்பாகவே OpenAI தற்போது எதிர்கொள்ளும் "உச்சவரம்பை" எதிர்கொண்டது - பிரீமியம் பயிற்சி தரவு இல்லாதது மாதிரியின் திறன்களின் ஓரளவு பயன்பாட்டை விரைவாக அம்பலப்படுத்துகிறது.

 

Grok3 மற்றும் Musk இன் டெவலப்பர்கள் இந்த உண்மைகளை ஆழமாகப் புரிந்துகொண்டு அடையாளம் கண்ட முதல் நபர்களாக இருக்கலாம், அதனால்தான் மஸ்க் சமூக ஊடகங்களில் பயனர்கள் தற்போது அனுபவிக்கும் பதிப்பு "இன்னும் பீட்டா மட்டுமே" என்றும் "முழு பதிப்பு வரும் மாதங்களில் வெளியிடப்படும்" என்றும் தொடர்ந்து குறிப்பிட்டுள்ளார். மஸ்க் Grok3 இன் தயாரிப்பு மேலாளராகப் பொறுப்பேற்றுள்ளார், பயனர்கள் கருத்துகள் பிரிவில் எதிர்கொள்ளும் பல்வேறு பிரச்சினைகள் குறித்து கருத்துக்களை வழங்குமாறு பரிந்துரைக்கிறார். அவர் பூமியில் அதிகம் பின்தொடரும் தயாரிப்பு மேலாளராக இருக்கலாம்.

 

இருப்பினும், ஒரு நாளுக்குள், Grok3 இன் செயல்திறன், வலுவான பெரிய மாடல்களைப் பயிற்றுவிக்க "பெரிய கணக்கீட்டு தசையை" நம்பியிருக்க விரும்புவோருக்கு சந்தேகத்திற்கு இடமின்றி எச்சரிக்கைகளை எழுப்பியது: பொதுவில் கிடைக்கும் மைக்ரோசாஃப்ட் தகவலின் அடிப்படையில், OpenAI இன் GPT-4 1.8 டிரில்லியன் அளவுருக்களின் அளவுரு அளவைக் கொண்டுள்ளது, இது GPT-3 ஐ விட பத்து மடங்கு அதிகம். GPT-4.5 இன் அளவுரு அளவு இன்னும் பெரியதாக இருக்கலாம் என்று வதந்திகள் தெரிவிக்கின்றன.

 

மாதிரி அளவுரு அளவுகள் உயர்ந்து வருவதால், பயிற்சி செலவுகளும் உயர்ந்து வருகின்றன. Grok3 இன் இருப்புடன், அளவுரு அளவு மூலம் சிறந்த மாதிரி செயல்திறனை அடைய "பணத்தை எரிப்பதை" தொடர விரும்பும் GPT-4.5 போன்ற போட்டியாளர்கள் மற்றும் பிறர் இப்போது தெளிவாகத் தெரியும் உச்சவரம்பைக் கருத்தில் கொண்டு அதை எவ்வாறு சமாளிப்பது என்று சிந்திக்க வேண்டும். இந்த நேரத்தில், OpenAI இன் முன்னாள் தலைமை விஞ்ஞானி இலியா சட்ஸ்கேவர், கடந்த டிசம்பரில், "நாம் நன்கு அறிந்த முன் பயிற்சி முடிவுக்கு வரும்" என்று கூறியிருந்தார், இது விவாதங்களில் மீண்டும் எழுந்துள்ளது, பெரிய மாடல்களைப் பயிற்றுவிப்பதற்கான உண்மையான பாதையைக் கண்டறிய முயற்சிகளைத் தூண்டியுள்ளது.

640 (3)

இல்யாவின் கருத்து தொழில்துறையில் எச்சரிக்கையை எழுப்பியுள்ளது. அணுகக்கூடிய புதிய தரவுகளின் உடனடி தீர்ந்துபோகும் நிலையை அவர் துல்லியமாக முன்னறிவித்தார், இதனால் தரவு கையகப்படுத்தல் மூலம் செயல்திறனை தொடர்ந்து மேம்படுத்த முடியாத சூழ்நிலைக்கு வழிவகுத்தது, அதை புதைபடிவ எரிபொருட்களின் தீர்ந்துபோகும் நிலைக்கு ஒப்பிட்டார். "எண்ணெய் போலவே, இணையத்தில் மனிதனால் உருவாக்கப்பட்ட உள்ளடக்கமும் ஒரு வரையறுக்கப்பட்ட வளமாகும்" என்று அவர் சுட்டிக்காட்டினார். சட்ஸ்கேவரின் கணிப்புகளில், அடுத்த தலைமுறை மாதிரிகள், முன் பயிற்சிக்குப் பிறகு, "உண்மையான சுயாட்சி" மற்றும் "மனித மூளையைப் போன்ற" பகுத்தறிவு திறன்களைக் கொண்டிருக்கும்.

 

உள்ளடக்க பொருத்தத்தை முதன்மையாக நம்பியிருக்கும் இன்றைய முன் பயிற்சி பெற்ற மாதிரிகளைப் போலன்றி (முன்னர் கற்றுக்கொண்ட மாதிரி உள்ளடக்கத்தை அடிப்படையாகக் கொண்டது), எதிர்கால AI அமைப்புகள் மனித மூளையின் "சிந்தனை" போன்ற முறையில் சிக்கல்களைத் தீர்க்க வழிமுறைகளைக் கற்றுக் கொள்ளவும் நிறுவவும் முடியும். ஒரு மனிதன் அடிப்படை தொழில்முறை இலக்கியங்களை மட்டுமே கொண்டு ஒரு பாடத்தில் அடிப்படைத் தேர்ச்சியை அடைய முடியும், அதே நேரத்தில் ஒரு பெரிய AI மாதிரிக்கு மிக அடிப்படையான தொடக்க நிலை செயல்திறனை அடைய மில்லியன் கணக்கான தரவு புள்ளிகள் தேவைப்படுகின்றன. சொற்கள் சிறிது மாற்றப்பட்டாலும் கூட, இந்த அடிப்படை கேள்விகள் சரியாகப் புரிந்து கொள்ளப்படாமல் போகலாம், இது மாதிரி நுண்ணறிவில் உண்மையிலேயே முன்னேறவில்லை என்பதை விளக்குகிறது: கட்டுரையின் தொடக்கத்தில் குறிப்பிடப்பட்டுள்ள அடிப்படை இன்னும் தீர்க்க முடியாத கேள்விகள் இந்த நிகழ்வின் தெளிவான உதாரணத்தைக் குறிக்கின்றன.

微信图片_20240614024031.jpg1

முடிவுரை

இருப்பினும், மிருகத்தனமான சக்திக்கு அப்பால், "முன் பயிற்சி பெற்ற மாதிரிகள் தங்கள் முடிவை நெருங்கி வருகின்றன" என்பதை Grok3 தொழில்துறைக்கு வெளிப்படுத்துவதில் உண்மையில் வெற்றி பெற்றால், அது இந்தத் துறையில் குறிப்பிடத்தக்க தாக்கங்களை ஏற்படுத்தும்.

ஒருவேளை Grok3 ஐச் சுற்றியுள்ள பரபரப்பு படிப்படியாகத் தணிந்த பிறகு, Fei-Fei Li இன் "ஒரு குறிப்பிட்ட தரவுத்தொகுப்பில் உயர் செயல்திறன் மாதிரிகளை வெறும் $50க்கு டியூன் செய்தல்" போன்ற பல நிகழ்வுகளை நாம் காண்போம், இறுதியில் AGI-க்கான உண்மையான பாதையைக் கண்டுபிடிப்போம்.

ELV கேபிள் தீர்வைக் கண்டறியவும்

கட்டுப்பாட்டு கேபிள்கள்

BMS, BUS, தொழில்துறை, இன்ஸ்ட்ருமென்டேஷன் கேபிளுக்கு.

கட்டமைக்கப்பட்ட கேபிளிங் அமைப்பு

நெட்வொர்க்&டேட்டா, ஃபைபர்-ஆப்டிக் கேபிள், பேட்ச் கார்டு, மாட்யூல்கள், ஃபேஸ்ப்ளேட்

2024 கண்காட்சிகள் & நிகழ்வுகள் மதிப்பாய்வு

ஏப்ரல் 16-18, 2024 துபாயில் மத்திய கிழக்கு-ஆற்றல்

ஏப்ரல் 16-18, 2024 மாஸ்கோவில் செகுரிகா

மே.9, 2024 ஷாங்காயில் புதிய தயாரிப்புகள் & தொழில்நுட்பங்கள் வெளியீட்டு நிகழ்வு

அக்டோபர் 22-25, 2024 பெய்ஜிங்கில் பாதுகாப்பு சீனா

நவம்பர் 19-20, 2024 இணைக்கப்பட்ட உலகம் சௌதி அரேபியா


இடுகை நேரம்: பிப்ரவரி-19-2025