Ce părere am despre ChatGPT 4.5 și Claude 3.7 după o săptămână de teste?

Am petrecut ultima săptămână testând intensiv ChatGPT 4.5 și Claude 3.7.

Și am rămas surprins de ce am descoperit. Nu mă așteptam să văd două direcții atât de diferite.

Până acum, când apărea un model nou, toată lumea se întreba doar "care e mai deștept?".

Acum întrebarea e mai degrabă "care e mai potrivit pentru nevoile mele?".

Practic, OpenAI mizează pe empatie și interacțiune umană, în timp ce Anthropic se concentrează pe raționament și coding.

Ironic este că până recent era exact invers — Claude era cunoscut pentru empatie, iar GPT pentru precizie tehnică.

Hai să vedem ce face fiecare model și unde excelează.

ChatGPT 4.5: Ce părere am?

După ce am testat ChatGPT 4.5, să știi că nu e chiar “wow-ul” pe care îl așteptam, dar merge într-o direcție destul de interesantă.

Practic, GPT-4.5 încearcă să fie mai mult un prieten cu păreri proprii decât un asistent neutru care doar execută comenzi.

Deși pare atractiv la prima vedere, am observat că tendința modelului de a fi "prea prietenos" vine cu un preț.

Practic, GPT-4.5, la un moment dat începe să inventeze informații și să le prezinte cu mare încredere, doar ca să păstreze conversația interesantă.

Acest comportament, cunoscut în domeniul AI ca "hallucination", poate fi problematic când ai nevoie de informații precise.

E mai greu să lucrezi cu noul model dacă faci prompt engineering pentru că nu mai ascultă așa ușor de comenzi — dar în schimb e mai creativ.

Punctele forte:

Scrie mai bine și mai uman. Răspunsurile au ritm, nu sunt plate și par scrise de un om, nu de un robot. Nu știu dacă ai observat, dar până acum răspunsurile GPT-ului aveau o anumită rigiditate.
Este mult mai expresiv și emoțional. Poate fi genuin, amuzant, empatic și plin de perspective interesante. Personalitatea sa e mai distinctă și mai naturală decât în versiunile anterioare.
Mai puține refuzuri, mai multă creativitate. OpenAI a redus considerabil situațiile în care modelul refuză să răspundă. Acum modelul se aventurează mai mult în teritorii creative, deși uneori tinde să vorbească mult și fără substanță.

Punctele slabe:

Este lent. Câteodată ai timp să-ți faci un ceai până răspunde, deși viteza pare să se îmbunătățească zi de zi.
Nu respectă instrucțiunile. Fiind mai opiniat, face ce crede el că e mai bine, nu neapărat ce i-ai cerut. Asta m-a enervat cel mai tare.
Halucinează cu încredere. OpenAI promite că halucinează mai puțin, dar am prins modelul inventând informații cu atâta siguranță încât părea credibil.

Acum, ce pot să spun, GPT-4.5 e ca acel prieten extrovert care vorbește mult, are opinii despre orice și deviază mereu de la subiect. Interesant ca personaj, dar nu mereu util.

Claude 3.7: Ce părere am?

Anthropic între timp a lansat Claude 3.7, primul model cu "deep thinking", un concept similar cu ce făcea Deepseek deja.

Ce mi s-a părut genial e că Claude 3.7 poate detecta automat când să fie creativ și când să fie analitic.

Dacă îi ceri să scrie o poveste, e creativ. Dacă îi dai o problemă de programare, activează modul "deep thinking".

De asemenea, acum avem și Claude Code, un tool de programare agentic care face competiție cu Replit și Cursor.

Și trebuie să mărturisesc că e mai eficient decât celelalte, dar să vedem cum stăm cu prețurile pentru fiecare token. Aici mi s-a părut cam scump pentru utilizare frecventă.

Punctele forte:

E un programator excelent. Nu doar că scrie cod bun, dar înțelege cum să transforme idei abstracte în soluții funcționale și-ți explică logic de ce a făcut anumite alegeri.
Gândește pas cu pas. Cu Deep Thinking, îți arată transparent tot procesul de gândire. E ca și cum ai vedea mintea unui expert la treabă.
E mai onest când nu știe. Recunoaște limitele și halucinează vizibil mai puțin decât GPT-ul.

Punctele slabe:

E mai rece emoțional. Față de GPT-4.5, Claude 3.7 e ca acel coleg competent dar distant. Ironic, Claude 3.5 era mai cald și mai prietenos decât GPT-4.5. Deci se pare că Anthropic a făcut un pas înapoi pe partea de empatie pentru a maximiza capabilitățile de raționament.
Răspunsuri uneori prea tehnice. Poate deveni excesiv de analitic, pierzând din naturalețea conversației. Desigur, acest aspect poate fi ajustat prin prompt engineering adecvat. Dacă îi ceri explicit să fie conversațional sau să explice pentru un începător, se adaptează corespunzător.

Direcții diferite, publicuri diferite

Nu știu dacă ai observat, dar OpenAI, Anthropic, Google și xAI par să își aleagă o nișă diferită.

E ca în orice industrie matură, după perioada inițială în care toți încearcă să facă totul, vine specializarea.

Iar acum vedem exact asta în AI.

Uite ce strategie are fiecare:

Anthropic (Claude 3.7) a mers pe cod și matematică. De ce? Analiza lor de date a arătat că acestea sunt domeniile cu aplicații practice imediate și cerere mare pe piață. E o strategie orientată spre utilitate și fiabilitate.
OpenAI (GPT-4.5) construiește pentru piața de masă și utilizatori obișnuiți. Vor un AI care se simte ca un prieten, empatic, distractiv, cu care să-ți placă să vorbești. Au sacrificat din precizie pentru personalitate.
Google (Gemini 2.0) excelează la procesarea multimedia și are cel mai lung context. E perfect pentru cercetare și analiză de conținut complex, mai ales cu NotebookLM.
xAI (Grok 3) se specializează pe matematică, gaming și infrastructură — nu e surprinzător, având în vedere echipa lor de ingineri.

Sincer, îmi place diversificarea asta.

Bineînțeles, diferența dintre modele devine evidentă când le folosești pentru sarcini specializate.

Cum folosesc eu AI-ul în practică?

Personal, ChatGPT îl folosesc exclusiv pentru automatizări pentru clienți. Să spun drept, nu este modelul meu preferat. Dar vom vedea.

Când lucrez la agenți AI, Claude 3.7 s-a dovedit cel mai capabil model pentru că înțelege mai bine arhitecturi complexe și poate genera cod mai robust pentru automatizări.

Pentru cod și dezvoltare, alternez între Deepseek (excelent pentru deep reasoning) și Claude (mai ales pentru proiecte complexe unde înțelegerea contextului e critică).

Pentru analiză de documente lungi și cercetare, NotebookLM de la Google este imbatabil deoarece poate prelucra și contextualiza cantități enorme de text, făcând conexiuni pe care alte modele le-ar rata din cauza limitărilor de context.

Și apropo de ratări, vezi aici 👇

How Language Models Use Long Contexts

Cercetare despre procesarea contextelor lungi în LLM și optimizarea prin embeddings

How-Language-Models-Use-Long-Contexts.pdf

730 KB

P.S. Ah, și pentru conversații vocale, am descoperit recent Sesame. Chiar mă surprinde cât de natural și fluid este modelul, parcă vorbești cu un om, nu cu un AI.

Asta mă face să mă gândesc la diversitatea problemelor pe care încercăm să le rezolvăm cu ajutorul LLM-urilor.

Unii caută eficiență în cod și automatizări, alții vor un asistent pentru research, iar alții vor pur și simplu o conversație naturală cu un prieten imaginar.

Și aici, apropo, tu ce probleme încerci să rezolvi cu AI-ul? Poate depinde de context, dar sunt curios ce direcție ți se pare mai promițătoare pe termen lung.

Lasă un comentariu mai jos!

Ce părere am despre ChatGPT 4.5 și Claude 3.7 după o săptămână de teste?

ChatGPT 4.5: Ce părere am?

Punctele forte:

Punctele slabe:

Claude 3.7: Ce părere am?

Punctele forte:

Punctele slabe:

Direcții diferite, publicuri diferite

Cum folosesc eu AI-ul în practică?

Ce cărți am citit în Februarie — Despre succes, AI și cum ne influențează creierul realitatea

Status Game — Două cărți despre cum ne pierdem mințile: individual și în grup

Ce părere am despre ChatGPT 4.5 și Claude 3.7 după o săptămână de teste?

ChatGPT 4.5: Ce părere am?

Punctele forte:

Punctele slabe:

Claude 3.7: Ce părere am?

Punctele forte:

Punctele slabe:

Direcții diferite, publicuri diferite

Cum folosesc eu AI-ul în practică?

Citește următorul

Ce cărți am citit în Februarie — Despre succes, AI și cum ne influențează creierul realitatea

Status Game — Două cărți despre cum ne pierdem mințile: individual și în grup