Słuszna uwaga! Wcześniej robiliśmy własne testy korzystając z domyślnych interfejsów i podaliśmy ich wyniki. Same testy też znalazły się w filmie, tak aby każdy mógł sam ocenić który model wypadł lepiej. Tutaj z kolei jest porównanie głównie syntetycznych benchmarków które testują same modele, bez dobrodziejstw interfejsu i promptów systemowych. W ślepym teście użytkowników (0:55) widać że różnica między modelami jest tak naprawdę bardzo mała (ten test też sprawdza gołe modele). W zależności od zadania i sposobu korzystania szala może się więc przechylać na korzyść jednego albo drugiego. Powinniśmy to podkreślić w filmie, dzięki za zwrócenie uwagi.
Dobre podsumowanie ale wcześniej mówiliście że S3.5 najlepszy a teraz z powrotem że 4o.
Słuszna uwaga!
Wcześniej robiliśmy własne testy korzystając z domyślnych interfejsów i podaliśmy ich wyniki. Same testy też znalazły się w filmie, tak aby każdy mógł sam ocenić który model wypadł lepiej.
Tutaj z kolei jest porównanie głównie syntetycznych benchmarków które testują same modele, bez dobrodziejstw interfejsu i promptów systemowych.
W ślepym teście użytkowników (0:55) widać że różnica między modelami jest tak naprawdę bardzo mała (ten test też sprawdza gołe modele).
W zależności od zadania i sposobu korzystania szala może się więc przechylać na korzyść jednego albo drugiego.
Powinniśmy to podkreślić w filmie, dzięki za zwrócenie uwagi.