Octo

Sdílet
Vložit
  • čas přidán 25. 05. 2024
  • Like 👍. Comment 💬. Subscribe 🟥.
    🏘 Discord: / discord
    github.com/hu-po/docs
    Octo: An Open-Source Generalist Robot Policy
    arxiv.org/pdf/2405.12213
  • Věda a technologie

Komentáře • 8

  • @surbhosale
    @surbhosale Před měsícem +1

    Thanks hu-po. love to see more robotics papers

  • @ankhzet
    @ankhzet Před měsícem +2

    This seems wrong to me:
    [Task] + [Observation 1] -> [Readout 1] + [Observation 2] -> [Readout 2] + ... + [Observation n] -> [Readout n]
    Is it how it is fed to the model, as a growing historical context?
    You probably don't need an entire history of motion to accomplish the [Task], you can just view any subrange of the process as a subtask [Task] + [Observation at Step n] + [Summary of interactions prior to Step n], decreasing the historical context and allowing more compute budget for action refinement context.
    So initial can probably be reframed as separate subtasks, with potentially much smaller context thus requiring less time to calculate:
    Fame 1
    [Task] + [Observation 1] -> [Readout 1]
    Frame 2
    [Task] + [Observation 2] + [Summarised difference between predicted outcome of Readout 1 and Observation 2 (to account for possible errors)] -> [Readout 2]
    ....
    [Task] + [Observation n] + [Summarised difference between predicted outcome of Readout n-1 and Observation n (to account for possible errors)] -> [Readout n]
    This way the model would be able to self-adjust based on the environment and the state of the robot, f.e. for the arbitrary step n: the robot was supposed to be in the state [Readout n-1], but instead is in state [Observation n], suggesting, that there was an outside force applied to the "limb" that wasn't accounted for, thus [Readout n] should be adjusted to counteract it.
    In practice, if the robot is tasked to push an object, and miscalculated the opposing force (ie, difference between pushing a round object vs pushing a cubic object (friction), or difference between pushing uphill or downhill (objects on a slope), or lifting/putting down, or some actuators have some slack/backlash/etc), and after first "frame" of motion, the actual position of the "pushed" object can differ from prediction, and that can be adjusted for on "per subtask" basis. It would also allow for "easing", making motion smoother.
    Sorry for my mumbling...

  • @wolpumba4099
    @wolpumba4099 Před měsícem +8

    Summary starts at 1:29:47

    • @wolpumba4099
      @wolpumba4099 Před měsícem +3

      Discussion Summary: Building General-Purpose Robots
      The discussion focuses on recent robotics papers and explores paths towards building general-purpose robots, highlighting key questions and themes:
      *1. Language as Task Definition: (**0:12:30**)*
      * All reviewed papers utilize language to define tasks for robot policies.
      * This suggests language will remain a crucial component in robotics.
      * Octo also supports goal images as task definition, offering flexibility.
      *2. Source of Data: Robots vs. Humans: (**0:09:30**)*
      * Octo utilizes a massive dataset of robot trajectories, arguing for robot-centric data.
      * Other papers leverage human motion data (e.g., mocap), proposing human-centric data as a more scalable alternative.
      * The speaker believes human-centric data is more promising due to its abundance and diversity, despite current limitations in precision.
      *3. Model Architecture and Control Speed: (**0:36:30**)*
      * Transformers, while powerful, currently struggle with real-time control speed for robots due to processing limitations.
      * Smaller, faster multi-layer perceptrons (MLPs) are being used, but lack generalizability to different robot embodiments.
      * It's unclear if transformers will become fast enough, or if MLPs will become more flexible.
      *4. Octo Model Specifics: (**0:04:00**)*
      * Octo, a transformer-based policy, is trained on the largest robotics manipulation dataset to date (800k trajectories).
      * It can control multiple robot embodiments out-of-the-box, solving language and goal-image-based tasks.
      * Octo supports fine-tuning to new robots and tasks with new sensory inputs and action spaces.
      * Key design decisions:
      * "Transformer-first" architecture for scalability. (1:03:00)
      * Diverse training data from various robots and tasks. (0:08:30)
      * Diffusion decoding training objective for multi-modal action prediction. (0:30:00)
      * Scalability of model size: performance improves with larger models. (1:05:30)
      *5. Future of Robotics and Work: (**1:12:30**)*
      * General-purpose robots are expected to outperform specialized robots in all fields.
      * Job automation will lead to a shift towards virtual economies and paid consumption.
      * Human-centric tasks and skills (e.g., artisanal crafts, human interaction) might become more valuable.
      *Overall:*
      The discussion paints a picture of a rapidly evolving robotics landscape, with language, data sources, model architecture, and speed being key considerations. While Octo represents a significant advancement, questions remain about the path towards truly general-purpose robots and their societal implications.
      i used whisper base.en to create transcript. i used gemini 1.5 pro to summarize transcript and paper

    • @wolpumba4099
      @wolpumba4099 Před měsícem

      Deutsche Diskussionszusammenfassung: Entwicklung von universellen Robotern
      Die Diskussion konzentriert sich auf aktuelle Robotik-Paper und erforscht Wege zur Entwicklung von universellen Robotern, wobei wichtige Fragen und Themen hervorgehoben werden:
      *1. Sprache als Aufgabendefinition: (**0:12:30**)*
      * Alle besprochenen Paper verwenden Sprache, um Aufgaben für Roboterrichtlinien zu definieren.
      * Dies deutet darauf hin, dass Sprache ein entscheidender Bestandteil in der Robotik bleiben wird.
      * Octo unterstützt auch Zielbilder als Aufgabendefinition, was Flexibilität bietet.
      *2. Datenquelle: Roboter vs. Menschen: (**0:09:30**)*
      * Octo verwendet einen riesigen Datensatz von Robotertrajektorien und argumentiert für roboterzentrierte Daten.
      * Andere Paper nutzen menschliche Bewegungsdaten (z. B. Mocap) und schlagen menschenzentrierte Daten als skalierbarere Alternative vor.
      * Der Sprecher ist der Meinung, dass menschenzentrierte Daten aufgrund ihrer Fülle und Vielfalt vielversprechender sind, trotz der derzeitigen Einschränkungen in der Präzision.
      *3. Modellarchitektur und Steuerungsgeschwindigkeit: (**0:36:30**)*
      * Transformer sind zwar leistungsstark, haben aber derzeit aufgrund von Verarbeitungsbeschränkungen mit der Echtzeitsteuerungsgeschwindigkeit für Roboter zu kämpfen.
      * Kleinere, schnellere Multi-Layer Perceptrons (MLPs) werden verwendet, es fehlt ihnen jedoch an Generalisierbarkeit auf verschiedene Roboter-Embodiments.
      * Es ist unklar, ob Transformer schnell genug werden oder ob MLPs flexibler werden.
      *4. Octo-Modellspezifika: (**0:04:00**)*
      * Octo, eine Transformer-basierte Richtlinie, wird mit dem bisher größten Datensatz für Robotermanipulation (800.000 Trajektorien) trainiert.
      * Es kann mehrere Roboter-Embodiments sofort nach dem Auspacken steuern und sprach- und zielbildbasierte Aufgaben lösen.
      * Octo unterstützt die Feinabstimmung auf neue Roboter und Aufgaben mit neuen sensorischen Eingaben und Aktionsräumen.
      * Wichtige Designentscheidungen:
      * "Transformer-First"-Architektur für Skalierbarkeit. (1:03:00)
      * Vielfältige Trainingsdaten von verschiedenen Robotern und Aufgaben. (0:08:30)
      * Diffusionsdekodierungs-Trainingsziel für multimodale Aktionsprognose. (0:30:00)
      * Skalierbarkeit der Modellgröße: Die Leistung verbessert sich mit größeren Modellen. (1:05:30)
      *5. Zukunft der Robotik und Arbeit: (**1:12:30**)*
      * Es wird erwartet, dass universelle Roboter spezialisierte Roboter in allen Bereichen übertreffen werden.
      * Die Automatisierung von Arbeitsplätzen wird zu einer Verschiebung hin zu virtuellen Volkswirtschaften und bezahltem Konsum führen.
      * Menschenzentrierte Aufgaben und Fähigkeiten (z. B. handwerkliches Können, menschliche Interaktion) könnten an Wert gewinnen.
      *Gesamt:*
      Die Diskussion zeichnet ein Bild einer sich schnell entwickelnden Robotiklandschaft, in der Sprache, Datenquellen, Modellarchitektur und Geschwindigkeit wichtige Überlegungen sind. Während Octo einen bedeutenden Fortschritt darstellt, bleiben Fragen über den Weg zu wirklich universellen Robotern und deren gesellschaftliche Auswirkungen offen.

    • @Tomcat342
      @Tomcat342 Před měsícem +1

      Thank you.

  • @bryanpdavis
    @bryanpdavis Před měsícem +1

    Problem with the robotics not providing feedback, it’s the end game. That’s how they deploy.

  • @FredPauling
    @FredPauling Před měsícem +2

    Agree that the path forward is using video of humans to train