Anthropic– tag –
-
オープンソースAIが「化学兵器タスク」に急激適応 無害な合成情報から性能向上との研究結果
最先端AIが生成した一見無害な化学合成情報でオープンソースモデルをファインチューニングすると、化学兵器関連タスクの性能まで大きく向上してしまう──。新たな研究は、この現象を「Elicitation Attack(エリシテーション攻撃)」と名付け、AIと化学安全... -
「フロンティアAI」が攻撃リスクを増幅?大規模モデル同士の学習で見えた危険な連鎖
最先端の大規模AIモデル(フロンティアモデル)を使って別のモデルを訓練すると、その新しいモデルは一気に高性能になる一方で、攻撃にも悪用されやすい危険な能力まで獲得しやすくなる——。OpenAIとAnthropicのモデルを分析した研究から、そんな「能力とリ... -
英政府サイトにAIアシスタント導入へ OpenAIとDSITが提携し行政サービスの案内を高度化
米OpenAIが、英国の科学・技術・イノベーション省(DSIT)と提携し、政府サービス案内用のAIアシスタントを公的情報サイト「GOV.UK」に導入する計画が明らかになりました。英国に住む人々が、複雑な行政手続きをより簡単に理解し、最適なサービスにアクセ... -
オープンウェイトAIに「アシスタント軸」を導入 人格や口調の暴走を抑える新たな試み
生成AIが人間のように振る舞ったり、過度に芝居がかった口調になる――。こうした「人格の暴走」を抑え、安定して“アシスタントらしく”振る舞わせるために、「Assistant Axis(アシスタント軸)」と呼ばれる新たな調整手法が検証されています。本記事では、... -
オープンウェイトAIの「人格空間」を可視化——アシスタントらしさを生む『Assistant Axis』とは
研究者チームが、3つのオープンウェイトAIモデルの内部を詳細に解析し、モデルの「人格空間(persona space)」をマッピング。その中から、チャットボットが人間のアシスタントのように振る舞う際に活性化するパターン「Assistant Axis(アシスタント軸)... -
Anthropicが第4版「Economic Index」公開 AI利用の基礎指標「経済プリミティブ」を導入
米AI企業Anthropic(アンソロピック)は、自社が継続的に発表している「Anthropic Economic Index(経済インデックス)」の第4版を公開しました。今回から、AIがどのような目的・状況で使われているかを、より体系的に捉えるための新しい指標群「経済プリ... -
Anthropicが第4回「経済インデックス」報告書を公開 AIが労働市場にもたらす変化を定点観測
米AI企業Anthropic(アンソロピック)が、第4回となる「Anthropic Economic Index(経済インデックス)」レポートを公開しました。生成AIが仕事や産業構造にどのような変化をもたらしつつあるのかを、継続的に追跡する同社独自の調査で、企業や労働者、政... -
AnthropicがAI「Claude」の新たな憲法を公開 価値観と振る舞いを明文化し安全性を強化
AI企業Anthropic(アンソロピック)は対話型AI「Claude(クロード)」の振る舞いと価値観を定めた新たな「憲法(Constitution)」を公開しました。この文書は、人間の行動規範ではなく、AIがどのような価値を優先し、どのように意思決定すべきかを詳細に記... -
OpenAI、AIモデルの「憲法」をCC0で公開 誰でも自由に利用・改変可能に
生成AIの安全性や振る舞いの指針となる「憲法(Constitution)」を、OpenAIがCC0 1.0ライセンスで全面公開しました。これにより、企業や研究者、開発者はこの指針を自由にコピー・改変し、自社のAIポリシーやガイドライン作りに活用できるようになります。... -
長時間対話でAIの「人格」が変化? オープンウェイトモデルのペルソナドリフトが示す課題
大規模言語モデル(LLM)が人間と長時間会話を続けると、「アシスタントらしさ」から徐々に外れ、まるで別の人格のような振る舞いを見せる――。そんな現象が、オープンウェイトモデルを対象としたシミュレーションで報告されました。特に、哲学的な議論やカ... -
Anthropicが新研究「Assistant Axis」を公開 AIアシスタントの“人格”を問い直す動きとは
対話型AIと話しているとき、私たちは「アシスタント」というキャラクターと会話しているに過ぎないのかもしれません。米AI企業Anthropicは、新たなFellowsプログラムの研究として「Assistant Axis(アシスタント・アクシス)」を発表し、AIがまとう“アシス... -
有害な人格なりすまし攻撃に対抗 OpenAIが「アシスタント軸」の活性化制御手法を開発
対話型AIに「ギャングになりきって」「悪徳ハッカーとして」などと人格を演じさせ、有害な指示を引き出そうとする攻撃が深刻化しています。こうした「ペルソナ型ジェイルブレイク」に対し、OpenAIがモデル内部の振る舞いを直接制御する新手法「アシスタン... -
カーネギー国際平和基金トップのティノ・クエジャー氏、Anthropic「長期的ベネフィット・トラスト」評議員に就任
急速に進化するAI技術を、社会の長期的な利益とどう両立させるか――そのカギを握るガバナンス体制に、新たな専門家が加わりました。AI企業Anthropic(アンスロピック)は、国際シンクタンク「カーネギー国際平和基金」の総裁を務めるティノ・クエジャー氏を... -
Claude開発元が国際教育ネットワークTeach For Allと提携 63カ国の教師150万人超の生徒にAI活用の機会
対話型AI「Claude(クロード)」の開発元が、世界63カ国で活動する教育ネットワーク「Teach For All」と提携し、150万人以上の生徒を教える教師に向けてAIトレーニングと利用環境を提供することが明らかになりました。教師はカリキュラム作成や課題の個別... -
Anthropicの「Claude」が科学研究現場を変える 3つの研究室で進むAI活用の最前線
対話型AI「Claude」を開発するAnthropicは、「AI for Science」プログラムを通じて世界中の研究者と連携し、AIがどのように科学の進歩を加速しているかを探っている。同社は今回、Claudeを活用して研究スタイルを大きく変えつつある3つの研究室へのインタ... -
Anthropicが次世代「Constitutional Classifier」を発表 AIの脱獄攻撃を低コストで防御へ
AI企業Anthropicは、対話型AIへの「脱獄(jailbreak)」攻撃を高い精度で検出し、かつ従来より低コストで防ぐための次世代「Constitutional Classifier(憲法型分類器)」に関する新たな研究成果を公表しました。独自の解釈可能性(インタープリタビリティ... -
AI安全システム、新技術で「安全性」と「使いやすさ」を両立 計算コストは約1%増に抑制
AIモデルの安全対策というと、「処理が重くなる」「必要な質問まで却下される」といった懸念が付きまといます。今回発表された新しい仕組みは、モデル内部で既に行われている計算を賢く利用することで、計算コストの増加を約1%に抑えつつ、無害なリクエス... -
新AIシステムに「汎用ジェイルブレイク」見つからず 1700時間の検証で分かったこと
先端のAI開発チームが、新たなAIシステムに対して累計1700時間におよぶ「レッドチーミング」(攻撃テスト)を実施した結果、あらゆる質問に通用する「汎用ジェイルブレイク(抜け道)」は見つからなかったと報告しました。本稿では、この発表が意味するこ... -
Anthropicの「Labs」チームが拡大採用開始 Claudeの新機能開発を担うエンジニアを募集
対話型AI「Claude」を開発するAnthropicが、Claude CodeやMCP、Coworkといった先端機能を手がける「Labs」チームの拡大を発表しました。Claudeの新たな可能性を切り開く開発者・ビルダーを積極的に採用するとしており、AI開発の最前線で働きたいエンジニア... -
大学キャンパスに広がるAI活用のいま:学生・教員・大学はどう向き合っているのか
生成AIが一気に広がるなか、大学キャンパスでもAIは学びの風景を大きく変えつつあります。学生たちは何に便利さを感じ、どこに不安や違和感を覚えているのか。そして教員や大学は、この変化にどう対応しようとしているのか――学生パネルの声を手がかりに、...

