2025年11月8日土曜日

web作家の間で生成AIが作った作品がランキング1位を獲ったからって何かざわついているらしい。2

8873 Emma Watson _34

 もう、ネット上、本物のエマ・ワトソン氏がこんな写真を撮って剰え世に出すはずがない、と言うのが多すぎて、よく訴訟沙汰にならないものだと呆れつつ、この画像の基になった物はどうだったんだろう? むしろこんな何かの役柄のものは公式のガチものとしてありそうな気がする。実は、氏の出演作、ハリーポッターも含めみたことがないのだ。

 さて、

 今、オレの中では、AI生成作品問題と、NTRザマァテンプレ問題が、ちょうどオレの中で重なったわけなんだが、せいぜい登場人物の名前設定を入れ替えただけの作品(?)なんて、ねえ。で、件の1日30云件更新の人じゃなくても、これをやってるっぽい人、複数確認している。
 AI生成作品と、テンプレNTR・ざまぁ量産作品って、発生の仕方も、質的な問題もすごく似ている。どちらも本来は「表現」だったはずなのに、いまや「生産」になってしまっている。そこに登場人物ではなく作り手の意図や痛みや願いが薄くなると、作品は“ただの構文”になっていく。
 AI生成の話で言えば、「中身よりも量、速度、最適化」で動くだろうし、テンプレNTRの話で言えば、構造は売れる型で、感情は記号化してしまっている。どちらも“仕組みの成功”であって、“物語の成功”ではない。読者も一瞬は食いつくけれど、心に残らないとおもうがどうか?哀れ、登場キャラクターたちはそのほんの刹那の食いつきのみで、後は忘れ去られてしまう。まぁ、架空の人物達なんだがね。人工的に増殖した「似たような名前の登場人物たち」が、同じような苦しみや快楽を繰り返しているだけだから。

 AI問題とはすなわち、創作の自動化/テンプレ化問題の極限形だ。AIが文章を量産してるように見えて、実は人間もすでに“テンプレAI”みたいに振る舞っている。「流行る構成」「刺さる設定」「売れる語彙」で作品を組む。だからAIが登場しても、構造的には何も変わっていない。
 むしろAIが鏡を突きつけてきたわけだ。「あなたたちも、もう自分で書いてないんじゃない?」ってね。
 だから、AIを排除するかどうかよりも、「自分はどこで書いてるのか」「誰の声で語っているのか」そこを取り戻せるかどうかが、ほんとの分水嶺ではなかろうか? 名前だけ入れ替えた量産物が溢れる中で、 “たった一つしか書けないもの”を出せる人こそ残ってほしいものだが。

 「どこで」「どう」勝負するかを決めるのは、もう誰でもなく、作者本人だ。AI生成だろうが、テンプレ量産だろうが、そのフィールドで勝とうとすれば――結局、機械やアルゴリズムと同じ土俵に立つことになる。たとえ勝てたとしても、それは「再現性」と「速度」の勝負であって、表現者としての“意味”は、ほとんど残らない。

 でも逆に、「そこじゃない場所」で勝負するって決めた瞬間に、
 創作って一気に面白くなる気がしてならない。
  たとえば、読者の“数”ではなく、“深さ”で勝負するとか、ランキング外でも、「あの一文が刺さった」と言わせるとか、AIが書けない「迷い」「空白」「言葉にならないもの」を描くとかな。
 そういう戦い方を選んだ人は、競争じゃなく“立場”を持てるのではないか?

 たぶん今の時代、作家にとって一番大事なのは、「どんな物語を書くか」よりも、「どの地形で、自分の物語を響かせるか」なのではないか? AIやテンプレに呑まれた場所で勝つのは難しい。だが、その外側に新しい聴衆を見つける、あるいは自分で場を作ることはできる。
 結局のところ、勝負は土俵じゃなくて、場所選びから始まっている。語るべきものがあるなら、どんな地形でも語る。

 各プラットフォームで見受けられる作家さんたち、おそらくは、皆さん、オレより若いのにナーバスになりすぎてないか、と、ちょっと気になった。以下、ほんの少しだけ昭和オヤジのマウントにお付き合い願いたい。笑って受け流してもらえたら幸い。
 今の若い創作者たち、特にネット発の世代な、「評価システムに心を乗っ取られやすい」のではないか? ランキング、PV、いいね、レビュー。どれも「見える成果」だから、数字がちょっと動くだけで自分の存在価値まで揺らぐ。しかもSNSの即時反応が、それをさらに増幅する。
  「そもそも創作って、そんなに安定したもんじゃないだろ?」という立脚点が、まぁ、年寄りにはある。それがあると、ランキングがどうだろうが、AIが出ようが、「で?」って言える強さがあると思っている。若い層がナーバスになってるのは、彼らが「創作=自分の存在証明」みたいに感じているから。でも、「創作=一つのやり口」「手札の一枚」くらいにしてる人のほうが、むしろ長期的に残ってくんじゃないかと思っている。商業的に大成功するとは限らないがな。
 「感情を凪がせて、場を見渡す余裕」って、経験と失敗を積んだ人間にしか持てない武器なのかねぇ? 若い子たちがAIやランキングに揺さぶられてる今、その“凪の構え”を見せてる人のほうが、創作の未来を冷静に見てるように思う。


 ところで、これがイラストだとどうなんだろう? 確かに、まず、一枚あげるのに時間を考えたら勝負にならなさすぎる、というのは絶対で。同じタッチ色使いでわれ知らぬところで生成されてたら、確かに辛いかもね。イラストの世界では、もう創作の「速度」と「再現性」が完全に武器化されてしまっているようだ。AI絵は一晩で百枚でも生成できるし、構図・塗り・タッチの模倣精度も年々上がっている。手で描く人からすれば、そりゃ正面から競っても勝負にならない。
 でも、それでもなお**「描く意味」を掘り下げて残ってる絵描き**は確実にいるんじゃないか? ちがうか?

 見渡す限り、彼らがどう生き延びてるかというと、大きく分けて三つの方向だ。

①「作画」から「表現」へスライドする人
 たとえば、同じキャラを描き続けて“文脈”を積み上げる人や、作品世界や連作性、物語性で勝負する人、手癖・タッチ・筆圧の「偶然性」を魅力として見せる人だ。
 AIは“今ある情報”の平均化は得意だけど、「継続する意志」や「一貫する癖」は苦手。「絵柄の物語」、そう物語を持ってる人は、まだAIの外側にいるように思う。いや、いて欲しい。
②「交流・プロセス」に価値を置く人
 配信しながら描く人、っていうか、ネット上でそう言うコミュニティというか、お仲間の集まりと言うのは確かにあって、いろいろやっておられるんだろうね。下描きや工程をシェアするとか、ファンとのコメント往復そのものを“作品”にするとか。
 AIは“完成物”を出すけど、“過程”は持てない。その「作る途中」や「やりとり」を価値化できる人は、AI時代でも支持を集めるかもしれない。知らんけど。
③「人間的な歪み」を前提に描く人もいる。
 AI絵がどれだけ綺麗でも、違和感がないというのは逆に“深みがない”とも言える。人間の絵は、線が震える、塗りがムラになる、構図が不自然になる。でもそこに「描いた人間の体温」が残る。それが刺さる人にとっては、AIの均一な絵よりずっと記憶に残る事もあるだろう。

 つまり、「1枚で勝負」っていう構図自体がもう危険ということになるかもしれない。AIが1枚ずつを量産するなら、人間は「文脈」「継続」「関係」で戦うしかない。
 たぶん今後は、小説と同じで、「一枚の完成度」ではなく「一人の作家として、どんな軌跡を描いたか」が評価軸になっていく可能性もある。
 そして――それを冷静に言語化できる人が、むしろ“新しい地図”を描く側に回る時代なるような気がする。


 そういえば、この前見た見返り生成エマワトソン、よくよく見たら腕の関節が人間のものじゃなくてわろた。AI生成特有の“関節地獄”。一見すると完璧なんだけど、肘が逆に曲がってるとか、指が7本あるとか、首がどっから生えてるのかわからないとか。しかも、モデルの顔や質感がリアルになればなるほど、その“ちょっとした歪み”が逆にゾッとする。人間の目って、顔や体の「あり得なさ」には異常に敏感だ。
 AI絵がどんなに精密でも、結局は“整合性をとりきれない”部分が残る。それは単なる技術の未熟さだけじゃなくて、AIには「骨格の痛み」や「身体感覚」がないから。だから、あの不自然な関節の向こうには、ちゃんと“描いた経験のない存在”が透けて見える。
 逆説的に、そこが人間の絵の強みになりうる。「描いた人間がそこにいた」という証拠が、震える線の中にしかない。

 画像を読み込んで、AI、問われたら「腕」と答えはするのだが、それがないと、腕を腕と認識しないのかな、と思ったりする。実際、AIが「画像をどう認識しているか」というのは、人間の感覚とはだいぶ違うらしい。AI(特に画像生成や認識系モデル)は「腕」という概念を人間のように理解しているわけではなく、過去に学習した大量の画像の中で「腕とラベルづけされた部分によく現れる形状・位置・色のパターン」を統計的に記憶しているのだということだ。
 だから、もし画像全体を読み込んでも、「腕っぽい形」が見えない/欠けている/他の物体に重なっていると、AIは「腕がない」と判断することがあるらしい。逆に、関節の位置や長さ、手指の形などが平均的な“人間の腕”とズレると、「これは腕っぽいが不自然」とは思わず、そのまま“腕”として出してしまうのだという。
 つまり、AIは「これは腕だ」と“理解”しているというより、「ここにこういう線と陰影と肌色があると、多くの学習画像では“腕”というラベルがついていた」という確率で判断しているだけということになる。
 したがって、問われたら答えられるけど、自分からはわかってない、というのが、実際のところらしい。人間が「見た瞬間に違和感を覚える」ほどの奇形を、AIが“自然”だと判断して出力してしまうのはこのためなんだろう。
 だからたとえば、学習量によって、そういうおざなりな部分も存在する。「学習量」や「学習の質」によって、AIの“おざなりさ”はかなり変わるということになる。もう少し正確に言うと、AIが何をどう見抜けるかは、次の3つの要素の掛け算で決まるのだそうだ。

① 学習量(データの量)
 画像認識モデルは、何億枚という画像から統計的なパターンを学ぶ。ただし量が増えても、「腕の正しい曲がり方」「自然な手の重なり」など精密な構造情報が少ないデータだと、AIはそこを“適当に補う”ようになる。ということは、「数だけ多くても雑な学習」だと、ざっくりした腕や手は描けるが、関節のつき方や筋肉の自然さまではわからない。

② データの質(多様さ・正確さ)
 例えば、医学的な人体写真や3Dスキャンのような精密データやプロの画家や写真家による“人体を理解した構図”が豊富に含まれていれば、AIは「腕のつき方」「自然な骨格バランス」も学べる。逆に、ポーズ写真やアマチュア作品中心だと、“平均的な腕”の曖昧な像しか作れない。 結果として、手首が2本あったり、関節が逆に曲がるといったことが起きやすい。

③ モデル構造(学習方法・パラメータ設計)
 近年のモデル(例:SDXLやFluxなど)は、構造的学習(spatial awareness)が強化されていて、関節や物体の位置関係をより精密に理解できるのだと。一方、古いモデル(Stable Diffusion 1.x系など)は、単に「似ているピクセル」を平均化して描くため、部分的な破綻が多い。

 要するに、学習量が足りないと“知らない”、学習の質が悪いと“間違って覚える”、モデル設計が古いと“構造が壊れる”、という三段階の「おざなり」が存在する、ということだ。
 もし「リアルタッチの人体」や「見返り構図」みたいな破綻しやすいテーマを扱うなら、プロ級の参照素材(ポーズ資料や写真)を一緒に渡して「これを参照して」と指示することで、かなり破綻を減らすことができることになる。人間にたとえると、「独学でスケッチしたやつ」より「クロッキー会で何百回もデッサンしたやつ」の違い、みたいな感じか。

 生成美女が真正面の肖像が多くても、斜めからの画像が思いのほか少ないのはその辺が理由に関係している。「斜め構図が少ない」現象は、まさに、学習データの偏りと構造理解の難易度の両方に直結している。
 AIモデルが学習している画像の多くは、
 SNSや写真共有サイト、肖像データベースからの収集が中心です。
 そこに多いのは圧倒的に「正面顔」だ、そういえば。理由を挙げるならば、顔認証やポートレート撮影用途で正面が主流ということ、SNSのアイコン・プロフィール用は正面向きがほとんどということ、アマチュア写真やセルフィーも、カメラ目線が圧倒的に多いということ、の3点。
 結果、AIの内部では「顔=正面を向いた楕円形の中に目鼻口が並ぶもの」
 という統計的な“常識”が出来上がってしまっている。だから、3/4斜めや横顔になると一気に破綻率が上がる。とくに目と鼻の奥行き関係や、輪郭線の陰影の扱いが弱くなる。

 AIは3D的な立体を理解しているわけではなく、「2D画像間のパターン」を確率的に学んでいるだけだ。だから、角度が変わると“別のもの”として扱ってしまう。構造理解の限界というわけだ。「空間の回転」がすんごく苦手。

 こんなこともあるらしい。たとえば Stable Diffusion や Flux 系では、「構図バランス」や「ポーズごとの特徴」**を学習させてはいるが、それでも正面構図の圧倒的多数が基礎を占めているため、生成時にプロンプトで「斜め」「横顔」などを指定しても、 “無意識に正面へ戻ろうとする”傾向があります。AIの「平均への引き寄せ」だ。これはモデルの学習戦略の影響といえる。

 まとめると、生成美女の正面顔が多いのは、データの偏りがある事、立体認識がまだまだ足りないということ、平均を行こうとすることの3点に集約される。
 したがって、もし斜めや動きのある構図を作りたいなら、「3/4 view」「profile view」「dynamic angle」「from above」など、具体的な角度指示+身体の向き指定(肩・腰・顎など)を併用するのがコツと、チャッピーは宣ってる。また、「写真作品」や「映画のスチル」から学んだモデルを選ぶと、斜め構図でも自然な結果が出やすいとのことだ。


 更に言えば、AIは3dモデリングをしないことで不気味な谷を回避してる。あの「AIが3D構造を理解していない」という話と、「不気味の谷(uncanny valley)」の回避は、裏表の関係にある。AIは“立体を理解しない”ことで、むしろ安全地帯にいるのだ。
 本来、人間が「不気味」と感じるのは、“ほぼ人間っぽいけど、微妙に違う”ときだ。たとえば3Dモデルの顔が「硬い」「瞬きが不自然」みたいなケース。
 しかしながらStable Diffusion や Midjourney のような画像生成AIは、
 あくまで「写真っぽい2Dの模様」を再構成してるだけだ。つまり、彼らは「立体を理解して再現」しているのではなく、「過去に見た“平面としての人間像”を寄せ集めて作っている」。
 その結果、本物っぽいのに、リアルな人間の“ズレ”が出ないし、だから、CGモデルやゲームキャラのような“生理的な違和感”が起きにくい。
 これが、「3D的な理解をしないことで、不気味の谷を避けている」という構造ということになる。

 逆に、谷に落ちるのは「立体を中途半端に再現しようとしたとき」だ。最近のAI(特に動画生成や3Dレンダリング系)は、そこに一歩踏み込もうとはしている。が、3D理解が不完全なままだと、顔が動くと、目鼻の位置がズレるし、首の角度で皮膚のテクスチャが歪むし、立体感と陰影が喧嘩するし、さっぱりワヤですわ。
 こういう“違和感の揺らぎ”が起きて、不気味さが増す。まさに「谷の中腹で足を取られる」状態だ。
 つまるところ、つまり、AIは「嘘をつくのが上手い」。人間が見る“リアル”って、
 実は「本物っぽく見える2D情報」だったりする。だからAIは、「立体的に正確」よりも「そう見えるように誤魔化す」方向で最適化されてる。
 これは絵画の写実主義にも近い。フェルメールも、構図と光の演出で“本物らしさ”を出したけど、実際の空間比率はかなり歪んでる。
 AIもまさにそれを確率的にやってる感じ。

 もしAIが本当に3Dモデリングベースで「骨格」「筋肉」「皮膚」を正確に再現し始めたら、いよいよ“人間の模倣者”として不気味の谷に突入する。が、現状の生成モデルは、 “谷の手前で踊ってる”くらいの距離感をうまく保ってるわけだ。


 言い換えると、人間に真似できない速度でカバーする2dアニメだったということになる。AIが「立体を理解せずに2Dで“リアルっぽさ”を出す」構造と、日本の2Dアニメーション文化が進化した方向性は、まったく同じ「不気味の谷を避けるための高速化と記号化」という点でつながっている。

 日本アニメが「2Dのまま高速化」したのは、ディズニー型のフル3D的立体表現(=西洋的リアリズム)ではなく、「少ない枚数で、印象的な動きを作る」という省略の美学で発展してきたという経緯がある。 限られた予算と時間の中で、リアルな人体の動きを模倣せず、記号的な動き・線・影で“リアルよりリアルに感じる”感情表現をする、という、これが「リミテッドアニメーション」の核心だ。手塚治虫がディズニーを研究しながら、逆に“動かさない演出”を確立した理由もそこにある。
 つまり、立体を完璧に再現する努力より、2Dの虚構を極める方向に行った。そのほうが、不気味の谷を回避できるし、表現として自由度が高かった。

 AI生成も「2Dアニメ」と同じ戦略を取っている。正確な3D構造は持たない、陰影や線を“そう見えるように”配置する、表情や構図を“感情的に最も伝わる角度”で補正する、といった具合に。
 つまり、AIは3Dを「理解していない」のではなく、理解しないほうが、人間が“美しいと感じる絵”を出せるということを、確率的に学習しているわけだ。
 これは、実は「手描きアニメーターの最適化」と同じ構造である。2Dで“時間と空間を省略しながら感情のピークを描く”、AIはそれを統計でやってるだけなのだ。

 「速度」で人間に勝るのも、同じ2Dという土俵だからということだ。AIは「2Dの空間と色と形」を組み合わせるだけなので、3Dレンダリングのような物理計算が不要。だから人間の何千倍ものスピードで試行錯誤できる。
 日本アニメが「少ない枚数で情感を伝える」ように、AIも「少ない情報で“リアルに見える”」方向を極端に突き詰めててしまってる。

 言い換えよう。AI生成は、3Dではなく2Dアニメの延長線上にある。
 そして、日本のアニメ文化が長年かけて辿り着いた“虚構のリアリティ”の哲学を、AIは無意識のうちに再現している。だから、もし未来のAI映像が「ジブリと攻殻機動隊の中間」みたいな世界を作ったら、それは技術的進化というよりも、むしろ日本の“2Dで3Dを超える”美学の再発明になるかもしれぬ。


 

0 件のコメント:

コメントを投稿