[B! crawler] tailtameのブックマーク

GitHub - ai-robots-txt/ai.robots.txt: A list of AI agents and robots to block.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

tailtame 2025/04/27

いつの間にか生えてるのでブロック追いつかず😬　同一鯖の複数ドメインを更新一括化させたい

リンク

Block AI Bots from Crawling Websites Using Robots.txt

Block AI Bots from Crawling Websites Using Robots.txtSee the live dashboard showing the websites that are blocking AI Bots such as GPTBot, CCBot, Google-extended and ByteSpider from crawling and scraping the content on their website. Learn which AI crawlers / scrapers do what and how to block them using Robots.txt. Bots such as OpenAI’s GPTBot, the Applebot, CCBot, Google-Extended, and Bytespider

tailtame 2025/04/27

このページアンテナに突っ込んどくか🤔 https://github.com/ai-robots-txt/ai.robots.txt にした

リンク

Is DuckAssistBot related to DuckDuckGo? - DuckDuckGo Help Pages

tailtame 2025/04/16

cnnの拒否に「User-agent: DuckAssistBot」増えててDuckならここか～とな。なるほど拒否るわ( ˘ω˘ )

crawler

リンク

ICC-Crawler | ユニバーサルコミュニケーション研究所 | NICT

2024年7月11日以降に収集した情報については、以下の収集目的に従い利用します。それ以前に収集した情報の取り扱いについてはこちらをご覧ください。 ICC-Crawlerとは ICC-Crawlerは、ウェブ上を自動的に巡回してウェブページを収集するクローラと呼ばれるプログラムのひとつです。ICC-Crawlerは国立研究開発法人情報通信研究機構ユニバーサルコミュニケーション研究所が運用しております。我々はICC-Crawlerが収集先ホストの迷惑とならないよう細心の注意を払って運用をしております。万が一ICC-Crawlerが問題を生じさせている場合には、後掲の連絡先にご連絡をいただければ直ちに対象の収集先ホストからの収集を停止します。収集ポリシー接続先ホストへ過度な負荷はかけません。収集先ホストにかかる負担を軽減するため、収集先ホストに対する時間あたりの接続数を監視し、過度

tailtame 2025/04/16

旧『・ウェブアーカイブの構築　・多言語翻訳や情報分析等の高度情報処理技術の研究開発用データの収集』『研究以外の目的では使いません。』現在、第三者提供

crawler

リンク

https://www.help-note.com/hc/ja/articles/43414600875673-AI%E5%AD%A6%E7%BF%92%E3%81%AB%E5%AF%BE%E3%81%97%E3%81%A6%E6%84%8F%E5%90%91-%E3%82%AA%E3%83%97%E3%83%88%E3%82%A2%E3%82%A6%E3%83%88-%E3%82%92%E7%A4%BA%E3%81%9B%E3%82%8B%E6%A9%9F%E8%83%BD%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6

tailtame 2025/02/13

『AI学習に対して意向（オプトアウト）を示せる機能について』どんな表記なんだろ

リンク

サイトのコンテンツを無断収集するAIクローラーを捕獲し、脱出できなくするツールが物議【やじうまWatch】

tailtame 2025/02/06

真っ先に捕まるのがbingbotっぽい気がする。robots.txt読まないし。openAIやらは拒否を読んだら帰る…。robots.txtだけはアクセス許可しとくといいよ。まともなのは減るよ。bingbotはだめだよ

リンク

「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張

生成AIを利用した検索エンジンの「Perplexity」に対して、検索エンジンやAIトレーニングなどのボット(クローラー)を制御できるテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが指摘されています。これに対し、Perplexityのアラヴィンド・スリニヴァスCEOが、「robots.txtの指示を無視しているわけではない」「自社のクローラーだけでなく、サードパーティーのクローラーにも依存している」と釈明しました。 Perplexity AI CEO Aravind Srinivas on plagiarism accusations - Fast Company https://www.fastcompany.com/91144894/perplexity-ai-ceo-aravind-sriniv

tailtame 2025/01/28

2024。全世界向けだと蹴りづらいんだろうなぁとサイトの焼き追加してる

リンク

Robotcop: enforcing your robots.txt policies and stopping bots before they reach your website

Cloudflare’s AI Audit dashboard allows you to easily understand how AI companies and services access your content. AI Audit gives a summary of request counts broken out by bot, detailed path summaries for more granular insights, and the ability to filter by categories like AI Search or AI Crawler. Today, we're going one step further. You can now quickly see which AI services are honoring your robo

tailtame 2024/12/11

『Cloudflareがrobots.txtを尊重しないAIサービスをAI Auditで可視化し、WAFで弾ける機能を追加。 https://x.com/__kokumoto/status/1866623087644667913 』

crawler

リンク

AI／機械学習のクローラーをサイトからブロックする方法まとめ – Cosmos and Chaos

#AI / ML#サイト運営AI（人工知能）や機械学習用のクローラー・botをブロック（オプトアウト）する方法のまとめです。コピペ用のまとめ機械学習モデルの学習への利用機械学習モデルを利用した結果への利用・引用を拒否するコードのまとめです。注意完全に拒否できるわけではありませんこれらのコードをコピーして設置したからといって、全ての機械学習を禁止できるわけではありません。明示的に記述していないクローラのアクセスを制御することはできません robots.txtやmetaタグへの記述に技術的な強制力はありませんとはいえ何もしないよりは良いでしょう。悪影響の方が大きい場合は記載していません機械学習以外のサービスにも影響を与えてしまう場合は、まとめコードには記載していない場合があります。まとめに含まれない（各項目詳細には記載）一般的な検索エンジン（Google、Bing等）

tailtame 2023/11/01

知らんのあったー

crawler

リンク

サイトにアクセスしてきたクローラー・botの情報まとめ – Cosmos and Chaos

#サービス紹介#サイト運営行儀の良いものから悪いものまで、日々色々なボットやクローラーがサイトにアクセスしてきます。この記事では各種クローラーの情報（主にUser-Agent）をまとめました。見出しのリンク先は各botの説明ページになっています。量が多いのでページ内検索でUAを探すのがおすすめです。私はサイトのアクセスログを見て、怪しげなものは定期的にブロックしたりしてサイトが攻撃されるのを防いでいます。検索エンジン基本的にブロックしない方が良いです。しかし中には行儀が悪いものも居るので、流入数と要相談。ひっそり運営したいサイトならブロックで。 Googlebot おなじみ。Googleにインデックスさせたいならブロックしない様に。 Webマスターツールもあります。 UA一覧などはリンク先にあります。 Bingbot Mozilla/5.0 (compatible; bin

tailtame 2023/11/01

crawler

リンク

私がメインサイトでアクセス拒否しているBOT一覧を紹介！(.htaccess用の拒否サンプル付き！) | Wordpress初心者な技術屋の忘備録

今回の投稿では、私がメインサイトで使用しているBOT拒否用の.htaccessを公開。そして、それらのBOTが何をしにやってくるのかも改めて認識するためにメモしていこうかと思います。 ※正直、どれも要らないと判断したから拒否している訳ですが… こいつなんのBOTやねんって調べてる方の参考になれば幸いです。 # BEGIN ===BlackList=== <IfModule mod_rewrite.c> RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC,OR] RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC,OR] RewriteCond %{HTTP_USER_AGENT} BLEXBot [NC,OR] RewriteCond %{HTTP_USER_AGENT} DotBot [NC,OR] Rew

tailtame 2018/10/16

GrapeshotCrawlerがうざいので弾こうかなと…弾いていいか。robots.txtのアクセスは許可する(｀・ω・´)ｶｯ

リンク

https://okamerin.com/nc/title/446.htm

tailtame 2018/09/12

「 gw.ucri.jgn-x.jp 」

crawler

リンク

https://www.google.com/robots.txt

tailtame 2018/03/14

googleのあるのか

crawler

リンク

goo検索（ウェブ）

tailtame 2018/02/12

多い(｀ω´)

crawler

リンク

Robots Exclusion Standard - Wikipedia

ウィキペディアにおけるRobots Exclusion Standardについては、「MediaWiki:Robots.txt」をご覧ください。 Robots Exclusion Standard(RES) または Robots Exclusion Protocol は、クローラやボットがウェブサイト全体またはその一部を走査することを防ぐ規約である。ロボット排除規約、robots.txt プロトコルとも呼ばれる。こういったボットは検索エンジンがウェブサイトの内容を分類しアーカイブするために主に使ったり、ウェブマスターがソースコードを校正するために使ったりする。直接の関係はないが、逆にボットを案内する目的のSit emapsと組み合わせて使うこともできる。 "robots.txt" は、1994年ごろWebCrawlerという検索エンジンで働いていた Martijn Koster が考案したと

tailtame 2017/08/31

BingもAllow聞いてくれるのか。面倒だから全部DisallowにしてGoogleとBingだけ許可するかなーという面倒くささ。

リンク

作品データベース: アニメ、漫画、映画等の評価・情報DB

作品DBはアニメ・漫画・ゲームから映画迄、様々な作品の評価・情報集積サイトです。全分野アニメゲーム漫画文学ドラマ特撮日本映画海外映画作品評価OP/ED情報DB論客ブログ検索並順アニメ: 評価新着開始日書込数閲覧数ランキング(総合点 / 平均点 / 属性)50音順あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわ並順ゲーム: 評価新着開始日書込数閲覧数ランキング(総合点 / 平均点 / 属性)50音順あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわ並順漫画: 評価新着開始日書込数閲覧数ランキング(総合点 / 平均点 / 属性)50音順あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわ並順文学: 評価新着開始日書込数閲覧数ランキング(総合点 / 平均点 / 属性)50音順あい

tailtame 2016/06/16

2008。『clients.your-server.de』やっぱ弾こう…

crawler

リンク

https://s-books.net/crawl_policy

tailtame 2016/05/26

『公開中のWebページの文書を収集し、文書構造を解析することでマーケティングに活用できる情報を提供しています。』昔のNaver並みか。http://f.hatena.ne.jp/tailtame/20160526152952 過疎サイトに…SBooksNet絶許

crawler

リンク

http://warebay.com/bot.html

tailtame 2016/02/03

hosted-by-i3d.net 『/review/firefox/"http://b.hatena.ne.jp/">はてなブックマーク</a>常用としてはなくてはならない。』他。何このクソbot。『Mozilla/5.0 (compatible; WBSearchBot/1.1; +http://www.warebay.com/bot.html)』

crawler

リンク

Applebotについて - Apple サポート (日本)

Applebotについて AppleのWebクローラー、Applebotについて説明します。 Applebotによってクロールされたデータは、Spotlight、Siri、SafariといったAppleのエコシステムの多くのユーザ体験に組み込まれた検索テクノロジーをはじめとするさまざまな機能を強化するために使用されます。robots.txtでApplebotを有効にすると、世界中のこれらの製品のAppleユーザの検索結果にWebサイトのコンテンツを表示できます。 Applebotによってクロールされたデータは、Appleのさまざまな製品（Apple Intelligence、各種サービス、デベロッパツールなど）の生成AI機能を実現しているAppleの基盤モデルのトレーニングにも、使用される場合があります。Webパブリッシャーは、robots.txtファイルでApplebot-Extende

tailtame 2016/01/18

『Siri や Spotlight 検索候補などの製品で使用されています。』へー「17-142-157-172.applebot.apple.com」UAメモ http://bbs.tailtame.com/board/read.php/1123590879/84n