webalizer

Hits(ヒット数) エラーをも含む、WEBサーバーのログに記録されたすべてのアクセス数。
Files(ファイル数) Hitsのうち、正常アクセスの数
Pages(ページ数) Hitsのうち、HTMLページの数

かといってFilesでは、正常なアクセスとはいえ画像の極端に多いサイトだと、Filesの数も多くなってくるので、これもヒット数同様に曖昧です。ですので、一般的にHTMLページだけをカウントしたPages(ページ数)をアクセス数の基準とされるのが多いです。(ページビューといったりもします。)
またPagesのうち、30分以内の同一IPからのアクセスを除いたものがVisits(訪問者数)となり、訪問者数単位で見たい場合はこのVisitsがよく使われます。

http://www.ahref.org/doc/webalizer.html

webalizer FreeBSD 検索語 検索ワード 日本語対応

ports でインストールして
[x] WEBALIZER_CONV Japanese character code convert patch
のオプションを有効にすることで

webalizerの検索語の日本語対応の話
http://tyche.pu-toyama.ac.jp/~a-urasim/webalizer/webalizer-a-urasim_2.patch
のパッチが有効になり、検索語の文字化けがなくなる。

pkg の ja-webalizer は上記のオプションが有効になっていないので化ける (2017/05/15時点)

WebalizerのUTF化(Portsから入れる場合) | メモlog
UTF化した場合は、SJIS(EUC)の検索語が化けてしまう

webalizerの統計やり直し

http://d.hatena.ne.jp/rougeref/20061018

webalizer出力ディレクトリで

  • webalizer.current を削除
  • webalizer.hist の当該月を過去の日付に変更 200902 -> 200002
  • 当該月のファイルを削除 rm *200902*
  • 再度webalizerを実行
  • webalizer.current を削除 (以降の実行のため)

ロボットのアクセスを取り除く

webalizerの設定ファイルの
IgnoreAgentを使う

http://www.nina.jp/server/redhat/webalizer/webalizer.conf-2.01.html

IgnoreURL(デフォルト : なし)
IgnoreSite(デフォルト : なし)
IgnoreReferrer(デフォルト : なし)
IgnoreAgent(デフォルト : なし)
IgnoreUser(デフォルト : なし) 

Ignore*で指定した文字列を含む場合、"Statistics"でカウントしないし、"Top"にも表示されない。 
つまり、無視される。 ワイルドカード'*'を使用できる。

IgnoreSite        192.168.*.*    <--- LANのアドレス"192.168.*.*"を含むリモートサイトは、カウントも表示もしない
IgnoreReferrer    www.nina.jp    <--- 自サーバ"www.nina.jp"を含む参照元は、カウントも表示もしない

http://www.dinke.net/blog/2006/09/20/hacking-webalizer-2/en/

# with IgnoreAgent we ignore based on useragent
IgnoreAgent msnbot
IgnoreAgent Googlebot
IgnoreAgent lmspider
IgnoreAgent Yahoo
IgnoreAgent ZyBorg
IgnoreAgent Jeeves/Teom

検索語

SearchEngine    yahoo.co.jp     p=
SearchEngine    google.co.jp    q=
SearchEngine    biglobe.ne.jp   q=
SearchEngine    msn.co.jp       q=
SearchEngine    goo.ne.jp       MT=

http://tyche.pu-toyama.ac.jp/~a-urasim/webalizer/

その他

-c で設定ファイルを指定した場合は上書き? (/etc/webalizer.conf の内容は読み込まれる?)